CN112434548A - 一种视频标注方法及装置 - Google Patents
一种视频标注方法及装置 Download PDFInfo
- Publication number
- CN112434548A CN112434548A CN201910791959.4A CN201910791959A CN112434548A CN 112434548 A CN112434548 A CN 112434548A CN 201910791959 A CN201910791959 A CN 201910791959A CN 112434548 A CN112434548 A CN 112434548A
- Authority
- CN
- China
- Prior art keywords
- target object
- labeling
- video
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 273
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 244000299461 Theobroma cacao Species 0.000 description 2
- 235000009470 Theobroma cacao Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例提供了一种视频标注方法及装置,属于计算机技术领域,所述方法包括:在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。采用本申请实施例提供的技术方案,能够解决视频标注的泛化性差的问题。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频标注方法及装置。
背景技术
视频标注即为针对待标注视频包含的每个视频帧,对该视频帧中出现的物体进行标识,标识的方式一般为生成包含该物体的标注框。
相关技术中,用于视频标注的电子设备中可以预先存储有多个通用标注模型,每个通用标注模型对应于一个预设物体,电子设备进行视频标注的具体处理过程包括:识别待标注视频中的物体,作为待标注的目标物体,然后,电子设备可以比较目标物体和多个通用标注模型,以确定目标物体是否为该通用标注模型对应的预设物体,如果目标物体是该通用标注模型对应的预设物体,电子设备可以生成包含目标物体的标注框。
然而,电子设备仅能对通用标注模型对应的预设物体进行标注,无法实现对预设物体之外的其他物体进行标注,导致视频标注的泛化性差。
发明内容
本申请实施例的目的在于提供一种视频标注方法及装置,以解决视频标注的泛化性差的问题。具体技术方案如下:
第一方面,提供了一种视频标注方法,所述方法包括:
在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述获取所述目标物体的标注信息包括:
以不同拍摄角度拍摄所述目标物体,得到多张图像;
针对每张图像,确定所述目标物体在该图像中的位置信息;
基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
可选的,所述标注信息还包括所述目标物体的物体标识,所述基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型之后,还包括:
对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频包括:
根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述得到标注后的视频之后,还包括:
显示所述标注后的视频,以便人工检查标注结果是否准确。
可选的,所述方法还包括:
如果接收到针对于所述标注后的视频的重新标注指令,则根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
第二方面,提供了一种视频标注装置,所述装置包括:
获取模块,用于在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
训练模块,用于基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
标注模块,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述获取模块包括:
拍摄子模块,用于以不同拍摄角度拍摄所述目标物体,得到多张图像;
第一确定子模块,用于针对每张图像,确定所述目标物体在该图像中的位置信息;
构成子模块,用于基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
可选的,所述标注信息还包括所述目标物体的物体标识,所述装置还包括:
存储模块,用于对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述标注模块包括:
第二确定子模块,用于根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
第三确定子模块,用于根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
标注子模块,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述装置还包括:
显示模块,用于显示所述标注后的视频,以便人工检查标注结果是否准确。
可选的,所述装置还包括:
生成模块,用于当接收到针对于所述标注后的视频的重新标注指令时,根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
所述训练模块,还用于基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
所述标注模块,还用于通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一第一方面所述的方法步骤。
本申请实施例提供的一种视频标注方法及装置,可以在对待标注视频中的目标物体进行标注前,获取目标物体的标注信息,再基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。之后,通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。由于生成能够标注目标物体的第一标注模型,并通过第一标注模型对待标注视频中的目标物体进行标注,因此,能够实现对待标注视频中的目标物体进行标注,解决视频标注的泛化性差的问题。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频标注方法的流程图;
图2为本申请实施例提供的一种视频标注方法的流程图;
图3为本申请实施例提供的一种视频标注方法的流程图;
图4为本申请实施例提供的一种视频标注装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种视频标注方法,该方法应用于电子设备,电子设备可以是任一具有数据处理功能的电子设备,例如,手机、计算机、平板电脑。电子设备可以在对包含目标物体的视频进行标注前,对目标物体进行拍摄,得到包含目标物体的多张图像,然后,基于多张图像生成用于标注目标物体的标注模型,再通过该标注模型标注该视频中的目标物体。由此,能够实现针对视频中的任一物体进行标注,解决视频标注的泛化性差的问题。
例如,如果想要对某一视频中出现的鼠标进行标注,则鼠标即为目标物体,电子设备可以对鼠标进行拍摄,得到包含鼠标的多张图像,然后基于多张图像生成用于标注鼠标的标注模型,再通过该标注模型标注该视频中的鼠标。
如图1所示,电子设备进行视频标注的具体处理过程包括:
步骤101,在对待标注视频中的目标物体进行标注前,获取目标物体的标注信息。
其中,标注信息包括多张图像以及目标物体在每张图像中的位置信息,多张图像包含通过不同拍摄角度拍摄的目标物体,位置信息可以是包含目标物体的标注框在该图像中的像素坐标。为了便于标记标注信息所属的目标物体,标注信息还可以包含目标物体的物体标识。
在实施中,电子设备中可以预先存储有目标物体的标注信息和包含目标物体的待标注视频。在对待标注视频中的目标物体进行标注前,电子设备可以读取本地存储的目标物体的标注信息。
或者,在对待标注视频中的目标物体进行标注前,电子设备可以判断本地是否存储有用于标注目标物体的标注模型,如果本地未存储该标注模型,电子设备可以提示工作人员执行第一预设操作,以获取目标物体的标注信息,具体处理过程后续会进行详细说明。
步骤102,基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。
其中,电子设备中可以存储有预设标注模型,预设标注模型可以是任一具有分类功能的神经网络模型,例如SSD(Single Shot Multibox Detector,单点多目标检测)、Yolo(You only look once,实时快速目标检测)。
在实施中,电子设备可以通过标注信息对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。
电子设备通过标注信息对预设标注模型进行训练的处理过程可以是:电子设备可以将标注信息输入至预设标注模型中,得到分类结果;基于分类结果调整预设标注模型的网络参数,直至预设标注模型的迭代次数达到预设次数,或,输出分类结果的准确率达到预设值,停止训练,得到第一标注模型。
本申请实施例中,预设标注模型可以是SSD_mobilenet_v1_coco(单点多箱检测_可移动网络_v1版本_可可)模型,预设次数可以是2万次。
步骤103,通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。
在实施中,电子设备可以将待标注视频转换为多个视频帧,将每个视频帧输入至第一标注模型中,第一标注模型的输出结果为该视频帧不包含目标物体、该视频帧中目标物体的目标位置信息中的一种。
然后,电子设备可以对应存储每个视频帧和属于该视频帧的第一标注模型的输出结果,得到标注后的视频。
可选的,电子设备可以在预设的标注信息文件中对应存储目标物体的物体标识、待标注视频的视频标识、目标物体在待标注视频所包含视频帧中的目标位置信息。以便后续在显示标注后的视频时,电子设备可以根据标注信息文件,在待标注视频所包含视频帧中的目标位置信息处,标注目标物体。
为了便于展示,电子设备可以将标注后的视频帧保存为预设图像尺寸、预设图像格式的图像。
本申请实施例中,电子设备可以在对待标注视频中的目标物体进行标注前,获取目标物体的标注信息,再基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。之后,通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。由于生成能够标注目标物体的第一标注模型,并通过第一标注模型对待标注视频中的目标物体进行标注,因此,能够实现对待标注视频中的目标物体进行标注,解决视频标注的泛化性差的问题。
此外,由于使用同一物体不同拍摄角度的图片进行训练得到的第一标注模型,对待标注视频中的该物体进行标注,能够减少训练所需图片的数量和训练次数,极大减少了训练所需的时间。
基于本申请实施例提供的视频标注方法,如果电子设备基于Tesla K80显卡进行视频标注,可以在5分钟内完成1000帧视频帧的标注,视频帧的标注速度可达28.8万帧/日。与相关技术中通过人工标注,每人每天仅能标注1200帧视频帧相比,能够极大的提高视频标注的效率。
可选的,根据电子设备提示的第一预设操作的不同,电子设备获取目标物体的标注信息的过程也不同,一种可行的实现方式中,电子设备可以连接有摄像部件,当电子设备提示的第一预设操作为请工作人员将目标物体放置在预设位置处时,如图2所示,电子设备获取目标物体的标注信息的过程可以包括以下步骤:
步骤201、以不同拍摄角度拍摄目标物体,得到多张图像。
在实施中,电子设备可以通过与其相连的摄像部件,以预设的多个拍摄角度对放置在预设位置处的目标物体进行拍摄,得到包含目标物体的多张图像。
步骤202、针对每张图像,确定目标物体在该图像中的位置信息。
在实施中,针对获取的每张图像,电子设备可以通过图像识别的方式,确定目标物体在该张图像中的位置信息,由此,得到目标物体在每张图像中的位置信息。
步骤203、基于多张图像和目标物体在每张图像中的位置信息,构成目标物体的标注信息。
在实施中,电子设备可以对应存储每张图像以及目标物体在该张图像中的位置信息,得到目标物体的标注信息。
标注信息还包括:图像的名称、存储路径、尺寸中的至少一种。
本申请实施例中,电子设备通过对目标物体拍摄不同拍摄角度的多张图像,并确定目标物体在每张图像中的位置信息。然后,基于多张图像和目标物体在每张图像中的位置信息生成目标物体的标注信息,便于后续基于该标注信息训练预设标注模型得到能够标注目标物体的第一标注模型,以及通过第一标注模型标注待标注视频中的目标物体,从而解决视频标注的泛化性差的问题。
或者,另一种可行的实现方式中,摄像部件可以是手机,手机中可以预先安装有用于生成目标物体的标注信息的应用程序,应用程序的预设拍摄界面中显示有拍摄位置框。这种情况下,电子设备提示的第一预设操作可以是请工作人员人工拍摄目标物体,然后,工作人员可以在相对于目标物体的不同拍摄角度的位置处,调节手机与目标物体之间的距离,从而使得该拍摄位置框能够最大限度的覆盖目标物体。之后,工作人员可以通过手机对目标物体进行拍摄,得到包含目标物体的图像,该图像中拍摄位置框的坐标即为目标物体的位置信息。这样,可以在拍摄的同时得到目标物体的标注框的位置信息,无需再通过人工标注的方式,确定该位置信息。
由此,手机可以得到不同拍摄角度的包含目标物体的多张图像,以及目标物体在每张图像中的位置信息,即目标物体的标注信息。然后,手机可以将目标物体的标注信息发送至与其相连的电子设备,以使电子设备获取目标物体的标注信息。
本申请实施例中,待标注视频可以是由工作人员手持摄像部件,从不同的拍摄角度拍摄目标物体,并在拍摄过程中缓慢移动摄像部件得到的采样视频。工作人员还可以通过手机对同一目标物体进行分别拍摄,得到待标注视频和目标物体的标注信息,手机可以对应存储目标物体的待标注视频和标注信息,将该物体的待标注视频和标注信息发送至电子设备。由此,电子设备可以存储目标物体的待标注视频和标注信息,便于后续在本地存储的多个视频中确定包含目标物体的待标注视频,再通过第一标注模型对待标注视频进行标注。
可选的,标注信息还可以包括目标物体的物体标识,在得到第一标注模型后,电子设备可以对应存储目标物体的物体标识和第一标注模型,便于后续通过第一标注模型对包含目标物体的视频进行标注,具体处理过程包括:
步骤一、对应存储目标物体的物体标识、第一标注模型,得到物体标识与标注模型的对应关系。
在实施中,电子设备可以在确定第一标注模型后,获取目标物体的物体标识,然后,电子设备可以对应存储目标物体的物体标识、第一标注模型,得到物体标识与标注模型的对应关系。
本申请实施例提供了两种电子设备获取目标物体的物体标识的方式,方式一,电子设备可以对标注信息中包含目标物体的图像进行目标识别,得到目标物体的名称,然后,电子设备可以将该名称作为目标物体的物体标识。方式二,工作人员可以在通过人工拍摄目标物体的过程中手动输入目标物体的名称,电子设备可以将该名称作为目标物体的物体标识。
基于已经建立的物体标识与标注模型的对应关系,电子设备可以在本地存储的多个视频中确定包含目标物体的待标注视频,然后,通过第一标注模型对待标注视频中的目标物体进行标注,具体处理过程可以是:
步骤二、根据预先存储的物体标识与视频的对应关系和目标物体的物体标识,确定包含目标物体的待标注视频。
在实施中,为了便于区分本地存储的多个视频,电子设备可以在存储每个视频的同时,存储该视频包含的目标物体的物体标识,得到物体标识与视频的对应关系。
在确定第一标注模型后,电子设备可以根据该对比关系,确定目标物体的物体标识对应的视频为包含目标物体的待标注视频。
步骤三、根据物体标识与标注模型的对应关系,确定目标物体对应的第一标注模型。
在实施中,电子设备可以根据物体标识与标注模型的对应关系,确定目标物体的物体标识对应的标注模型为第一标注模型。
步骤四、通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。
在实施中,此步骤的具体处理过程可参照步骤103的处理过程。
本申请实施例中,电子设备可以对应存储目标物体的物体标识、第一标注模型,得到物体标识与标注模型的对应关系。后续在对目标物体进行标注时,电子设备可以根据目标物体的物体标识,分别确定包含目标物体的待标注视频、能够标注目标物体的第一标注模型,然后,通过第一标注模型对待标注视频中的目标物体进行标注。由此,能够实现对包含目标物体的待标注视频自动标注,解决视频标注的泛化性差的问题。
本申请实施例中,基于物体标识与标注模型的对应关系,电子设备还可以在对待标注视频中的目标物体进行标注前,判断本地是否存储有用于标注目标物体的第一标注模型。如果本地存储有第一标注模型,电子设备可以通过第一标注模型对待标注视频中的目标物体进行标注。如果本地未存储第一标注模型,则电子设备可以获取目标物体的标注信息,并基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型,之后,通过第一标注模型对待标注视频中的目标物体进行标注。
可选的,电子设备还可以显示标注后的视频,以便人工检查标注结果是否准确。
在实施中,电子设备可以在预设的显示界面中,显示标注后的视频的每个视频帧,每个视频帧中显示有包含目标物体的标注框。
为了便于工作人员观看,电子设备可以以预设速度切换该显示界面中显示的视频帧。工作人员可以调节电子设备切换该显示界面中显示的视频帧的切换速度,或者,调节该显示界面中显示的视频帧的显示尺寸。
本申请实施例中,电子设备可以显示标注后的视频,便于工作人员通过人工检查的方式对第一标注模型的标注效果进行评价,从而确保视频标注的准确率,另一方面,能够便于工作人员根据第一标注模型的标注效果,确定是否对第一标注模型进行更新,进一步提高视频标注的准确率。
可选的,当工作人员确定基于第一标注模型标注目标物体的准确率较差时,电子设备可以重新训练预设标注模型,以对待标注视频进行重新标注,如图3所示,具体处理过程包括:
步骤301,如果接收到针对于标注后的视频的重新标注指令,则根据标注后的视频和目标物体的标注信息,生成目标物体的再标注信息。
在实施中,如果工作人员发现某一标注后的视频中目标物体的标注框与目标物体相比过大、或者过小、或者偏离目标物体时,工作人员可以执行第二预设操作,以使电子设备接收到针对于标注后的视频的重新标注指令。其中,第二预设操作可以是点击预设重新标注图标,第二预设操作也可以是输入用于表示重现标注该标注后的视频的代码。
然后,电子设备可以根据标注后的视频中的视频帧、视频帧中目标物体的目标位置信息和目标物体的标注信息,生成目标物体的再标注信息。
步骤302,基于再标注信息,对预设标注模型进行训练,得到能够标注目标物体的第二标注模型。
在实施中,此步骤的具体处理过程可参照步骤102的处理过程。
步骤303,通过第二标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。
在实施中,此步骤的具体处理过程可参照步骤103的处理过程。
本申请实施例中,电子设备可以在接收到针对于标注后的视频的重新标注指令时,根据标注后的视频和目标物体的标注信息,生成目标物体的再标注信息,然后,基于再标注信息,对预设标注模型进行训练,得到能够标注目标物体的第二标注模型。之后,通过第二标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。由此,电子设备可以在处理未达到标注标准的视频时,将已达到标注标准的视频与原标注信息合并,得到再标注信息,对第一标注模型进行更新,得到更加准确的第二标注模型。通过第二标注模型对待标注视频中的目标物体进行标注,能够提高视频标注的准确率。进一步的,通过再标注信息的积累,能够不断提高第二标注模型的准确率。
本申请实施例提供了一种视频标注的实现方式,电子设备可以是视频标注的服务器,服务器可以与手机保持通信相连,手机中预先安装有用于生成目标物体的标注信息的应用程序。工作人员可以通过手机对同一目标物体进行分别拍摄,得到10个待标注视频和20张不同拍摄角度的图像。然后,手机可以根据20张不同拍摄角度的图像和该应用程序生成目标物体的标注信息,之后,手机可以将目标物体的待标注视频和标注信息发送至服务器。
服务器可以将标注信息转换为TFRecord格式的标注信息,然后,调用预设的接口TensorFlow Object Detection API,将TFRecord格式的标注信息输入至预设标注模型SSD_mobilenet_v1_coco(单点多箱检测_可移动网络_v1版本_可可)模型中,以对预设标注模型进行训练,训练时选用的batchsize(批尺寸)可以是60,训练次数可以是2万次。当电子设备为谷歌的TPU(Tensor Processing Unit,张量处理器)服务器时,训练时选用的batchsize(批尺寸)可以是1024,训练次数可以是200次,整个训练过程仅需几分钟。
由于对预设标注模型进行训练得到的是包含变量的模型文件,因此,服务器需要对变量进行赋值,从而实现固化模型文件。另一方面,由于服务器中预先设置有基于TensorFlow(机器学习框架)自动标注模块,服务器通过自动标注模块和第一标注模型对待标注视频中的目标物体进行标注,因此,为了方便自动标注模块调用第一标注模型,因此,需要将固化后的模型文件的数据格式保存为.pb,得到第一标注模型。
之后,服务器可以获取包含目标物体的待标注视频,然后通过自动标注模块调用第一标注模型,对待标注视频中的目标视频进行标注,得到目标物体在目标视频所包含的视频帧中的目标位置信息。服务器可以在标注信息文件中对应存储目标物体的物体标识、目标视频的视频标识、目标物体在目标视频所包含视频帧中的目标位置信息。后续,在显示标注后的视频时,服务器可以根据标注信息文件,在目标视频的视频帧中目标位置信息处标识包含目标物体的标注框。
本申请实施例还提供了一种视频标注装置,如图4所示,所述装置包括:
获取模块410,用于在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
训练模块420,用于基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
标注模块430,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述获取模块包括:
拍摄子模块,用于以不同拍摄角度拍摄所述目标物体,得到多张图像;
第一确定子模块,用于针对每张图像,确定所述目标物体在该图像中的位置信息;
构成子模块,用于基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
可选的,所述标注信息还包括所述目标物体的物体标识,所述装置还包括:
存储模块,用于对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述标注模块包括:
第二确定子模块,用于根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
第三确定子模块,用于根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
标注子模块,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述装置还包括:
显示模块,用于显示所述标注后的视频,以便人工检查标注结果是否准确。
可选的,所述装置还包括:
生成模块,用于当接收到针对于所述标注后的视频的重新标注指令时,根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
所述训练模块,还用于基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
所述标注模块,还用于通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
本申请实施例提供的一种视频标注装置,可以在对待标注视频中的目标物体进行标注前,获取目标物体的标注信息,再基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。之后,通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。由于生成能够标注目标物体的第一标注模型,并通过第一标注模型对待标注视频中的目标物体进行标注,因此,能够实现对待标注视频中的目标物体进行标注,解决视频标注的泛化性差的问题。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,处理器501可以是GPU(Graphics Processing Unit,图形处理器)、TPU(Tensor Processing Unit,张量处理单元)
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述获取所述目标物体的标注信息包括:
以不同拍摄角度拍摄所述目标物体,得到多张图像;
针对每张图像,确定所述目标物体在该图像中的位置信息;
基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
可选的,所述标注信息还包括所述目标物体的物体标识,所述基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型之后,还包括:
对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频包括:
根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
可选的,所述得到标注后的视频之后,还包括:
显示所述标注后的视频,以便人工检查标注结果是否准确。
可选的,所述方法还包括:
如果接收到针对于所述标注后的视频的重新标注指令,则根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例提供的一种电子设备,可以在对待标注视频中的目标物体进行标注前,获取目标物体的标注信息,再基于标注信息,对预设标注模型进行训练,得到能够标注目标物体的第一标注模型。之后,通过第一标注模型,对待标注视频中的目标物体进行标注,得到标注后的视频。由于生成能够标注目标物体的第一标注模型,并通过第一标注模型对待标注视频中的目标物体进行标注,因此,能够实现对待标注视频中的目标物体进行标注,解决视频标注的泛化性差的问题。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频标注方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一视频标注方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及包含指令的计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (12)
1.一种视频标注方法,其特征在于,所述方法包括:
在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标物体的标注信息包括:
以不同拍摄角度拍摄所述目标物体,得到多张图像;
针对每张图像,确定所述目标物体在该图像中的位置信息;
基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
3.根据权利要求1所述的方法,其特征在于,所述标注信息还包括所述目标物体的物体标识,所述基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型之后,还包括:
对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频包括:
根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
4.根据权利要求1所述的方法,其特征在于,所述得到标注后的视频之后,还包括:
显示所述标注后的视频,以便人工检查标注结果是否准确。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果接收到针对于所述标注后的视频的重新标注指令,则根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
6.一种视频标注装置,其特征在于,所述装置包括:
获取模块,用于在对待标注视频中的目标物体进行标注前,获取所述目标物体的标注信息,所述标注信息包括多张图像以及所述目标物体在每张图像中的位置信息,所述多张图像包含通过不同拍摄角度拍摄的所述目标物体;
训练模块,用于基于所述标注信息,对预设标注模型进行训练,得到能够标注所述目标物体的第一标注模型;
标注模块,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
拍摄子模块,用于以不同拍摄角度拍摄所述目标物体,得到多张图像;
第一确定子模块,用于针对每张图像,确定所述目标物体在该图像中的位置信息;
构成子模块,用于基于所述多张图像和所述目标物体在每张图像中的位置信息,构成所述目标物体的标注信息。
8.根据权利要求6所述的装置,其特征在于,所述标注信息还包括所述目标物体的物体标识,所述装置还包括:
存储模块,用于对应存储所述目标物体的物体标识、所述第一标注模型,得到物体标识与标注模型的对应关系;
所述标注模块包括:
第二确定子模块,用于根据预先存储的物体标识与视频的对应关系和所述目标物体的物体标识,确定包含所述目标物体的待标注视频;
第三确定子模块,用于根据所述物体标识与标注模型的对应关系,确定所述目标物体对应的第一标注模型;
标注子模块,用于通过所述第一标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
显示模块,用于显示所述标注后的视频,以便人工检查标注结果是否准确。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
生成模块,用于当接收到针对于所述标注后的视频的重新标注指令时,根据所述标注后的视频和所述目标物体的标注信息,生成所述目标物体的再标注信息;
所述训练模块,还用于基于所述再标注信息,对所述预设标注模型进行训练,得到能够标注所述目标物体的第二标注模型;
所述标注模块,还用于通过所述第二标注模型,对所述待标注视频中的所述目标物体进行标注,得到标注后的视频。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910791959.4A CN112434548B (zh) | 2019-08-26 | 2019-08-26 | 一种视频标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910791959.4A CN112434548B (zh) | 2019-08-26 | 2019-08-26 | 一种视频标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434548A true CN112434548A (zh) | 2021-03-02 |
CN112434548B CN112434548B (zh) | 2024-06-04 |
Family
ID=74689841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910791959.4A Active CN112434548B (zh) | 2019-08-26 | 2019-08-26 | 一种视频标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434548B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188919A (zh) * | 2023-04-25 | 2023-05-30 | 之江实验室 | 一种测试方法、装置、可读存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584295A (zh) * | 2017-09-29 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 对图像内目标物体进行自动标注的方法、装置及系统 |
CN109615649A (zh) * | 2018-10-31 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 一种图像标注方法、装置及系统 |
CN109815365A (zh) * | 2019-01-29 | 2019-05-28 | 北京字节跳动网络技术有限公司 | 用于处理视频的方法和装置 |
US20190163981A1 (en) * | 2017-11-28 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting video preview, device and computer storage medium |
CN109934931A (zh) * | 2017-12-19 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 采集图像、建立目标物体识别模型的方法及装置 |
-
2019
- 2019-08-26 CN CN201910791959.4A patent/CN112434548B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584295A (zh) * | 2017-09-29 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 对图像内目标物体进行自动标注的方法、装置及系统 |
US20190163981A1 (en) * | 2017-11-28 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting video preview, device and computer storage medium |
CN109934931A (zh) * | 2017-12-19 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 采集图像、建立目标物体识别模型的方法及装置 |
CN109615649A (zh) * | 2018-10-31 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 一种图像标注方法、装置及系统 |
CN109815365A (zh) * | 2019-01-29 | 2019-05-28 | 北京字节跳动网络技术有限公司 | 用于处理视频的方法和装置 |
Non-Patent Citations (1)
Title |
---|
汪鹏;张奥帆;王利琴;董永峰;: "基于迁移学习与多标签平滑策略的图像自动标注", 计算机应用, no. 11, 19 July 2018 (2018-07-19) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188919A (zh) * | 2023-04-25 | 2023-05-30 | 之江实验室 | 一种测试方法、装置、可读存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112434548B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830235B (zh) | 用于生成信息的方法和装置 | |
US11216690B2 (en) | System and method for performing image processing based on a damage assessment image judgement model | |
CN108986169B (zh) | 用于处理图像的方法和装置 | |
CN107818180B (zh) | 视频关联方法、视频显示方法、装置及存储介质 | |
CN108337505B (zh) | 信息获取方法和装置 | |
CN108491823B (zh) | 用于生成人眼识别模型的方法和装置 | |
CN109086780B (zh) | 用于检测电极片毛刺的方法和装置 | |
CN110335313B (zh) | 音频采集设备定位方法及装置、说话人识别方法及系统 | |
CN110955590A (zh) | 界面检测方法、图像处理方法、装置、电子设备及存储介质 | |
CN109784385A (zh) | 一种商品自动识别方法、系统、装置及存储介质 | |
CN110609912B (zh) | 元器件信息记录方法、装置、设备及可读存储介质 | |
CN110062157B (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN112161984B (zh) | 酒品定位方法、酒品信息管理方法、装置、设备及存储介质 | |
CN112115950B (zh) | 酒标识别方法、酒品信息管理方法、装置、设备及存储介质 | |
JP2019075130A (ja) | 情報処理装置、制御方法、プログラム | |
CN108805799B (zh) | 全景图像合成装置、方法及计算机可读存储介质 | |
US10855728B2 (en) | Systems and methods for directly accessing video data streams and data between devices in a video surveillance system | |
CN109981989B (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN114494863A (zh) | 基于Blend Mask算法的动物幼崽计数方法以及装置 | |
CN112434548B (zh) | 一种视频标注方法及装置 | |
CN111666936A (zh) | 标注方法及装置和系统、电子设备和存储介质 | |
KR20210008075A (ko) | 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium) | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN111768439B (zh) | 一种确定实验评分的方法、装置、电子设备及介质 | |
CN111369703A (zh) | 一种在线时间确定方法、装置、服务器及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |