CN114443900A - 视频标注方法、客户端、服务器及系统 - Google Patents

视频标注方法、客户端、服务器及系统 Download PDF

Info

Publication number
CN114443900A
CN114443900A CN202011230782.XA CN202011230782A CN114443900A CN 114443900 A CN114443900 A CN 114443900A CN 202011230782 A CN202011230782 A CN 202011230782A CN 114443900 A CN114443900 A CN 114443900A
Authority
CN
China
Prior art keywords
frame
video frame
video
annotation
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011230782.XA
Other languages
English (en)
Inventor
许兴旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202011230782.XA priority Critical patent/CN114443900A/zh
Publication of CN114443900A publication Critical patent/CN114443900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供视频标注方法、客户端、服务器及系统,其中视频标注方法包括:在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加标注框;在视频的第二视频帧中的目标添加位置处添加标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。本说明书中可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。

Description

视频标注方法、客户端、服务器及系统
技术领域
本说明书涉及计算机技术领域,特别涉及视频标注方法、客户端、服务器及系统。
背景技术
随着计算机技术的快速发展,各种各样的视频层出不穷,用户在观看视频时,可能希望提醒观看者在后续视频中关注某个人物、某个物品或者某个位置上将要发生的事情,现有技术中,用户只能通过文字或语音,用语言描述需要关注的对象,无法对视频进行实时标注,以提醒关注标注对象,进而亟需一种视频标注方法。
发明内容
有鉴于此,本说明书实施例提供了一种视频标注方法。本说明书同时涉及一种视频标注客户端,一种视频标注系统,一种视频标注服务器,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种视频标注方法,所述方法包括:
在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;
根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;
在所述视频的第二视频帧中的目标添加位置处添加所述标注框,其中,所述第二视频帧为所述第一视频帧之后,且包括所述目标对象的视频帧。
根据本说明书实施例的第二方面,提供了一种视频标注方法,所述方法包括:
接收客户端发送的第一视频帧的时间戳以及标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;
根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;
将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端。
根据本说明书实施例的第三方面,提供了一种视频标注客户端,所述客户端包括:
第一接收模块,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;
第一确定模块,被配置为根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;
添加模块,被配置为在所述视频的第二视频帧中的目标添加位置处添加所述标注框,其中,所述第二视频帧为所述第一视频帧之后,且包括所述目标对象的视频帧。
根据本说明书实施例的第四方面,提供了一种视频标注服务器,所述服务器包括:
第二接收模块,被配置为接收客户端发送的第一视频帧的时间戳以及标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
第二确定模块,被配置为根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;
第三确定模块,被配置为根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;
第一发送模块,被配置为将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端。
根据本说明书实施例的第五方面,提供了一种视频标注系统,所述系统包括:
客户端,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;将所述第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
服务器,被配置为接收所述客户端发送的第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端;
所述客户端,还被配置为接收所述服务器返回的所述第二视频帧的时间戳以及所述标注框在所述第二视频帧中的目标添加位置;在所述视频的第二视频帧中的目标添加位置处添加所述标注框。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令以实现上述第一方面或者第二方面所述视频标注方法的操作步骤。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面所述视频标注方法的操作步骤。
本说明书提供的视频标注方法,可以在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;然后根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加该标注框;之后,在视频的第二视频帧中的目标添加位置处添加该标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。这种情况下,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。
附图说明
图1是本说明书一实施例提供的第一种视频标注方法的流程图;
图2是本说明书一实施例提供的一种第一视频帧中添加标注框的示意图;
图3是本说明书一实施例提供的一种第二视频帧中添加标注框的示意图;
图4是本说明书一实施例提供的第二种视频标注方法的流程图;
图5是本说明书一实施例提供的第三种视频标注方法的流程图;
图6是本说明书一实施例提供的第四种视频标注方法的流程图;
图7是本说明书一实施例提供的第五种视频标注方法的流程图;
图8是本说明书一实施例提供的一种视频标注客户端的结构示意图;
图9是本说明书一实施例提供的一种视频标注服务器的结构示意图;
图10是本说明书一实施例提供的一种视频标注系统的结构示意图;
图11是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种视频标注方法,本说明书同时涉及一种视频标注客户端,一种视频标注服务器,一种视频标注系统,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的第一种视频标注方法的流程图,应用于客户端,具体包括以下步骤:
步骤102:在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作。
实际应用中,用户在观看视频时,可能希望提醒观看者在后续视频中关注某个人物、某个物品或者某个位置上将要发生的事情,目前用户只能通过文字或语音,用语言描述需要关注的对象,无法对视频中某目标对象进行实时标注。
为了实现对视频中目标对象的标注,以及对目标对象的跟随标注,本说明书提供了一种视频标注方法,可以在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;然后根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加标注框;之后,在视频的第二视频帧中的目标添加位置处添加该标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。如此,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象。
具体的,第一视频帧是用户进行标注操作的当前视频帧;目标对象是需要被标注的对象,该目标对象可以为第一视频帧中的人物、物品或者某个位置。另外,针对第一视频帧中目标对象的标注操作即是指用户在客户端框出或者选择第一视频帧中目标对象的操作。
需要说明的是,在视频的播放过程中,需要对目标对象进行标注时,可以暂停视频,也可以不暂停视频。如果需要标注的目标对象很多,标注操作较为复杂,此时用户可以先暂停视频,然后进行标注;如果只是随手框出一个或者点击一个目标对象,则可以不暂停视频,只要能够获取到当前视频帧(即第一视频帧)的时间戳即可。
另外,要对视频中的目标对象进行标注,那么在播放视频时,需要开启标注模式,该标注模式是指能够接受用户触摸轨迹的模式,即允许对目标对象进行标注的模式。
本实施例一个可选的实施方式中,开启标注模式后,可以建立一个图层,通过该图层可以接收用户的触摸轨迹(即标注操作),此时接收针对第一视频帧中目标对象的标注操作具体实现过程可以如下:
在处于标注模式的情况下,创建标注图层,通过该标注图层接收针对第一视频帧中目标对象的标注操作。
需要说明的是,用户激活标注模式的时候,可以重新建立一个图层供用户进行绘制。也就是说,可以重新创建一个图层,使得用户可以在该图层上绘制各种不同的形状,以标注想要标注的对象。如此,针对目标对象,用户可以根据自己的喜好,随机绘制标注形状,标注目标对象的方式更灵活。
另外,也可以不重新建立图层,在处于标注模式的情况下,直接对第一视频帧的图像内容进行识别,识别出第一视频帧中包括的各个对象,此时各个对象都是可以选择的,用户点击想要标注的目标对象,即可对该目标对象进行选择,后续可以在该目标对象周围添加预先设置的标注框,如用户点击对象A后,即接收到针对第一视频帧中对象A的标注操作,假设预先设置的标注框为圆形框,后续客户端可以在视频内容中的对象A上添加一个圆形框。
本说明书中,在视频的播放过程中可以接收用户针对目标对象的标注操作,便于后续在视频内容中目标对象处添加标注框,从而对视频中的目标对象进行标注。
步骤104:根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加标注框。
具体的,标注框为标注目标对象的形状标注,该标注框可以为规则形状,也可以为不规则形状,用于框出目标对象进行标注,如标注框可以为圆形框、矩形框或者三角形框,也可以为不规则曲线框。另外,在接收到标注操作后,客户端可以在第一视频帧的视频内容中,根据标注操作添加一个标注框来标注目标对象。如果标注操作为框出目标对象的操作,则标注框的形状为用户在第一视频帧上绘制的形状;如果标注操作为选择目标对象的操作,则标注框的形状为该选择操作预设的形状。具体实现时,客户端可以先根据标注操作的触摸位置,确定出标注框的坐标,然后在解析视频内容时,将绘制的标注框合并至解析出的视频内容,然后再播放合并有标注框的视频内容。
示例的,图2是本说明书一实施例提供的一种第一视频帧中添加标注框的示意图,如图2所示,假设当前处于标注模式,视频播放至05:10时,用户暂停视频,在人物A上框出了一个圆形框(标注框),并在位置B处,框出了一个矩形框(标注框)。
需要说明的是,标注框是针对目标对象添加的,目标对象有可能会进行移动,在目标对象移动时,标注框应该随着目标对象的移动而移动,也即标注框需要跟随目标对象。因而,需要先根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,然后再在第一视频帧的目标添加位置添加标注框,即确定标注框在第一视频帧中的相对位置,然后在该相对位置添加标注框。
本实施例一个可选的实施方式中,确定标注框在第一视频帧中相对于目标对象的目标添加位置,具体实现过程可以如下:
对第一视频帧进行图像识别,确定出标注操作对应的第一视频帧中的目标对象;
根据第一视频帧构建坐标系,并确定目标对象在坐标系中的第一对象坐标;
确定标注框在坐标系中相对于第一对象坐标的偏移量;
将标注框在坐标系中相对于第一对象坐标的偏移量确定为目标添加位置。
需要说明的是,标注操作是针对目标对象的,因而根据标注操作的触摸位置可以确定出目标对象;另外,目标对象有可能会进行移动,因而目标对象在第一视频帧中的第一对象坐标和目标对象在第二视频帧中的第二对象坐标可能并不相同,因而标注框在第一视频帧中相对于目标对象的目标添加位置实际上就是标注框相对于目标对象的偏移量,后续确定出目标对象在第二视频帧中的第二对象坐标后,可以根据该偏移量确定出第二视频帧中的目标添加位置。
其中,根据第一视频帧构建坐标系,可以以第一视频帧的中心为坐标原点,也可以以第一视频帧的某个顶点为坐标原点(如以左下角为坐标原点),本说明书中对此不进行限制。
另外,由于目标对象一般会占用一定面积,也即目标对象会对应多个坐标(即坐标范围),因而可以选取目标对象的中心点在坐标系中的坐标作为目标对象在坐标系中的第一对象坐标,当然实际应用中,还可以以目标对象的其他边缘点在坐标系中的坐标作为目标对象在坐标系中的第一对象坐标,如顶点、最低点等,本说明书不进行限制。再者,标注框需要框住目标对象(或部分框住目标对象),即标注框是一个图形,也会对应多个坐标,因而本说明书中可以确定标注框的中心点在坐标系中相对于第一对象坐标(目标对象的中心点)的偏移量,当然实际应用中也可以为标注框的其他边缘点在坐标系中相对于目标对象的偏移量,本说明对此不进行限制。
沿用上例,如图2所示,用户在人物A上框出了一个圆形框,此时确定目标对象为人物A,针对人物A,确定出人物A(中心点)的第一对象坐标为(a1,b1),假设确定出标注框在坐标系中相对于(a1,b1)上移X,则此时确定出的目标添加位置为相对目标对象的对象坐标上移X,即添加坐标为(a1,b1+X)。用户在位置B处框出了一个矩形框,针对位置B,确定出位置B(中心点)的第一对象坐标为(c1,d1),假设确定出标注框在坐标系中相对于(c1,d1)偏移0,则此时确定出的目标添加位置为相对目标对象的对象坐标偏移0,即添加坐标也为(c1,d1)。
本说明书中可以先根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,然后在第一视频帧的目标添加位置添加标注框,从而对第一视频帧中的目标对象进行标注,并且方便后续确定标注框在第二视频帧中的目标添加位置,便于后续可以在视频帧中跟随该目标对象添加标注框,方便对视频内容进行讲解和提示。
步骤106:在视频的第二视频帧中的目标添加位置处添加标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。
具体的,在第一视频帧中添加标注框后,客户端可以确定第一视频帧的时间戳,根据该时间戳,可以确定出视频中所有晚于该时间戳的视频帧,然后对所有晚于该时间戳的视频帧进行图像识别,将所有晚于该时间戳的视频帧中包括目标对象的视频帧确定为第二视频帧。也就是说,客户端先确定出后续视频帧中需要添加标注框的第二视频帧,然后再在第二视频帧中添加标注框。
本实施例一个可选的实施方式中,在视频的第二视频帧中的目标添加位置处添加标注框具体实现过程可以如下:
对第二视频帧进行图像识别,确定出第二视频帧中的目标对象;
确定第二视频帧中的目标对象在坐标系中的第二对象坐标;
根据偏移量和第二对象坐标,确定目标添加位置在坐标系中的添加坐标;
在第二视频帧中的添加坐标处添加标注框。
需要说明的是,目标对象有可能会进行移动,获取到标注框相对于目标对象的偏移量后,可以对第二视频帧进行图像识别,确定出第二视频帧中的目标对象的第二对象坐标,然后在该第二对象坐标上加上该偏移量,即是添加标注框的添加坐标。
沿用上例,图3是本说明书一实施例提供的一种第二视频帧中添加标注框的示意图,如图3所示,针对人物A,对第二视频帧(05:30的视频帧)进行识别,确定出第二视频帧中的人物A在坐标系中的第二对象坐标为(a2,b2),由于偏移量为上移X,也即横坐标不变,纵坐标加X,因而添加标注框的目标添加位置在坐标系中的添加坐标为(a2,b2+X);针对位置B,对第二视频帧进行识别,确定出第二视频帧中的位置B在坐标系中的第二对象坐标为(c2,d2),由于偏移量为0,也即横坐标不变,纵坐标也不变,因而添加标注框的目标添加位置在坐标系中的添加坐标为(c2,d2)。
需要说明的是,目标对象有可能会进行移动,也即目标对象在第一视频帧中的第一对象坐标和目标对象在第二视频帧中的第二对象坐标并不相同;目标对象也有可能不移动,也即目标对象在第一视频帧中的第一对象坐标和目标对象在第二视频帧中的第二对象坐标相同。本实施方式中不对目标对象是否移动进行限制,对于任意目标对象,无论其是否会发生移动,在视频帧内容中均按照标注框与目标对象的相对位置添加标注框。
另外,由于有些场景下用户可能只是本地标注,并不想上传至服务器进行多端同步,即用户可以在自己的客户端上体验对视频内容进行标注,因而本实施例中由客户端完成目标添加位置确定及在视频帧内容中添加标注框的相关操作过程。
本说明书中可以在第二视频帧中的目标添加位置处添加标注框,从而可以根据目标对象在第二视频帧中的实际添加位置,实时调整标注框的添加位置;也就是说,后续在随时间播放视频时,该视频内容中目标对象处已经添加有标注框,从而可以提醒观看者在第二视频帧中关注目标对象。
本说明书提供的视频标注方法,可以在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;然后根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加该标注框;之后,在视频的第二视频帧中的目标添加位置处添加该标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。这种情况下,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。
图4示出了根据本说明书一实施例提供的第二种视频标注方法的流程图,应用于客户端,具体包括以下步骤:
步骤402:在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作。
需要说明的是,步骤402的具体实现过程与上述步骤102的具体实现过程相同,本说明书在此不再赘述。
步骤404:对第一视频帧进行图像识别,确定出标注操作对应的第一视频帧中的目标对象;确定目标对象的对象类型;在该对象类型为待跟随对象的情况下,根据标注框在第一视频帧中相对于目标对象的偏移量,确定标注框在第一视频帧中相对于目标对象的目标添加位置;在该对象类型为不跟随对象的情况下,根据标注框在第一视频帧中的添加位置,确定标注框在第一视频帧中相对于目标对象的目标添加位置;在第一视频帧的目标添加位置添加标注框。
需要说明的是,目标对象有可能会进行移动,在目标对象移动时,标注框应该随着目标对象的移动而移动,也即标注框需要跟随目标对象;目标对象也有可能不移动,此时标注框在第一视频帧中的添加位置,就是该标注框的固定添加位置,即后续每个第二视频帧中都在该固定添加位置处添加标注框,也即标注框与目标对象的位置均不发生改变。也就是说,如果对象类型为待跟随对象,则该目标添加位置为相对于目标对象的偏移量,如果对象类型为不跟随对象,则该目标添加位置为标注框的初始添加位置。
其中,对象类型为待跟随对象,说明目标对象会进行移动,后续标注框需要跟随目标对象;对象类型为不跟随对象,说明目标对象不会进行移动,后续标注框无需跟随目标对象。
具体实现时,可以通过人工智能图像识别技术与计算机视觉(CV)进行图像识别,识别出目标对象。另外,由于进行移动的目标对象和不会移动的目标对象都有固定的类型,因而识别出目标对象后,就可以确定出目标对象是否会移动,即确定出目标对象的对象类型。另外,根据目标对象的对象类型确定其是否会进行移动,需要满足拍摄相机固定的前提条件;也就是说,拍摄相机在固定位置以固定姿态拍摄出来的视频内容,固定物体的显示位置是固定不变的,只有移动物体的显示位置是发生变化的。
示例的,若识别出目标对象为人物,则该目标对象的对象类型为待跟随对象;识别出目标对象为某块固定位置,则该目标对象的对象类型为不跟随对象;若识别出目标对象为小狗,则该目标对象的对象类型为待跟随对象;若识别出目标对象为狗屋,则该目标对象的对象类型为不跟随对象。
示例的,如图2所示,人物A为待跟随对象,位置B为不跟随对象。
本实施例一个可选的实施方式中,根据标注框在第一视频帧中相对于目标对象的偏移量,确定标注框在第一视频帧中相对于目标对象的目标添加位置,具体实现过程可以如下:
根据第一视频帧构建坐标系,并确定目标对象在坐标系中的第一对象坐标;
确定标注框在坐标系中相对于第一对象坐标的偏移量;
将标注框在坐标系中相对于第一对象坐标的偏移量确定为目标添加位置。
本实施例一个可选的实施方式中,根据标注框在第一视频帧中的添加位置,确定标注框在第一视频帧中相对于目标对象的目标添加位置,具体实现过程可以如下:
根据第一视频帧构建坐标系,并确定标注框在坐标系中的标注坐标;
将该标注坐标确定为目标添加位置。
本说明书中可以针对移动的目标对象和不移动的目标对象进行分类,从而采取不同的方式确定目标对象在第二视频帧中的目标添加位置,若目标对象是不跟随对象,则说明目标对象是固定不动的,因而标注框的目标添加位置应该也是固定不动的,此时第一视频帧中标注框在坐标系中的标注坐标即是目标添加位置。如此,对于不移动的目标对象,不需要进行标注跟随,无需执行复杂的识别确定过程,直接将第一视频帧中标注框在坐标系中的标注坐标确定为后续视频帧添加标注框的目标添加位置,降低了识别性能消耗。
步骤406:在视频的第二视频帧中的目标添加位置处添加标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。
需要说明的是,若目标对象为待跟随对象,则步骤406的具体实现过程和上述步骤106的具体实现过程相同,本说明书中在此不再进行赘述。若目标对象为不跟随对象,则目标添加位置为标注坐标,此时直接在第二视频帧中的该标注坐标处添加标注框,也就是说,播放的视频内容是在目标添加位置处添加标注框后的视频内容。
示例的,如图3所示,人物A是待跟随对象,假设标注框在第一视频帧中相对于人物A的目标添加位置为相对于人物A的对象坐标(a1,b1)上移X,之后,对第二视频帧进行识别,确定出第二视频帧中的人物A在坐标系中的对象坐标为(a2,b2),此时第二视频帧中添加标注框的目标添加位置在坐标系中的添加坐标为(a2,b2+X),即在第二视频帧中的添加坐标(a2,b2+X)处添加标注框。位置B是不跟随对象,假设确定出的针对位置B添加的标注框的标注坐标为(c1,d1),此时直接在第二视频帧中的标注坐标(c1,d1)处添加标注框。
本说明书提供的视频标注方法,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。另外,可以针对移动的目标对象和不移动的目标对象进行分类,对于不移动的目标对象,不需要进行标注跟随,无需执行复杂的识别确定过程,直接将第一视频帧中标注框在坐标系中的标注坐标确定为后续视频帧添加标注框的目标添加位置,降低了识别性能消耗。
图5示出了根据本说明书一实施例提供的第三种视频标注方法的流程图,应用于客户端,具体包括以下步骤:
步骤502:在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作。
需要说明的是,步骤502的具体实现过程与上述步骤102的具体实现过程相同,本说明书在此不再赘述。
步骤504:根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加标注框。
需要说明的是,步骤504的具体实现过程与上述步骤104的具体实现过程相同,本说明书在此不再赘述。
步骤506:将第一视频帧的时间戳以及标注框在第一视频帧中相对于目标对象的目标添加位置发送给服务器。
实际应用中,用户通过客户端针对目标对象进行标注后,客户端可以确定进行标注操作的当前视频帧(即第一视频帧)的时间戳,之后客户端可以将确定出的第一视频帧的时间戳以及标注框在第一视频帧中相对于目标对象的目标添加位置一起发送给服务器,使得后续服务器可以进行识别确定。也就是说,用户在客户端进行标注后,客户端可以将用户标注的位置发送给服务器,由服务器确定后续视频帧中添加标注的位置(即由服务器进行对象跟随)。
需要说明的是,目标对象有可能会进行移动,也可能不移动,本实施例中不对目标对象是否移动进行限制,对于任意目标对象,无论其是否会发生移动,客户端均直接确定该标注框在第一视频帧中相对于目标对象的目标添加位置,并直接将该标注框在第一视频帧中相对于目标对象的目标添加位置发送给服务器。
步骤508:接收服务器返回的第二视频帧的时间戳以及标注框在第二视频帧中的目标添加位置,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。
具体的,客户端将第一视频帧的时间戳以及标注框在第一视频帧中相对于目标对象的目标添加位置发送给服务器后,服务器可以根据第一视频帧的时间戳,确定出视频中的第二视频帧,并根据标注框在第一视频帧中相对于目标对象的目标添加位置,确定出标注框在第二视频帧中的目标添加位置,之后服务器可以向客户端返回第二视频帧的时间戳以及标注框在第二视频帧中的目标添加位置,使得客户端可以在解析视频内容时,根据标注框在第二视频帧中的目标添加位置,在视频内容的相应位置处添加标注框,然后再播放添加有标注框的视频内容。
本说明书中可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。
另外,服务器除了可以将第二视频帧的时间戳以及标注框在第二视频帧中的目标添加位置返回给创建标注的客户端之外,还可以在向其他客户端(所有请求播放该视频的客户端)发送视频流供客户端播放时,同时向该客户端发送时间戳(包括第一视频帧和第二视频帧的时间戳)、标注框以及标注框的目标添加位置(包括第一视频帧和第二视频帧中的目标添加位置),使得所有观看该视频的客户端可以同步在视频内容中添加标注框,方便同步交互,也可以方便对视频内容进行讲解和提示,极大提高了用户体验。
需要说明的是,客户端和服务器可以预先约定标注框的形状大小,如此客户端只需要向服务器发送标注框的目标添加位置即可,无需发送标注框,服务器在向客户端同步标注框时,也只需要发送目标添加位置即可,客户端可以在该目标添加位置处直接添加预先约定的标注框,以实现同步,客户端和服务器之间不需要传输图形,只需要传递位置信息,优化了传输带宽,节省了传输资源。
另外,客户端也可以将标注框一起发送给服务器,具体实现过程可以如下:
将第一视频帧的时间戳、标注框以及标注框在第一视频帧中相对于目标对象的目标添加位置发送给服务器;
相应的,步骤508具体实现过程可以为:
接收服务器返回的第二视频帧的时间戳以及标注框在第二视频帧中的目标添加位置。
需要说明的是,客户端和服务器之间可以传输具体的标注框,如此客户端可以创建任意形状的标注框,无需局限于预先约定的图形大小,在视频内容中添加标注的形式更加灵活,更能激发用户使用兴趣,适应不同的应用场景。
步骤510:在视频的第二视频帧中的目标添加位置处添加标注框。
需要说明的是,客户端在接收到第二视频帧的时间戳以及标注框在第二视频帧中的目标添加位置之后,就可以在解析视频内容时,在该添加位置处添加标注框(预先约定的或者传输的),实现对目标对象的标注和跟随。
本说明书提供的视频标注方法,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。另外,可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。
图6示出了根据本说明书一实施例提供的第四种视频标注方法的流程图,具体包括以下步骤:
步骤602:客户端在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作。
需要说明的是,步骤602的具体实现过程与上述步骤102的具体实现过程相同,本说明书在此不再赘述。
步骤604:客户端对第一视频帧进行图像识别,确定出标注操作对应的第一视频帧中的目标对象;确定目标对象的对象类型;在该对象类型为待跟随对象的情况下,根据标注框在第一视频帧中相对于目标对象的偏移量,确定标注框在第一视频帧中相对于目标对象的目标添加位置;在该对象类型为不跟随对象的情况下,根据标注框在第一视频帧中的添加位置,确定标注框在第一视频帧中相对于目标对象的目标添加位置;在第一视频帧的目标添加位置添加标注框。
需要说明的是,步骤604的具体实现过程与上述步骤404的具体实现过程相同,本说明书在此不再赘述。
步骤606:客户端将第一视频帧的时间戳、目标对象的对象类型、标注框以及标注框在第一视频帧中相对于目标对象的目标添加位置发送给服务器。
需要说明的是,目标对象有可能会进行移动,也可能不移动,本实施例中客户端确定出目标对象的对象类型后,可以将对象类型也一起发送给服务器,使得服务器可以针对不同的对象类型(待跟随和不跟随),采取不同的方式确定第二视频帧中的目标添加位置,从而节省服务器的处理资源。
步骤608:服务器接收客户端发送的第一视频帧的时间戳、目标对象的对象类型、标注框以及标注框在第一视频帧中相对于目标对象的目标添加位置,并根据第一视频帧的时间戳,确定视频中的第二视频帧,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。
需要说明的是,服务器可以确定第一视频帧的时间戳,根据该时间戳,确定出视频中所有晚于该时间戳的视频帧,然后对所有晚于该时间戳的视频帧进行图像识别,将所有晚于该时间戳的视频帧中包括目标对象的视频帧确定为第二视频帧。
步骤610:服务器在对象类型为待跟随对象的情况下,对标注框在第一视频帧中相对于目标对象的目标添加位置进行解析;获取标注框在第一视频帧构建的坐标系中相对于目标对象的第一对象坐标的偏移量;根据该偏移量,确定标注框在第二视频帧中的目标添加位置。
需要说明的是,如果目标对象的对象类型为待跟随对象,则客户端确定的是标注框在第一视频帧中相对于目标对象的目标添加位置,也即是,该目标添加位置实际上是标注框在坐标系中相对于目标对象的第一对象坐标的偏移量,因而对标注框在第一视频帧中的目标添加位置进行解析,即可获取到标注框相对于目标对象的偏移量,后续只要确定出第二视频帧中目标对象的第二对象坐标,再结合该偏移量,即可确定出标注框在第二视频帧中的目标添加位置。
本实施例一个可选的实施方式中,根据偏移量,确定标注框在第二视频帧中的目标添加位置,具体实现过程可以如下:
对第二视频帧进行图像识别,确定出第二视频帧中的目标对象;
确定第二视频帧中的目标对象在坐标系中的第二对象坐标;
根据偏移量和第二对象坐标,确定目标添加位置在坐标系中的添加坐标;
将添加坐标确定为标注框在第二视频帧中的目标添加位置。
需要说明的是,步骤610中的根据偏移量,确定标注框在第二视频帧中的目标添加位置的具体实现过程和步骤106中的在视频的第二视频帧中目标添加位置处添加标注框的具体实现过程相类似,步骤106的执行主体为客户端,而步骤610中的执行主体为服务器,本说明书在此不再赘述。
步骤612:服务器在对象类型为不跟随对象的情况下,对标注框在第一视频帧中相对于目标对象的目标添加位置进行解析;获取标注框在第一视频帧构建的坐标系中的标注坐标;将标注坐标确定为标注框在第二视频帧中的目标添加位置。
需要说明的是,如果目标对象的对象类型为不跟随对象,则客户端确定的是标注框在第一视频帧中的添加位置,也即是,该目标添加位置实际上是标注框在坐标系中的标注坐标,因而对标注框在第一视频帧中相对于目标对象的目标添加位置进行解析,即可获取到标注框在坐标系中的标注坐标,直接将该标注坐标确定为标注框在第二视频帧中的目标添加位置即可。
步骤614:服务器将第二视频帧的时间戳、标注框以及第二视频帧中的目标添加位置发送给客户端。
步骤616:客户端接收第二视频帧的时间戳、标注框以及第二视频帧中的目标添加位置,并在视频的第二视频帧中的目标添加位置处添加标注框。
本说明书提供的视频标注方法,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。另外,可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。再者,由于客户端可以将确定出的目标对象的对象类型也发送给服务器,因而服务器可以针对不同的对象类型,采取不同的方式确定第二视频帧中的目标添加位置,从而可以节省服务器的处理资源。
图7示出了根据本说明书一实施例提供的第五种视频标注方法的流程图,应用于服务器,具体包括以下步骤:
步骤702:接收客户端发送的第一视频帧的时间戳以及标注框在第一视频帧中的目标添加位置。
步骤704:根据第一视频帧的时间戳,确定视频中的第二视频帧,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。
步骤706:根据标注框在第一视频帧中相对于目标对象的目标添加位置,确定标注框在第二视频帧中的目标添加位置。
步骤708:将第二视频帧的时间戳以及第二视频帧中的目标添加位置发送给客户端。
本说明书提供的视频标注方法,可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。
与上述方法实施例相对应,本说明书还提供了视频标注客户端实施例,图8示出了本说明书一实施例提供的一种视频标注客户端的结构示意图。如图8所示,该客户端包括:
第一接收模块802,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;
第一确定模块804,被配置为根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;
添加模块806,被配置为在所述视频的第二视频帧中的目标添加位置处添加所述标注框,其中,所述第二视频帧为所述第一视频帧之后,且包括所述目标对象的视频帧。
可选的,第一确定模块804进一步被配置为:
对所述第一视频帧进行图像识别,确定出所述标注操作对应的第一视频帧中的目标对象;
确定所述目标对象的对象类型;
在所述对象类型为待跟随对象的情况下,根据所述标注框在所述第一视频帧中相对于所述目标对象的偏移量,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
在所述对象类型为不跟随对象的情况下,根据所述标注框在所述第一视频帧中的添加位置,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置。
可选的,第一确定模块804进一步被配置为:
根据所述第一视频帧构建坐标系,并确定所述目标对象在所述坐标系中的第一对象坐标;
确定所述标注框在所述坐标系中相对于所述第一对象坐标的偏移量;
将所述标注框在所述坐标系中相对于所述第一对象坐标的偏移量确定为所述目标添加位置。
可选的,添加模块806进一步被配置为:
对所述第二视频帧进行图像识别,确定出所述第二视频帧中的目标对象;
确定所述第二视频帧中的目标对象在所述坐标系中的第二对象坐标;
根据所述偏移量和所述第二对象坐标,确定所述目标添加位置在所述坐标系中的添加坐标;
在所述第二视频帧中的所述添加坐标处添加所述标注框。
可选的,第一确定模块804进一步被配置为:
根据所述第一视频帧构建坐标系,并确定所述标注框在所述坐标系中的标注坐标;
将所述标注坐标确定为所述目标添加位置。
可选的,所述客户端还包括:
第二发送模块,被配置为将所述第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
第三接收模块,被配置为接收所述服务器返回的所述第二视频帧的时间戳以及所述标注框在所述第二视频帧中的目标添加位置。
可选的,所述客户端还包括:
第三发送模块,被配置为将所述第一视频帧的时间戳、所述标注框以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
第四接收模块,被配置为接收所述服务器返回的所述第二视频帧的时间戳、所述标注框以及所述标注框在所述第二视频帧中的目标添加位置。
可选的,所述客户端还包括:
第四发送模块,被配置为将所述第一视频帧的时间戳、所述目标对象的对象类型、所述标注框以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
第五接收模块,被配置为接收所述服务器返回的所述第二视频帧的时间戳、所述标注框以及所述标注框在所述第二视频帧中的目标添加位置。
可选的,第一接收模块802进一步被配置为:
在处于标注模式的情况下,创建标注图层,通过所述标注图层接收针对所述第一视频帧中目标对象的标注操作。
本说明书提供的视频标注客户端,可以在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;然后根据标注操作确定标注操作对应的标注框在第一视频帧中相对于目标对象的目标添加位置,并在第一视频帧的目标添加位置添加该标注框;之后,在视频的第二视频帧中的目标添加位置处添加该标注框,其中,第二视频帧为第一视频帧之后,且包括目标对象的视频帧。这种情况下,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。
上述为本实施例的一种视频标注客户端的示意性方案。需要说明的是,该视频标注客户端的技术方案与上述的视频标注方法的技术方案属于同一构思,视频标注客户端的技术方案未详细描述的细节内容,均可以参见上述视频标注方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了视频标注服务器实施例,图9示出了本说明书一实施例提供的一种视频标注服务器的结构示意图。如图9所示,该服务器包括:
第二接收模块902,被配置为接收客户端发送的第一视频帧的时间戳以及标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
第二确定模块904,被配置为根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;
第三确定模块906,被配置为根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;
第一发送模块908,被配置为将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端。
可选的,所述服务器还包括:
第六接收模块,被配置为接收客户端发送的标注框。
可选的,所述服务器还包括:
第七接收模块,被配置为接收客户端发送的所述目标对象的对象类型。
可选的,第三确定模块906进一步被配置为:
在所述对象类型为待跟随对象的情况下,对所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置进行解析;
获取所述标注框在所述第一视频帧构建的坐标系中相对于所述目标对象的第一对象坐标的偏移量;
根据所述偏移量,确定所述标注框在所述第二视频帧中的目标添加位置。
可选的,第三确定模块906进一步被配置为:
在所述对象类型为不跟随对象的情况下,对所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置进行解析;
获取所述标注框在所述第一视频帧构建的坐标系中的标注坐标;
将所述标注坐标确定为所述标注框在所述第二视频帧中的目标添加位置。
可选的,第三确定模块906进一步被配置为:
对所述第二视频帧进行图像识别,确定出所述第二视频帧中的目标对象;
确定所述第二视频帧中的目标对象在所述坐标系中的第二对象坐标;
根据所述偏移量和所述第二对象坐标,确定所述目标添加位置在所述坐标系中的添加坐标;
将所述添加坐标确定为所述标注框在所述第二视频帧中的目标添加位置。
本说明书提供的视频标注服务器,可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。
上述为本实施例的一种视频标注服务器的示意性方案。需要说明的是,该视频标注服务器的技术方案与上述的视频标注方法的技术方案属于同一构思,视频标注服务器的技术方案未详细描述的细节内容,均可以参见上述视频标注方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了视频标注系统实施例,图10示出了本说明书一实施例提供的一种视频标注系统的结构示意图。如图10所示,该系统包括:
客户端1002,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;将所述第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
服务器1004,被配置为接收所述客户端发送的第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端;
所述客户端1002,还被配置为接收所述服务器返回的所述第二视频帧的时间戳以及所述标注框在所述第二视频帧中的目标添加位置;在所述视频的第二视频帧中的目标添加位置处添加所述标注框。
本说明书提供的视频标注系统,用户可以通过标注框对目标对象进行标注,并可以在第二视频帧中目标对象的相应位置持续添加标注框;也即是,可以在视频帧内容中添加标注框,提供了对视频中目标对象的标注能力,且可以在第二视频帧中跟随该目标对象添加标注框,从而可以提醒观看者在后续视频中持续关注目标对象,方便对视频内容进行讲解和提示,极大提高了用户体验。另外,可以通过服务器确定标注框在后续第二视频帧中的目标添加位置,客户端只需根据服务器返回的第二视频帧的时间戳和相应的目标添加位置添加标注框即可,无需跟随目标对象实时确定第二视频帧中标注框的目标添加位置,节省了客户端的处理资源。
上述为本实施例的一种视频标注系统的示意性方案。需要说明的是,该视频标注系统的技术方案与上述的视频标注方法的技术方案属于同一构思,视频标注系统的技术方案未详细描述的细节内容,均可以参见上述视频标注方法的技术方案的描述。
图11示出了根据本说明书一实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,以实现图1、图4、图5或图7所示的视频标注方法的操作步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频标注方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频标注方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现图1、图4、图5或图7所示的视频标注方法的操作步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频标注方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频标注方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (20)

1.一种视频标注方法,其特征在于,所述方法包括:
在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;
根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;
在所述视频的第二视频帧中的目标添加位置处添加所述标注框,其中,所述第二视频帧为所述第一视频帧之后,且包括所述目标对象的视频帧。
2.根据权利要求1所述的视频标注方法,其特征在于,所述根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,包括:
对所述第一视频帧进行图像识别,确定出所述标注操作对应的第一视频帧中的目标对象;
确定所述目标对象的对象类型;
在所述对象类型为待跟随对象的情况下,根据所述标注框在所述第一视频帧中相对于所述目标对象的偏移量,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
在所述对象类型为不跟随对象的情况下,根据所述标注框在所述第一视频帧中的添加位置,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置。
3.根据权利要求2所述的视频标注方法,其特征在于,所述根据所述标注框在所述第一视频帧中相对于所述目标对象的偏移量,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,包括:
根据所述第一视频帧构建坐标系,并确定所述目标对象在所述坐标系中的第一对象坐标;
确定所述标注框在所述坐标系中相对于所述第一对象坐标的偏移量;
将所述标注框在所述坐标系中相对于所述第一对象坐标的偏移量确定为所述目标添加位置。
4.根据权利要求3所述的视频标注方法,其特征在于,所述在所述视频的第二视频帧中的目标添加位置处添加所述标注框,包括:
对所述第二视频帧进行图像识别,确定出所述第二视频帧中的目标对象;
确定所述第二视频帧中的目标对象在所述坐标系中的第二对象坐标;
根据所述偏移量和所述第二对象坐标,确定所述目标添加位置在所述坐标系中的添加坐标;
在所述第二视频帧中的所述添加坐标处添加所述标注框。
5.根据权利要求2所述的视频标注方法,其特征在于,所述根据所述标注框在所述第一视频帧中的添加位置,确定所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,包括:
根据所述第一视频帧构建坐标系,并确定所述标注框在所述坐标系中的标注坐标;
将所述标注坐标确定为所述目标添加位置。
6.根据权利要求1-5任一所述的视频标注方法,其特征在于,所述在所述第一视频帧的所述目标添加位置添加所述标注框之后,还包括:
将所述第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
接收所述服务器返回的所述第二视频帧的时间戳以及所述标注框在所述第二视频帧中的目标添加位置。
7.根据权利要求1-5任一所述的视频标注方法,其特征在于,所述在所述第一视频帧的所述目标添加位置添加所述标注框之后,还包括:
将所述第一视频帧的时间戳、所述标注框以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
接收所述服务器返回的所述第二视频帧的时间戳、所述标注框以及所述标注框在所述第二视频帧中的目标添加位置。
8.根据权利要求2所述的视频标注方法,其特征在于,所述在所述第一视频帧的所述目标添加位置添加所述标注框之后,还包括:
将所述第一视频帧的时间戳、所述目标对象的对象类型、所述标注框以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
接收所述服务器返回的所述第二视频帧的时间戳、所述标注框以及所述标注框在所述第二视频帧中的目标添加位置。
9.根据权利要求1-5任一所述的视频标注方法,其特征在于,所述接收针对第一视频帧中目标对象的标注操作,包括:
在处于标注模式的情况下,创建标注图层,通过所述标注图层接收针对所述第一视频帧中目标对象的标注操作。
10.一种视频标注方法,其特征在于,所述方法包括:
接收客户端发送的第一视频帧的时间戳以及标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;
根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;
将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端。
11.根据权利要求10所述的视频标注方法,其特征在于,所述方法还包括:
接收客户端发送的标注框。
12.根据权利要求10或11所述的视频标注方法,其特征在于,所述方法还包括:
接收客户端发送的所述目标对象的对象类型。
13.根据权利要求12所述的视频标注方法,其特征在于,所述根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置,包括:
在所述对象类型为待跟随对象的情况下,对所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置进行解析;
获取所述标注框在所述第一视频帧构建的坐标系中相对于所述目标对象的第一对象坐标的偏移量;
根据所述偏移量,确定所述标注框在所述第二视频帧中的目标添加位置。
14.根据权利要求12所述的视频标注方法,其特征在于,所述根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置,包括:
在所述对象类型为不跟随对象的情况下,对所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置进行解析;
获取所述标注框在所述第一视频帧构建的坐标系中的标注坐标;
将所述标注坐标确定为所述标注框在所述第二视频帧中的目标添加位置。
15.根据权利要求13所述的视频标注方法,其特征在于,所述根据所述偏移量,确定所述标注框在所述第二视频帧中的目标添加位置,包括:
对所述第二视频帧进行图像识别,确定出所述第二视频帧中的目标对象;
确定所述第二视频帧中的目标对象在所述坐标系中的第二对象坐标;
根据所述偏移量和所述第二对象坐标,确定所述目标添加位置在所述坐标系中的添加坐标;
将所述添加坐标确定为所述标注框在所述第二视频帧中的目标添加位置。
16.一种视频标注客户端,其特征在于,所述客户端包括:
第一接收模块,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;
第一确定模块,被配置为根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;
添加模块,被配置为在所述视频的第二视频帧中的目标添加位置处添加所述标注框,其中,所述第二视频帧为所述第一视频帧之后,且包括所述目标对象的视频帧。
17.一种视频标注服务器,其特征在于,所述服务器包括:
第二接收模块,被配置为接收客户端发送的第一视频帧的时间戳以及标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;
第二确定模块,被配置为根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;
第三确定模块,被配置为根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;
第一发送模块,被配置为将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端。
18.一种视频标注系统,其特征在于,所述系统包括:
客户端,被配置为在视频的播放过程中,接收针对第一视频帧中目标对象的标注操作;根据所述标注操作确定所述标注操作对应的标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,并在所述第一视频帧的所述目标添加位置添加所述标注框;将所述第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置发送给服务器;
服务器,被配置为接收所述客户端发送的第一视频帧的时间戳以及所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置;根据所述第一视频帧的时间戳,确定视频中的第二视频帧,其中,所述第二视频帧为所述第一视频帧之后,且包括目标对象的视频帧;根据所述标注框在所述第一视频帧中相对于所述目标对象的目标添加位置,确定所述标注框在所述第二视频帧中的目标添加位置;将所述第二视频帧的时间戳以及所述第二视频帧中的目标添加位置发送给所述客户端;
所述客户端,还被配置为接收所述服务器返回的所述第二视频帧的时间戳以及所述标注框在所述第二视频帧中的目标添加位置;在所述视频的第二视频帧中的目标添加位置处添加所述标注框。
19.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现权利要求1-9或者权利要求10-15任意一项所述视频标注方法的操作步骤。
20.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1-9或者权利要求10-15任意一项所述视频标注方法的操作步骤。
CN202011230782.XA 2020-11-06 2020-11-06 视频标注方法、客户端、服务器及系统 Pending CN114443900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011230782.XA CN114443900A (zh) 2020-11-06 2020-11-06 视频标注方法、客户端、服务器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011230782.XA CN114443900A (zh) 2020-11-06 2020-11-06 视频标注方法、客户端、服务器及系统

Publications (1)

Publication Number Publication Date
CN114443900A true CN114443900A (zh) 2022-05-06

Family

ID=81361858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011230782.XA Pending CN114443900A (zh) 2020-11-06 2020-11-06 视频标注方法、客户端、服务器及系统

Country Status (1)

Country Link
CN (1) CN114443900A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024959A1 (zh) * 2021-08-27 2023-03-02 广州市网星信息技术有限公司 图像标注方法、系统、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024959A1 (zh) * 2021-08-27 2023-03-02 广州市网星信息技术有限公司 图像标注方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
Ren et al. An edge-computing based architecture for mobile augmented reality
US11108991B2 (en) Method and apparatus for contextual inclusion of objects in a conference
US11941883B2 (en) Video classification method, model training method, device, and storage medium
CN113473182B (zh) 一种视频生成的方法及装置、计算机设备和存储介质
US20210216776A1 (en) Real-time tracking-compensated image effects
CN111476871B (zh) 用于生成视频的方法和装置
US11036989B1 (en) Skeletal tracking using previous frames
Younis et al. Latency-aware hybrid edge cloud framework for mobile augmented reality applications
CN110059623B (zh) 用于生成信息的方法和装置
WO2010149842A1 (en) Methods and apparatuses for facilitating generation and editing of multiframe images
US12008811B2 (en) Machine learning-based selection of a representative video frame within a messaging application
CN115205925A (zh) 表情系数确定方法、装置、电子设备及存储介质
CN111882625B (zh) 生成动态图的方法、装置、电子设备及存储介质
CN111787280A (zh) 基于边缘计算的视频实时目标追踪方法及装置
US11551059B1 (en) Modulated image segmentation
CN114443900A (zh) 视频标注方法、客户端、服务器及系统
CN110084306B (zh) 用于生成动态图像的方法和装置
CN113313735B (zh) 全景视频数据处理方法及装置
CN111314627B (zh) 用于处理视频帧的方法和装置
CN114449326A (zh) 视频标注方法、客户端、服务器及系统
GB2442255A (en) Semantic image analysis at a server for a remote device
Hasper et al. Remote execution vs. simplification for mobile real-time computer vision
CN110381374B (zh) 图像处理方法和装置
CN116708918B (zh) 一种视频换脸的处理方法、相关装置及存储介质
KR102429297B1 (ko) 딥러닝 기반 이미지 채색 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination