CN111526422B - 一种视频帧中目标对象的拟合方法、系统及设备 - Google Patents
一种视频帧中目标对象的拟合方法、系统及设备 Download PDFInfo
- Publication number
- CN111526422B CN111526422B CN201910105682.5A CN201910105682A CN111526422B CN 111526422 B CN111526422 B CN 111526422B CN 201910105682 A CN201910105682 A CN 201910105682A CN 111526422 B CN111526422 B CN 111526422B
- Authority
- CN
- China
- Prior art keywords
- geometric
- target object
- video frame
- fitting
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4545—Input to filtering algorithms, e.g. filtering a region of the image
Abstract
本发明公开了一种视频帧中目标对象的拟合方法、系统及设备,其中,所述方法包括:在所述视频帧中识别所述目标对象所处的区域;选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数。本申请提供的技术方案,能够减少拟合后的数据量,从而提高后续的处理效率。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种视频帧中目标对象的拟合方法、系统及设备。
背景技术
随着视频播放技术的不断发展,针对视频画面的图像处理需求也在不断提高。当前,很多应用场景下都需要从视频画面中拟合出主要的目标对象,然后再根据拟合出的目标对象进行后续的处理。例如,一些自媒体需要根据视频的内容,制作出带有配图的剧情大纲。在这种情况下,就需要从视频画面中拟合出主要人物,然后根据拟合出的主要人物以及后期添加的文字来制作视频的剧情大纲。又例如,当视频播放画面中展示弹幕信息时,有时候为了避免弹幕信息对视频画面中的主要对象造成遮挡,也需要先从视频画面中拟合出主要对象,然后再通过弹幕处理技术,避免对拟合出的主要对象造成遮挡。
目前,通常是通过二值掩码图的方式对视频帧中的目标对象进行拟合。具体地,可以生成与视频帧一致的二值掩码图,在该二值掩码图中,目标对象所占的区域与其它区域可以具备不同的像素值。这样,后续可以针对二值掩码图进行处理。然而,由于二值掩码图的数据量通常比较大,从而导致按照二值掩码图来拟合目标对象时,会增加后续需要处理的数据量,进而导致处理效率较低。
发明内容
本申请的目的在于提供一种视频帧中目标对象的拟合方法、系统及设备,能够减少拟合后的数据量,从而提高后续的处理效率。
为实现上述目的,本申请一方面提供一种视频帧中目标对象的拟合方法,所述方法包括:在所述视频帧中识别所述目标对象所处的区域;选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数。
为实现上述目的,本申请另一方面还提供一种视频帧中目标对象的拟合系统,所述系统包括:区域识别单元,用于在所述视频帧中识别所述目标对象所处的区域;几何图形选择单元,用于选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;拟合参数生成单元,用于根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数。
为实现上述目的,本申请另一方面还提供一种视频帧中目标对象的拟合设备,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的拟合方法。
由上可见,本申请提供的技术方案,针对视频帧中的目标对象,可以识别出该目标对象所处的区域。然后,可以通过几何图形拟合的方式,采用一个或者多个几何图形的组合来覆盖视频帧中的目标对象。在确定出覆盖目标对象的若干个几何图形后,可以生成这些几何图形的拟合参数,该拟合参数可以表征各个几何图形的类型以及各个几何图形在视频帧中的布局。由于几何图形的拟合参数并非是图像数据,因此所占用的字节通常较小,从而能够减少拟合后的数据量,进而提高后续的处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施方式中目标对象的拟合方法示意图;
图2是本发明实施方式中几何图形拟合目标对象的示意图;
图3是本发明实施方式中矩形区域的示意图;
图4是本发明实施方式中椭圆区域的示意图;
图5是本发明实施方式中掩码信息和视频帧的数据的结构示意图;
图6是本发明实施方式中辅助标识位的一种实现方式示意图;
图7是本发明实施方式中目标对象的拟合设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本申请提供一种视频帧中目标对象的拟合方法,所述方法可以应用于具备图像处理功能的设备中。请参阅图1,所述方法包括以下步骤。
S1:在所述视频帧中识别所述目标对象所处的区域。
在本实施方式中,所述视频帧可以是待解析的视频数据中的任意一个视频帧。所述待解析的视频数据可以是设备中已经完成上传的点播视频的视频数据,也可以是设备接收到的直播视频流的视频数据,所述视频数据中可以包括每一个视频帧的数据。设备可以读取所述待解析的视频数据,并可以针对该视频数据中的每一个视频帧进行处理。具体地,设备可以预先确定视频数据中需要识别的目标对象,所述目标对象例如可以是视频画面中出现的人物。当然,根据视频内容的不同,所述目标对象也可以灵活更改。例如,在一个展现猫的日常生活的直播视频中,所述目标对象便可以是猫。
在本实施方式中,针对所述视频数据中的任一视频帧,可以从所述视频帧中识别出所述目标对象所处的区域。具体地,从视频帧中识别目标对象可以采用多种方式来实现。例如,可以通过实例分割(Instance segmentation)算法或者语义分割(Semanticsegmentation)算法从视频帧中识别出目标对象。在实际应用场景中,可以通过Faster-rcnn、Mask-rcnn等神经网络系统来识别目标对象。具体地,可以将视频帧输入上述的神经网络系统的模型,该模型输出的结果中,可以标注出所述视频帧中包含的目标对象的位置信息。所述位置信息可以通过视频帧中构成所述目标对象的像素点的坐标值来表示。这样,构成所述目标对象的像素点的坐标值的集合便可以表征所述目标对象在视频帧中所处的区域。
S3:选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域。
在本实施方式中,在确定出所述目标对象在所述视频帧中所处的区域后,可以选用一个或者多个几何图形来共同拟合所述目标对象所处的区域,拟合的结果可以是这一个或者多个几何图形的组合能够刚好覆盖所述目标对象所处的区域。举例来说,请参阅图2,当前视频帧中待识别的目标对象是人体,在从当前视频帧中识别出如图2所示的人体后,可以通过椭圆和矩形来拟合出该人体在视频帧中所处的区域。例如,椭圆可以拟合人体的头部,矩形可以拟合人体的上半身和下半身。
在本实施方式中,在确定上述的一个或者多个几何图形时,可以将所述目标对象所处的区域按照所述目标对象的形体特征分割为一个或者多个子区域。具体地,所述形体特征可以根据目标对象的类型而灵活设置。例如,当所述目标对象为人体时,所述形体特征便可以是头部、躯干、四肢等。当然,根据拟合精度的不同,分割得到的子区域的数量也可以不同。例如,当拟合精度的要求不高时,对于躯干和四肢可以无需分割得过于精细,而是可以简单地分为上半身和下半身。在实际应用中,可以通过多种姿态算法来将目标对象所处的区域分割为一个或者多个子区域。所述姿态算法例如可以包括DensePose算法、OpenPose算法、Realtime Multi-Person Pose Estimation算法、AlphaPose算法、Human Body PoseEstimation算法、DeepPose算法等。
在本实施方式中,在划分得到各个子区域后,针对任一所述子区域,可以选取与所述子区域相适配的几何图形。例如,对于人体的头部而言,可以选择圆形或者椭圆形,而针对人体的躯干和四肢而言,可以选择矩形。这样,这些子区域对应的各个几何图形的组合便可以覆盖所述目标对象所处的区域。
S5:根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数。
在本实施方式中,在选择了若干个能够刚好覆盖目标对象的几何图形后,可以继续确定所述几何图形的布局参数,以使得按照所述布局参数绘制的所述几何图形能够覆盖对应的子区域。在实际应用中,根据几何图形的不同,确定的布局参数也可以不同。例如,对于矩形而言,所述布局参数可以是矩形的两个对角顶点在视频帧中的坐标值,以及所述矩形的边与水平线的夹角。如图3所示,为了确定该矩形在视频帧中的布局参数,可以确定出顶点a和顶点b的坐标值,以及边ac与水平线(图3中的虚线)的夹角。这样,根据这些布局参数,便可以在视频帧中确定出该矩形的区域。又例如,为了确定图4中椭圆覆盖的区域,确定的布局参数可以包括该椭圆的中心点的坐标、该椭圆的长轴、短轴以及长轴与水平线(图4中的虚线)的夹角布局参数。再例如,为了确定圆形覆盖的区域,确定的布局参数可以包括该圆形的圆心和半径。
在本实施方式中,可以根据选取的所述几何图形的类型以及所述几何图形的布局参数,生成所述几何图形的拟合参数。具体地,所述拟合参数可以通过编码后的数值来表示。具体地,所述几何图形的类型可以通过预设图形标识来表示。例如,圆形的预设图形标识为0,椭圆的预设图形标识为1,矩形的预设图形标识为2,三角形的预设图形标识为3等等。而几何图形的布局参数则可以通过像素点的坐标或者覆盖的像素点的数量来表示。例如,圆形的圆心可以通过圆心处像素点的坐标值来表示,而半径则可以通过该半径覆盖的像素点的数量来表示。上述确定出的预设图形标识和布局参数均可以是十进制的,而在计算机语言中,通常可以采用二进制或者十六进制来表示。因此,在得到几何图形对应的预设图形标识以及布局参数后,可以分别对所述预设图形标识和所述布局参数进行编码。举例来说,可以对所述预设图形标识和所述布局参数进行二进制编码。假设十进制计数方式下,圆形的预设图形标识为0,布局参数中圆心的坐标为(16,32),半径为8,那么二进制编码后,预设图形标识可以为00,圆心坐标可以表示为010000 100000,半径可以表示为001000,组合起来就是00 010000 100000 001000。那么,最终便可以将编码后的数据作为所述几何图形的拟合参数。针对所述视频帧中包含的各个几何图形而言,均可以按照上述的方式生成各自的拟合参数。最终,各个所述几何图形的拟合参数的组合便可以作为所述视频帧的拟合参数。
在一个实施方式中,在生成了视频帧的拟合参数之后,还可以根据这些几何图形的拟合参数,生成所述视频帧的掩码信息。具体地,所述掩码信息中除了包含编码后的拟合参数,还可以包含针对所述拟合参数添加的辅助标识位。其中,添加所述辅助标识位的作用在于,能够将视频帧的掩码信息与视频帧的真实数据进行区分。请参阅图5,经过处理后的视频数据中,可以按照每一个视频帧进行划分,其中,对于同一视频帧而言,该视频帧的掩码信息和该视频帧的数据是首尾相连的。如果不添加辅助标识位,那么后续的其它设备在读取视频数据时,无法区分哪些是掩码信息,哪些是需要渲染的视频帧的数据。鉴于此,可以针对所述拟合参数添加辅助标识位,并将所述辅助标识位和所述拟合参数的组合作为所述视频帧的掩码信息。这样,其它设备在读取视频数据时,可以通过识别辅助标识位,从而确定出哪些字段是掩码信息。在实际应用中,辅助标识位的实现方式也多种多样。例如,所述辅助标识位可以通过二进制的方式,注明拟合参数的数据大小,并且所述辅助标识位可以是位于拟合参数之前的指定位数的二进制数。例如,所述辅助标识位可以是6比特的二进制数,对于00 010000 100000 001000这样的拟合参数,其数据大小为20位,那么辅助标识位便可以表示为010100,那么最终得到的掩码信息便可以是010100 00 010000 100000001000。其它设备在读取完6位的辅助标识位后,便可以知晓拟合参数的数据大小为20位,便可以紧接着读取20位的数据内容,并将这20位的数据内容作为拟合参数的内容。在这20位数据之后的数据,便可以作为待渲染的视频帧的数据。
此外,在其它的一些实施方式中,辅助标识位还可以表征所述拟合参数中包含的几何图形的数量,那么当其它设备从视频数据中读取到与辅助标识位表征的数量相一致的几何图形的拟合参数后,后续继续读取的数据就是待渲染的视频帧的数据。再者,辅助标识位还可以表征所述拟合参数的数据结束位置。如图6所示,所述辅助标识位可以是一串预先设定的固定字符,当其它设备读取到该固定字符后,便知晓拟合参数已经读取完成,该固定字符之后的就是待渲染的视频帧的数据。
在一个实施方式中,为了更加方便地拟合视频帧中的目标对象所处的区域,在识别所述视频帧中目标对象所处的区域之后,还可以生成所述视频帧的二进制掩码图。对于所述二进制掩码图中的各个像素点而言,可以仅具备两种不同的像素值。其中,构成所述目标对象所处的区域的像素点可以具备第一像素值,而其它像素点可以具备第二像素值。在实际应用中,为了与原始的视频帧相匹配,生成的二进制掩码图可以与所述视频帧的尺寸一致。该尺寸一致可以理解为画面的长度和宽度一致,并且分辨率也一致,从而使得原始的视频帧和生成的二进制掩码图中包含的像素点的数量是一致的。当然,为了减少二进制掩码图像的数据量,在生成的二进制掩码图像中可以仅包含所述目标对象对应的区域即可,而无需显示原始视频帧的全部区域。这样,生成的二进制掩码图像的尺寸可以与原始视频帧中剪裁出的一个子区域的尺寸相一致,而无需与原始视频帧的尺寸相一致。在本实施方式中,生成所述二进制掩码图之后,可以直接在所述二进制掩码图中,按照上述的方式通过所述若干个几何图形对具备第一像素值的像素点构成的区域进行拟合,从而得到各个几何图形的拟合参数。
在一个实施方式中,还可以通过机器学习的方式,来确定视频帧的拟合参数。具体地,不同的目标对象可以通过不同的训练样本集来对识别模型进行训练。首先,可以获取所述目标对象的训练样本集,所述训练样本集中可以包括若干个图像样本,并且所述若干个图像样本中均包含所述目标对象。对于训练样本而言,每个图像样本可以通过人工标注的方式,标注出每个图像样本中覆盖目标对象所需的几何图形。这些标注出的几何图形可以通过几何图形的拟合参数来表示,所述拟合参数可以包括几何图形的类型以及几何图形的布局参数。也就是说,在标注训练样本时,可以生成各个图像样本对应的拟合参数,该拟合参数可以作为图像样本的标注标签。
然后,可以通过人工标注的图像样本对预设的识别模型进行训练。所述识别模型中可以包括深度神经网络,该深度神经网络中的神经元可以具备初始权重值。携带初始权重值的深度神经网络对输入的图像样本进行处理后,可以得到输入的图像样本对应的预测结果。该预测结果可以表明输入的图像样本中,覆盖目标对象所需的几何图形的拟合参数。由于识别模型在初始阶段携带的权重值不够准确,会导致预测结果表征的拟合参数与人工标注的拟合参数存在一定差距。那么在得到预测结果后,可以计算预测结果表征的拟合参数与人工标注的拟合参数之间的差异值,并将该差异值作为反馈数据提供给识别模型,以更改识别模型中神经元的权重值。这样,通过反复校正权重值,最终可以使得在将任一图像样本输入训练后的识别模型后,所述训练后的识别模型输出的预测结果与输入的图像样本的标注标签表征的拟合参数一致,这样便可以完成训练过程。
后续,当需要确定视频帧的拟合参数时,可以将所述视频帧输入所述训练后的识别模型,并将所述训练后的识别模型输出的预测结果作为所述视频帧的拟合参数。
本申请还提供一种视频帧中目标对象的拟合系统,所述系统包括:
区域识别单元,用于在所述视频帧中识别所述目标对象所处的区域;
几何图形选择单元,用于选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;
拟合参数生成单元,用于根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数。
在一个实施方式中,所述几何图形选择单元包括:
子区域分割模块,用于将所述目标对象所处的区域按照所述目标对象的形体特征分割为一个或者多个子区域;
布局参数确定模块,用于针对任一所述子区域,选取与所述子区域相适配的几何图形,并确定所述几何图形的布局参数,以使得按照所述布局参数绘制的所述几何图形覆盖所述子区域。
在一个实施方式中,所述拟合参数生成单元包括:
编码模块,用于识别所述几何图形的类型对应的预设图形标识,并分别对所述预设图形标识和所述几何图形的布局参数进行编码,并将编码后的数据作为所述几何图形的拟合参数。
在一个实施方式中,所述拟合参数生成单元包括:
训练样本集获取模块,用于预先获取所述目标对象的训练样本集,所述训练样本集中包括若干个图像样本,所述若干个图像样本中均包含所述目标对象,并且每个所述图像样本均具备标注标签,所述标注标签用于表征覆盖所述图像样本中的目标对象所需的几何图形的拟合参数;
训练模块,用于利用所述训练样本集中的图像样本训练识别模型,以使得在将任一图像样本输入训练后的识别模型后,所述训练后的识别模型输出的预测结果与输入的图像样本的标注标签表征的拟合参数一致;
结果预测模块,用于将所述视频帧输入所述训练后的识别模型,并将所述训练后的识别模型输出的预测结果作为所述视频帧的拟合参数。
请参阅图7,本申请还提供一种视频帧中目标对象的拟合设备,所述设备包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,可以实现如上述的掩码信息的生成方法。具体地,如图7所示,在硬件层面,该设备可以包括处理器、内部总线和存储器。所述存储器可以包括内存以及非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述设备的结构造成限定。例如,所述设备还可包括比图7中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如GPU(Graphics ProcessingUnit,图像处理器),或者具有与图7所示不同的配置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等。
本实施方式中,所述的处理器可以包括中央处理器(CPU)或图形处理器(GPU),当然也可以包括其他的具有逻辑处理能力的单片机、逻辑门电路、集成电路等,或其适当组合。本实施方式所述的存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器等。实现的时候,该存储器也可以采用云存储器的方式实现,具体实现方式,本说明书不做限定。
需要说明的是,本说明书中的系统和设备,具体的实现方式可以参照方法实施方式的描述,在此不作一一赘述。
由上可见,本申请提供的技术方案,针对视频帧中的目标对象,可以识别出该目标对象所处的区域。然后,可以通过几何图形拟合的方式,采用一个或者多个几何图形的组合来覆盖视频帧中的目标对象。在确定出覆盖目标对象的若干个几何图形后,可以生成这些几何图形的拟合参数,该拟合参数可以表征各个几何图形的类型以及各个几何图形在视频帧中的布局。由于几何图形的拟合参数并非是图像数据,因此所占用的字节通常较小,从而能够减少拟合后的数据量,进而提高后续的处理效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种视频帧中目标对象的拟合方法,其特征在于,所述方法包括:
在所述视频帧中识别所述目标对象所处的区域;
选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;
根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数;
所述生成各个所述几何图形的拟合参数具体包括:识别所述几何图形的类型对应的预设图形标识,并分别对所述预设图形标识和所述几何图形的布局参数进行编码,并将编码后的数据作为所述几何图形的拟合参数。
2.根据权利要求1所述的方法,其特征在于,在所述视频帧中识别所述目标对象所处的区域之后,所述方法还包括:
生成所述视频帧的二进制掩码图,在所述二进制掩码图中,构成所述目标对象所处的区域的像素点具备第一像素值,其它像素点具备第二像素值,所述第一像素值和所述第二像素值不同。
3.根据权利要求2所述的方法,其特征在于,选择若干个几何图形拟合所述目标对象所处的区域包括:
在所述二进制掩码图中,通过所述若干个几何图形对具备第一像素值的像素点构成的区域进行拟合。
4.根据权利要求1或2所述的方法,其特征在于,选择若干个几何图形拟合所述目标对象所处的区域包括:
将所述目标对象所处的区域按照所述目标对象的形体特征分割为一个或者多个子区域;
针对任一所述子区域,选取与所述子区域相适配的几何图形,并确定所述几何图形的布局参数,以使得按照所述布局参数绘制的所述几何图形覆盖所述子区域。
5.根据权利要求1所述的方法,其特征在于,所述几何图形在所述视频帧中的布局参数通过像素点的坐标值和/或像素点的数量表示。
6.根据权利要求1所述的方法,其特征在于,生成各个所述几何图形的拟合参数包括:
预先获取所述目标对象的训练样本集,所述训练样本集中包括若干个图像样本,所述若干个图像样本中均包含所述目标对象,并且每个所述图像样本均具备标注标签,所述标注标签用于表征覆盖所述图像样本中的目标对象所需的几何图形的拟合参数;
利用所述训练样本集中的图像样本训练识别模型,以使得在将任一图像样本输入训练后的识别模型后,所述训练后的识别模型输出的预测结果与输入的图像样本的标注标签表征的拟合参数一致;
将所述视频帧输入所述训练后的识别模型,并将所述训练后的识别模型输出的预测结果作为所述视频帧的拟合参数。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述视频帧的拟合参数添加辅助标识位,并基于所述辅助标识位和所述视频帧的拟合参数的组合,生成所述视频帧的掩码信息;其中,所述辅助标识位包括以下至少一种功能:
表征所述视频帧的拟合参数的数据大小;
表征所述视频帧的拟合参数中包含的几何图形的数量;或者
表征所述视频帧的拟合参数的数据结束位置。
8.一种视频帧中目标对象的拟合系统,其特征在于,所述系统包括:
区域识别单元,用于在所述视频帧中识别所述目标对象所处的区域;
几何图形选择单元,用于选择若干个几何图形拟合所述目标对象所处的区域,以使得所述若干个几何图形的组合覆盖所述目标对象所处的区域;
拟合参数生成单元,用于根据各个所述几何图形的类型以及各个所述几何图形在所述视频帧中的布局参数,生成各个所述几何图形的拟合参数,并将各个所述几何图形的拟合参数的组合作为所述视频帧的拟合参数;
所述拟合参数生成单元具体包括:编码模块,用于识别所述几何图形的类型对应的预设图形标识,并分别对所述预设图形标识和所述几何图形的布局参数进行编码,并将编码后的数据作为所述几何图形的拟合参数。
9.根据权利要求8所述的系统,其特征在于,所述几何图形选择单元包括:
子区域分割模块,用于将所述目标对象所处的区域按照所述目标对象的形体特征分割为一个或者多个子区域;
布局参数确定模块,用于针对任一所述子区域,选取与所述子区域相适配的几何图形,并确定所述几何图形的布局参数,以使得按照所述布局参数绘制的所述几何图形覆盖所述子区域。
10.根据权利要求8所述的系统,其特征在于,所述拟合参数生成单元包括:
训练样本集获取模块,用于预先获取所述目标对象的训练样本集,所述训练样本集中包括若干个图像样本,所述若干个图像样本中均包含所述目标对象,并且每个所述图像样本均具备标注标签,所述标注标签用于表征覆盖所述图像样本中的目标对象所需的几何图形的拟合参数;
训练模块,用于利用所述训练样本集中的图像样本训练识别模型,以使得在将任一图像样本输入训练后的识别模型后,所述训练后的识别模型输出的预测结果与输入的图像样本的标注标签表征的拟合参数一致;
结果预测模块,用于将所述视频帧输入所述训练后的识别模型,并将所述训练后的识别模型输出的预测结果作为所述视频帧的拟合参数。
11.一种视频帧中目标对象的拟合设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910105682.5A CN111526422B (zh) | 2019-02-01 | 2019-02-01 | 一种视频帧中目标对象的拟合方法、系统及设备 |
EP19727579.5A EP3709666A1 (en) | 2019-02-01 | 2019-03-06 | Method for fitting target object in video frame, system, and device |
PCT/CN2019/077236 WO2020155299A1 (zh) | 2019-02-01 | 2019-03-06 | 视频帧中目标对象的拟合方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910105682.5A CN111526422B (zh) | 2019-02-01 | 2019-02-01 | 一种视频帧中目标对象的拟合方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111526422A CN111526422A (zh) | 2020-08-11 |
CN111526422B true CN111526422B (zh) | 2021-08-27 |
Family
ID=67437365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910105682.5A Active CN111526422B (zh) | 2019-02-01 | 2019-02-01 | 一种视频帧中目标对象的拟合方法、系统及设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3709666A1 (zh) |
CN (1) | CN111526422B (zh) |
WO (1) | WO2020155299A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347955A (zh) * | 2020-11-12 | 2021-02-09 | 上海影卓信息科技有限公司 | 视频中基于帧预测的物体快速识别方法、系统及介质 |
CN113554737A (zh) * | 2020-12-04 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 目标对象的动作驱动方法、装置、设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402680B (zh) * | 2010-09-13 | 2014-07-30 | 株式会社理光 | 人机交互系统中手部、指示点定位方法和手势确定方法 |
AU2013216732B2 (en) * | 2012-02-06 | 2014-10-02 | Legend3D, Inc. | Motion picture project management system |
CN103700112A (zh) * | 2012-09-27 | 2014-04-02 | 中国航天科工集团第二研究院二O七所 | 一种基于混合预测策略的遮挡目标跟踪方法 |
CN102970529B (zh) * | 2012-10-22 | 2016-02-17 | 北京航空航天大学 | 一种基于对象的多视点视频分形编码压缩与解压缩方法 |
CN103236074B (zh) * | 2013-03-25 | 2015-12-23 | 深圳超多维光电子有限公司 | 一种2d/3d图像处理方法及装置 |
US9576341B2 (en) * | 2013-10-30 | 2017-02-21 | Ricoh Imaging Company, Ltd. | Image-processing system, imaging apparatus and image-processing method |
US9693023B2 (en) * | 2014-02-05 | 2017-06-27 | Panasonic Intellectual Property Management Co., Ltd. | Monitoring apparatus, monitoring system, and monitoring method |
WO2015198323A2 (en) * | 2014-06-24 | 2015-12-30 | Pic2Go Ltd | Photo tagging system and method |
CN104299186A (zh) * | 2014-09-30 | 2015-01-21 | 珠海市君天电子科技有限公司 | 一种对图片进行马赛克处理的方法及装置 |
US9864901B2 (en) * | 2015-09-15 | 2018-01-09 | Google Llc | Feature detection and masking in images based on color distributions |
CN106022236A (zh) * | 2016-05-13 | 2016-10-12 | 上海宝宏软件有限公司 | 一种基于人体轮廓的动作识别方法 |
CN106951820B (zh) * | 2016-08-31 | 2019-12-13 | 江苏慧眼数据科技股份有限公司 | 基于环形模板和椭圆拟合的客流统计方法 |
CN107133604A (zh) * | 2017-05-25 | 2017-09-05 | 江苏农林职业技术学院 | 一种基于椭圆拟合和预测性神经网络的猪步态异常检测方法 |
CN108665490B (zh) * | 2018-04-02 | 2022-03-22 | 浙江大学 | 一种基于多属性编码及动态权重的图形匹配方法 |
CN109173263B (zh) * | 2018-08-31 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法和装置 |
CN109242868B (zh) * | 2018-09-17 | 2021-05-04 | 北京旷视科技有限公司 | 图像处理方法、装置、电子设备及储存介质 |
-
2019
- 2019-02-01 CN CN201910105682.5A patent/CN111526422B/zh active Active
- 2019-03-06 WO PCT/CN2019/077236 patent/WO2020155299A1/zh unknown
- 2019-03-06 EP EP19727579.5A patent/EP3709666A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP3709666A4 (en) | 2020-09-16 |
WO2020155299A1 (zh) | 2020-08-06 |
EP3709666A1 (en) | 2020-09-16 |
CN111526422A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
CN108304835B (zh) | 文字检测方法和装置 | |
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN111526421B (zh) | 视频掩码信息的生成、弹幕防遮挡方法、服务器及客户端 | |
US10699751B1 (en) | Method, system and device for fitting target object in video frame | |
CN110309824B (zh) | 文字检测方法、装置以及终端 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
JP4738469B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN112990205B (zh) | 手写字符样本的生成方法及装置、电子设备、存储介质 | |
CN111526422B (zh) | 一种视频帧中目标对象的拟合方法、系统及设备 | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
CN114511041A (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN111767889A (zh) | 公式识别方法、电子设备及计算机可读介质 | |
WO2021179751A1 (zh) | 图像处理方法和系统 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN111079745A (zh) | 公式识别方法、装置、设备及存储介质 | |
CN116361502A (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN112434698A (zh) | 字符识别方法、装置、电子设备及存储介质 | |
CN112836467A (zh) | 一种图像处理方法及装置 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
CN115050086B (zh) | 样本图像生成方法、模型训练方法、图像处理方法和装置 | |
CN112749705A (zh) | 训练模型更新方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |