CN111556336A - 一种多媒体文件处理方法、装置、终端设备及介质 - Google Patents

一种多媒体文件处理方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN111556336A
CN111556336A CN202010397616.2A CN202010397616A CN111556336A CN 111556336 A CN111556336 A CN 111556336A CN 202010397616 A CN202010397616 A CN 202010397616A CN 111556336 A CN111556336 A CN 111556336A
Authority
CN
China
Prior art keywords
multimedia file
frame image
line segment
area
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397616.2A
Other languages
English (en)
Other versions
CN111556336B (zh
Inventor
余自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010397616.2A priority Critical patent/CN111556336B/zh
Publication of CN111556336A publication Critical patent/CN111556336A/zh
Application granted granted Critical
Publication of CN111556336B publication Critical patent/CN111556336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种多媒体文件处理方法、装置、终端设备及介质,其中方法包括:可获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。本申请实施例,通过线段检测的方式更加精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。

Description

一种多媒体文件处理方法、装置、终端设备及介质
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种多媒体文件处理方法、一种多媒体文件处理装置、一种终端设备及一种计算机存储介质。
背景技术
随着计算机、互联网等技术的日益发展,视频内容的应用也日益广泛,各类视频应用层出不穷。面对巨大的视频类应用市场,在视频内容播放时的多媒体文件(例如用于广告的图像)投入方式也应运而生。
传统招商形式的多媒体文件植入,需要前期就谈好多媒体文件植入,但市场瞬息万变,随后由于多媒体文件素材选择、植入位置选择、突发性市场变化等问题,导致原先存在的多媒体文件需要被替换,于是多媒体文件植入的相关方法被提出。多媒体文件植入的通用流程为:检测视频中的多媒体文件植入区域,并对该区域进行区域跟踪,然后将多媒体文件素材投影到跟踪区域,覆盖该区域。可见,在多媒体文件植入的过程中,多媒体文件植入区域检测的精确程度,严重影响视频的多媒体文件植入效果。
目前针对多媒体文件植入区域的检测,通常是基于视频每一帧的图像检测或者分割技术,无法较好地解决检测多媒体文件植入区域时的边缘阴影,遮挡、反光等问题,导致多媒体文件植入区域的检测精度不够精确,严重影响视频的多媒体文件植入效果。
发明内容
本申请实施例提供了一种多媒体文件处理方法、装置、终端设备及介质,可以精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。
一方面,本申请实施例提供了一种多媒体文件处理方法,该方法包括:
获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段;
从至少一个线段中筛选多媒体文件区域边缘线段;
基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域;
在多媒体文件植入区域填充多媒体文件素材。
另一方面,本申请实施例提供了一种多媒体文件处理装置,该多媒体文件处理装置包括:
获取单元,用于获取视频中的目标帧图像;
处理单元,用于识别目标帧图像包括的至少一个线段,从至少一个线段中筛选多媒体文件区域边缘线段;
上述处理单元,还用于基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域;
填充单元,用于在多媒体文件植入区域填充多媒体文件素材。
相应地,本申请实施例还提供了一种终端设备,该终端设备包括输出设备、处理器和存储装置;存储装置,用于存储程序指令;处理器,用于调用程序指令并执行上述的多媒体文件处理方法。
相应地,本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述的多媒体文件处理方法。
本申请实施例可获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。通过线段检测的方式更加精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a~图1h是本申请实施例提供的一种多媒体文件处理方法的应用场景图;
图2是本申请实施例提供的一种线段检测模型的结构示意图;
图3是本申请实施例提供的一种多媒体文件处理方法的流程示意图;
图4是本申请实施例提供的另一种多媒体文件处理方法的流程示意图;
图5a~图5f是本申请实施例提供的另一种多媒体文件处理方法的应用场景图;
图6是本申请实施例提供的又一种多媒体文件处理方法的流程示意图;
图7是本申请实施例提供的一种确定透视变换矩阵的场景示意图;
图8是本申请实施例提供的一种多媒体文件处理装置的结构示意图;
图9是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着计算机、互联网等技术的日益发展,视频内容的应用也日益广泛,各类视频应用层出不穷,面对巨大的视频类应用市场,植入式多媒体文件应运而生。植入式多媒体文件,是指将多媒体文件素材融入电影、电视剧或电视节目各种内容之中,通过场景的再现,让观众在不知不觉中留下对产品及品牌印象,继而达到营销产品的目的。目前,在视频中植入多媒体文件素材的通用流程为:检测视频中各帧图像的多媒体文件植入区域,并对该区域进行区域跟踪,然后将多媒体文件素材投影到各帧图像的多媒体文件植入区域,覆盖该区域。可见,在视频中植入多媒体文件素材的过程中,多媒体文件植入区域的检测具有重要意义,多媒体文件植入区域的检测精确程度,严重影响视频的多媒体文件植入效果。其中,该多媒体文件可以指用于广告的图像或者视频。
实践发现,如图1a所示,视频中各帧图像的实际多媒体文件植入区域可能存在边缘阴影、遮挡或者反光等问题。这种情况下,由于现有多媒体文件植入区域的检测方法,通常是基于视频每一帧的图像检测或者分割技术,检测出的多媒体文件植入区域可能缺少边缘阴影、遮挡或者反光部分对应的区域,与实际多媒体文件植入区域存在较大差异。例如,假设视频中的某一帧图像如图1b所示,该图像的左侧边缘存在边缘阴影,该图像包括的实际多媒体文件植入区域为图中黑色加粗实线框10对应的区域,通过现有方法检测出的多媒体文件植入区域为图中黑色加粗虚线框11对应的区域,可以看出,该检测出的多媒体文件植入区域缺少边缘阴影所在的区域,与实际多媒体文件植入区域存在较大差异。
由上可知,现有的多媒体文件植入区域检测方法,无法较好地解决检测多媒体文件植入区域时的边缘阴影,遮挡、反光等问题,多媒体文件植入区域的检测精度较低,若后续基于该多媒体文件植入区域进行多媒体文件植入,将会严重影响视频的多媒体文件植入效果。
为了解决上述问题,本申请实施例提出了一种多媒体文件处理方法,该方法可以由终端设备或者服务器执行,该终端设备可以访问视频处理平台或者运行有视频处理平台对应的应用,该服务器可以为视频处理平台对应的服务器。此处的终端设备可以为以下任一种:智能手机、平板电脑、膝上计算机等便携式设备,以及台式电脑,等等。相应的,上述服务器可以指为上述视频处理平台提供相应服务的服务器,该服务器可以是一个独立的服务设备,也可以由多个服务设备所构成的集群设备。本申请实施例中,终端设备或者服务器可以获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。其中,该目标帧图像可以是视频中的任一帧图像或关键帧图像,关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像。
在一个实施例中,上述至少一个线段是调用线段检测模型提取目标帧图像的特征信息,并基于特征信息进行线段识别确定的。终端设备或服务器可以调用线段检测模型提取目标帧图像的特征信息,并基于该特征信息识别出目标帧图像中包括的至少一个线段,该特征信息可以包括目标帧图像中各个像素点的灰度值、位置信息、像素值等等。线段检测的目的是从一张图片中产出向量化的线段表示,线段检测的方法可以包括基于霍夫变换的检测方法或基于神经网络的检测方法,在本申请实施例中,主要通过基于神经网络的检测方法进行线段检测。具体地,上述线段检测模型包括但不限于L-CNN线段检测模型。
示例性地,L-CNN线段检测模型的网络结构图可以如图2所示,至少包括主干模块、连接点预测模块、线段采样模块和线段校正模块等4个模块。其中,主干网络用于特征提取(即提取输入图像的特征信息),将图像作为输入并为后续的模块提供了共享卷积特征图;连接点预测模块用于输出候选连接点;线段采样模块,用于从连接点预测模块输出的连接点预测出候选线段;线段校正模块,用于分类出预测的线段。其中,该线段校正模块中可以包括池化层,在线段采样模块预测出候选线段后,可以将每个候选线段的两个端点输入线段校正模块的池化层,通过池化层提取每个候选线段的线段特征,结合主干网络中对图像进行特征提取得到的共享卷积特征图,确定各个候选线段是否为图像中的直线线段,并输出各个直线线段和连接点信息(例如为各个直线线段的端点坐标)。
具体实现中,在调用L-CNN线段检测模型进行线段检测之前,可以预先通过大量标注有直线线段和直线线段的连接点信息(例如连接点在图像中的坐标)的训练图像对L-CNN线段检测模型进行训练。后续,终端设备或者服务器可以将视频中的目标帧图像输入训练完成的L-CNN线段检测模型,由L-CNN线段检测模型输出目标帧图像中所有直线线段和连接点信息。示例性地,参见图1c,假设目标帧图像如图1c中的左图所示,调用L-CNN线段检测模型对目标帧图像进行线段检测,输出的目标帧图像中所有直线线段和连接点可以如图1c中的右图所示。
进一步地,终端设备或服务器可以获取目标帧图像中的多媒体文件植入初始区域,并从目标帧图像对应的所有直线线段中筛选与多媒体文件植入初始区域的任一边缘线段距离最近,且满足连通条件的多媒体文件区域边缘线段,进而基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域。该连通条件为可以组成闭合的多边形,该多边形与多媒体文件植入区域的形状匹配。例如,对于四边形的平面多媒体文件,也即目标帧图像中的多媒体文件植入区域为四边形,那么连通条件为可以组成闭合的四边形。由于最少需要2条线段(四个连接点)确定为一个四边形,最多可以4条线段确定一个四边形,这种情况下,终端设备或者服务器可以从目标帧图像对应的所有直线线段中筛选筛选与多媒体文件植入初始区域的任一边缘线段距离最近,且可以组成闭合四边形的n(n为大于等于2,且小于等于4的整数)条线段,并将该n条线段确定为多媒体文件区域边缘线段,进而基于n条多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域。
示例性地,参见图1d,假设目标帧图像中所有直线线段和连接点如图1d中的图像12所示,目标帧图像的多媒体文件植入初始区域参见图1d中的图像13。这种情况下,终端设备或者服务器可以从图像12包括的所有直线线段中将与多媒体文件植入初始区域的任一边缘线段距离最近,且能够组成四边形的线段确定为多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定出如图1d中右图所示的多媒体文件植入区域。
结合上图1c和图1d可以看出,目标帧图像的实际多媒体文件植入区域存在边缘阴影,该边缘阴影可能是由于图中“XX多媒体”对应多媒体文件显示牌的外侧边框对内侧边框产生的。由于边缘阴影未分布成一条直线,在本申请实施例中未被检测为线段,但对于四边形区域,最少只需要2条线段即可以确定多媒体文件植入区域,因此基于本申请实施例的线段检测方法依旧可精确确定目标帧图像中的多媒体文件植入区域。与之相似地,针对检测多媒体文件植入区域时的其他问题(例如边缘模糊,遮挡、反光等),通过线段检测方法依旧可精确定位出目标帧图像中的多媒体文件植入区域,可见,本申请实施采用的通过线段检测确定多媒体文件植入区域的方式,有效避免了传统多媒体文件植入区域检测时目标边缘模糊、阴影、反光、遮挡等原因导致的检测精度不高的问题。
进一步地,在确定出目标帧图像中的多媒体文件植入区域之后,终端设备或者服务器可以在多媒体文件植入区域填充多媒体文件素材。示例性地,参见图1e,假设多媒体文件素材为图像,终端设备或者服务器可以将多媒体文件素材填充至多媒体文件植入区域,目标帧图像填充多媒体文件素材后的效果可以参见图1e中的右图所示。
可以理解的是,由于视频是由多帧图像组成,因此对视频进行多媒体文件植入,实际可以为对视频的多帧图像进行多媒体文件植入。在本申请实施例中,该目标帧图像可以为视频中的首帧图像,在确定出视频中目标帧图像的多媒体文件植入区域之后,可以跟踪视频中后续图像(即视频中位于目标帧后的图像)的多媒体文件植入区域,并在跟踪到的各个后续图像的多媒体文件植入区域中填充多媒体文件素材,从而实现对视频的多媒体文件植入。
进一步地,为了使得植入的多媒体文件素材与视频无缝融合,本申请实施例提出了另一种多媒体文件处理方法,该方法可以由上述所提及的终端设备或者服务器执行,请参见图3,该多媒体文件处理方法可包括以下步骤S301-S305:
S301,通过线段检测确定多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定多媒体文件植入区域。具体实现中,在对视频进行多媒体文件植入时,可以对视频进行逐帧分析,首先获取视频中首帧图像,通过线段检测确定首帧图像的多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定首帧图像的多媒体文件植入区域。
S302,多媒体文件植入区域跟踪。由于视频内容在相邻帧之间发生的变化不大,可以认为多媒体文件植入区域对应多媒体文件区域边缘线段在相邻帧之间发生的位置差异非常小。本申请实施例在对视频进行逐帧分析时,可以保存针对上一帧图像检测出的多媒体文件区域边缘线段,并对上一帧图像的多媒体文件区域边缘线段与针对当前帧图像中检测出的所有线段进行距离对比,从当前帧图像对应的所有线段中筛选与上一帧图像的多媒体文件区域边缘线距离最小的线段,作为当前帧图像的多媒体文件区域边缘线段,进而基于当前帧图像的多媒体文件区域边缘线段确定当前帧图像中的多媒体文件植入区域。采用此种方式,可以通过逐帧检测视频中每帧图像的线段变化,实现对视频中多媒体文件植入区域的跟踪,相较于传统目标跟踪方法,跟踪精度更加准确。其中,传统目标跟踪方法一般采用跟踪目标所在的矩形框,该方法确定出的多媒体文件植入区域和实际多媒体文件植入区域存在较大的间隙,参见图1f,加粗黑色虚线矩形框15包围的区域为传统目标跟踪方法确定出的多媒体文件植入区域,而实际多媒体文件植入区域应为加粗黑色实线框14包围的区域。
在一个实施例中,在对视频进行逐帧分析时,对每一帧图像均可以建立x-y平面坐标系,上述当前帧图像对应线段与上一帧图像对应线段之间的距离,可以通过距离公式1.1计算得到。公式1.1中,d表示线段之间的距离。pre代表前一帧,current代表当前帧,x和y分别表示横纵坐标,L表示线段,由于一条线段包含两个端点,因此需将线段之间的两个端点的距离相加,i表示第i个端点。
Figure BDA0002488247450000071
依照上述的多媒体文件植入区域跟踪方法,本申请实施例在确定出首帧图像的多媒体文件植入区域后,可以保存首帧图像的多媒体文件植入区域对应的多媒体文件区域边缘线段,并对首帧图像的多媒体文件区域边缘线段与首帧图像的下一帧图像的所有线段进行距离对比,从下一帧图像的所有线段中筛选与首帧图像的多媒体文件区域边缘线距离最小的线段,作为该下一帧图像的多媒体文件区域边缘线段,进而基于下一帧图像的多媒体文件区域边缘线段确定下一帧图像中的多媒体文件植入区域。进一步地,可以通过将上述下一帧图像与首帧图像的下下帧图像的多媒体文件区域边缘线段进行距离对比,确定出下下帧图像的多媒体文件植入区域。以此类推,可以确定出视频中各帧图像的多媒体文件植入区域,从而实现对视频中多媒体文件植入区域的跟踪。
S303,对多媒体文件素材进行透视变换。透视变换的本质是将图像投影到一个新的视平面,本申请实施例可以结合多媒体文件植入区域对多媒体文件素材进行透视变换,示例性,参见图1g,假设多媒体文件素材为图像,图1g中的左上图和左下图分别为多媒体文件素材和视频中的任一帧图像,结合该左下图中的多媒体文件植入区域对多媒体文件素材进行透视变换后的效果可以参见图1g中的右图所示。可以看出,通过对多媒体文件素材进行透视变换,可以使得生成的多媒体文件植入区域始终保持和视频整体一致的镜头角度。
S304,融合透视变换后的多媒体文件素材与多媒体文件植入区域。
S305,抗锯齿处理。
在一个实施例中,融合透视变换后的多媒体文件素材与多媒体文件植入区域的具体实施方式可以为将透视变换后的多媒体文件素材叠加在对应图像的多媒体文件植入区域,融合透视变换后的多媒体文件素材与多媒体文件植入区域。示例性地,参见图1h,直接融合透视变换后的多媒体文件素材与多媒体文件植入区域后的效果如图1h的左图所示,可以看出,在图像(即多媒体文件植入区域中填充的多媒体文件素材)边缘存在由直线连接导致的图像锯齿问题。针对这种问题,本申请实施例可以进一步对图像边缘进行抗锯齿处理,使得图像边缘更平滑,抗锯齿处理后的效果如图1h中的右图所示。其中,抗锯齿处理所采用的方法包括但不限于:SSAA(Super-Sampling Anti-aliasing,超级采样抗锯齿)、MSAA(MultiSampling Anti-Aliasing,多重采样抗锯齿)、CSAA(CoverageSampling Anti-Aliasing,覆盖采样抗锯齿)、CFAA(Custom Filter Anti-Aliasing,可编程过滤抗锯齿)、FXAA(Fast Approximate Anti-Aliasing,快速近似抗锯齿)。
本申请实施例中,可以在确定视频中各帧图像的多媒体文件植入区域后,对多媒体文件素材进行透视变换,将透视变换后的多媒体文件素材填充至各帧图像的多媒体文件植入区域,并对多媒体文件植入区域中显示的多媒体文件素材进行抗锯齿处理,从而使得植入的多媒体文件素材与视频无缝融合。
基于上述的描述,本申请实施例提出了另一种多媒体文件处理方法,该方法可以由上述所提及的终端设备执行,请参见图4,该多媒体文件处理方法可包括以下步骤S401-S404:
S401,获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段。其中,目标帧图像是视频中的任一帧图像或关键帧图像,关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像(例如视频中各时长区间内的首帧图像)。
本申请实施例中终端设备可以访问视频处理平台或者运行有视频处理平台对应的应用。当用户需要在视频中植入多媒体文件时,可以通过视频处理平台上传视频,终端设备在检测到视频上传完成后,可以获取视频中的目标帧图像,并展示在视频处理平台的页面中,如图5a的左图所示。用户可以通过视频处理平台(例如可以通过图5a中右图所示的多媒体文件素材选取页面)选取植入视频的多媒体文件素材,在多媒体文件素材选取完成后,输入植入多媒体文件的触发操作,从而启动针对视频的多媒体文件植入。其中,该触发操作可以为针对视频处理平台的页面中多媒体文件植入功能按钮(例如图5a中的“多媒体文件植入”按钮)输入的点击、按压、语音等操作。
进一步地,当终端设备检测到该触发操作后,可以调用线段检测模型识别目标帧图像包括的至少一个线段以及各个线段的连接点信息(该连接点信息可以为各个线段的端点的坐标)。其中,调用线段检测模型识别目标帧图像包括的至少一个线段以及各个线段的连接点信息的具体实施方式,可以参见上述实施例的相关描述,此处不再赘述。
S402,从至少一个线段中筛选多媒体文件区域边缘线段。
在一个实施例中,终端设备可以获取目标帧图像中的多媒体文件植入初始区域,并从至少一个线段中将与多媒体文件植入初始区域匹配的多个线段确定为多媒体文件区域边缘线段。其中,该多媒体文件植入初始区域可以是目标帧图像中被框选的图像区域。例如,参见图5b,终端设备通过视频处理平台展示目标帧图像后,用户可以在当前页面中通过虚线矩形框,在目标帧图像中框选多媒体文件植入初始区域。或者,该多媒体文件植入初始区域还可以是基于多媒体文件区域识别模型在目标帧图像中识别到的图像区域,该多媒体文件区域识别模型可以为实例分割模型(例如Mask-RCNN等等),或者其它卷积神经网络(例如CNN等等),对此不做具体限定。
具体实现中,上述多媒体文件区域边缘线段可以是指与多媒体文件植入初始区域的任一边缘线段距离最近,且满足连通条件的多个线段。具体实现中,该连通条件为可以组成闭合的多边形,该多边形与多媒体文件植入区域的形状匹配。例如,目标帧图像中的多媒体文件植入区域为四边形,那么连通条件为可以组成闭合的四边形。由于最少需要2条线段(四个连接点)确定为一个四边形,最多可以4条线段确定一个四边形,那么终端设备可以从目标帧图像对应的所有线段中筛选与多媒体文件植入初始区域的任一边缘线段距离最近,且可以组成闭合四边形的n(n为大于等于2,且小于等于4的整数)条线段,并将该n条线段确定为多媒体文件区域边缘线段,进而基于n条多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域。
示例性地,参见图5c和图1c,假设目标帧图像如图1c的左图所示,调用线段检测模型识别目标帧图像包括的至少一个线段如图1c的右图所示。在此基础上继续参见图5c,终端设备可以将识别到的目标帧图像包括的各个线段与多媒体文件植入初始区域中的各个边缘线段进行距离对比,对比结果显示目标帧图像包括的线段1距离多媒体文件植入初始区域的上边缘线段最近,线段2距离多媒体文件植入初始区域的右边缘线段最近,线段3距离多媒体文件植入初始区域的下边缘线段最近,线段4距离多媒体文件植入初始区域的左边缘距离最近,进一步地,判断出线段1、线段2、线段3和线段4可以组成闭合的四边形,则可以将线段1、线段2、线段3和线段4确定为多媒体文件区域边缘线段。
S403,基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域。
在一个实施例中,在从至少一个线段中筛选出多媒体文件区域边缘线段之后,可以直接将多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。或者,在另一个实施例中,可以在目标帧图像上标记多媒体文件区域边缘线段,若检测到针对多媒体文件区域边缘线段输入的确认操作,则将多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。其中,该确认操作可以为针对视频处理平台页面中多媒体文件区域确认功能按钮(如图5d中的“多媒体文件区域确认”按钮)输入的点击、按压、互动、语音等操作。
示例性地,参见图5d,多媒体文件区域边缘线段包括线段1、线段2、线段3和线段4,当终端设备确定出上述多媒体文件区域边缘线段后可以在视频处理平台页面显示的目标帧图像中标记线段1、线段2、线段3和线段4,若检测到用户针对“多媒体文件区域确认”按钮输入的点击操作,则可以将多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。或者,若检测到用户针对“多媒体文件区域调整”按钮输入的点击操作,则可以显示针对目标帧图像的多媒体文件区域调整页面,用户可以在目标帧图像的多媒体文件区域调整页面调整各个多媒体文件区域边缘线段的位置。进一步地,在检测到用户调整完成后,可以保存调整后的各个多媒体文件区域边缘线段的位置信息(例如,可以为调整后的各个多媒体文件区域边缘线段的端点在目标帧图像中的坐标),并将调整后的各个多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。
S404,在多媒体文件植入区域填充多媒体文件素材。具体实现中,可以在目标帧图像中的多媒体文件植入区域叠加多媒体文件素材,从而完成目标帧图像的多媒体文件植入。
由于视频是由多帧图像组成,因此对视频进行多媒体文件植入,实际上是对视频中的多帧图像进行多媒体文件植入。在本申请实施例中,上述目标帧图像可以指视频中的任一帧图像或者视频中的关键帧图像,关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像。作为一种可行的方式,终端设备对视频中除目标帧以外的其它各帧图像,均可以执行与上述步骤S401~步骤S404相似的流程,在其它各帧图像中植入多媒体文件素材,从而完成对视频的多媒体文件植入。
或者,终端设备可以对视频中该目标帧之前的图像执行上述步骤S401~步骤S404相似的流程,完成多媒体文件素材的植入;对于该目标帧之后的图像,采取另外的植入方式。其中,该另外的植入方式可以为:将目标帧图像的下一帧图像包括的至少一个线段与目标帧图像对应的所述多媒体文件区域边缘线段进行距离对比,从下一帧图像包括的至少一个线段中将与多媒体文件区域边缘线段距离最近的多个线段,确定为下一帧图像对应的多媒体文件区域边缘线段,基于下一帧图像对应的多媒体文件区域边缘线段确定下一帧图像中的多媒体文件植入区域,在下一帧图像中的多媒体文件植入区域填充多媒体文件素材。以此类推,可以对视频中目标帧之后的各帧图像完成多媒体文件素材的植入。
具体实现中,可以将目标帧图像的下一帧图像包括的各个线段依次与目标帧图像对应的多媒体文件区域边缘线段一一进行距离对比,将与目标帧图像的任一多媒体文件区域边缘线段距离最近的多个线段确定为下一帧图像对应的多媒体文件区域边缘线段。例如,目标帧图像的多媒体文件区域边缘线段分别为线段1、线段2、线段3和线段4,目标帧图像的下一帧图像包括的各个线段分别为线段5~20,通过将目标帧图像的下一帧图像包括的各个线段依次与目标帧图像对应的多媒体文件区域边缘线段一一进行距离对比,对比结果显示下一帧图像包括的线段5距离目标帧图像的线段1最近,下一帧图像包括的线段15距离目标帧图像的线段2最近,下一帧图像包括的线段20距离目标帧图像的线段3最近,下一帧图像包括的线段10距离目标帧图像的线段4最近,则可以将上述下一帧图像中的线段5、线段15、线段20和线段10确定为下一帧图像对应的多媒体文件区域边缘线段。
本申请实施例中,可以获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。通过线段检测的方法更加精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。
可以理解是,针对视频的多媒体文件植入,可以对视频中所有帧图像通用同一个多媒体文件素材,也可以对所有帧图像中指定范围的帧图像植入不同的多媒体文件素材。例如视频中各时长区间内的各帧图像植入不同的多媒体文件素材,如对于总时长为6分钟的视频,可以0-2分钟内的各帧图像植入多媒体文件素材1,2-4分钟内的各帧图像植入多媒体文件素材2,4-6分钟内的各帧图像植入多媒体文件素材3。这种情况下,本申请实施例提到的目标帧图像可以指各时长区间内的首帧图像,各时长区间内除首帧图像之外的其它图像,均可以通过上述实施例中提到的另外的植入方式完成多媒体文件素材的植入,此处不再赘述。
基于此,本申请实施例基于上述方法实施例的描述,还提出了另一种如图6所示的多媒体文件处理方法,该方法可以由上述所提及的终端设备执行,请参见图6,该多媒体文件处理方法可包括以下步骤S601-S608:
S601:获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段。
S602:从至少一个线段中筛选多媒体文件区域边缘线段,基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域。其中,步骤S601~步骤S602的具体实施方式可以参见上述实施例中步骤S401~步骤S403的相关描述,此处不再赘述。
S603:显示视频的视频处理页面,该视频处理页面中包括多媒体文件素材配置项。
S604:当多媒体文件素材配置项被触发时,显示视频对应的多媒体文件素材配置页面。示例性,该多媒体文件素材配置项例如可以为图5a中“多媒体文件素材”对应的功能按钮,用户可以通过点击、按压或者语音的方式触发该功能按钮。
S605:基于在多媒体文件素材配置页面输入的素材配置操作,生成视频对应的多媒体文件素材配置信息,多媒体文件素材配置信息用于表征视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系。
在一个实施例中,上述多媒体文件素材配置页面可以包括时长区间配置项以及与该时长区间配置项关联的多媒体文件素材选取项,该时长区间配置项用于输入时长区间,与该时长区间配置项关联的多媒体文件素材选取项,用于触发选取时长区间内的各帧图像对应的多媒体文件素材。示例性地,该多媒体文件素材配置页面如图5e所示,可以包括多个时长区间配置项50和与时长区间配置项关联的多媒体文件素材选取项51,这种情况下,上述素材配置操作可以指用户在各时长区间配置项的输入操作,以及针对各时间区间的多媒体文件素材选取操作。用户可以在各时长区间配置项中输入时长范围,并选取各个时长范围下的多媒体文件素材。例如针对0-10秒内的各帧图像选取多媒体文件素材1,针对10-20秒内的各帧图像选取多媒体文件素材2,针对20-30秒内的各帧图像选取多媒体文件素材3。进一步地,终端设备可以基于该素材配置操作生成用于表征视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,该对应关系如表1所示。
表1
区间时长(单位:秒) 多媒体文件素材
0-10 多媒体文件素材1
10-20 多媒体文件素材2
20-30 多媒体文件素材3
在另一个实施例中,上述多媒体文件素材配置页面可以包括视频的视频总览区,该视频总览区上显示有视频的起始时长,上述基于在多媒体文件素材配置页面输入的素材配置操作,生成视频对应的多媒体文件素材配置信息的具体实施方式可以为:响应在视频总览区上输入的切割操作,将视频切割为多个时长区间的子视频,基于针对各个时长区间的子视频输入的多媒体文件素材选取操作,确定视频中各个时长区间内的各帧图像对应的多媒体文件素材,并建立视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,并基于对应关系生成多媒体文件素材配置信息。
示例性地,参见图5f,包括视频总览区、视频切割功能按钮53,上述切割操作可以为针对视频切割功能按钮53的拖动操作,从图5f可以看出,用户通过拖动视频切割功能按钮53将总时长为30秒的视频切割为时长区间分别为00:00—00:10、00:10—00:20和00:20—00:30的子视频。进一步地,用户可以通过触控每个时长区间所在的图像区域(例如,通过鼠标右键点击每个时长区间所在的图像区域)调出每个时长区间对应的素材选取功能按钮,进而触发各个素材选取功能按钮,显示多媒体文件素材选取页面(例如图5a中的右图所示),在多媒体文件素材选取页面中选取各个时长区间内的各帧图像对应的多媒体文件素材,在检测到用户针对各个时长区间内的各帧图像对应的多媒体文件素材选取完成后,建立视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,并基于对应关系生成多媒体文件素材配置信息。
S606:基于多媒体文件素材配置信息表征的视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,确定目标帧图像对应的目标多媒体文件素材。示例性地,假设视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系如表1所示,那么可以将多媒体文件素材1确定为0-10秒内各帧图像的目标多媒体文件素材,将多媒体文件素材2确定为10-20秒内各帧图像的目标多媒体文件素材,将多媒体文件素材3确定为20-30秒内各帧图像的目标多媒体文件素材。对于目标帧图像,可以解析目标帧图像所属的时长区间,进而将该时长区间对应的多媒体文件素材确定为目标帧图像对应的目标多媒体文件素材。
S607:获取目标帧图像对应的目标多媒体文件素材,并通过目标多媒体文件素材与多媒体文件植入区域之间的透视变换矩阵,对目标多媒体文件素材进行透视变换,该透视变换矩阵是基于目标多媒体文件素材的角点坐标和多媒体文件植入区域的角点坐标确定的。
S608:将透视变换后的目标多媒体文件素材填充到多媒体文件植入区域中。
透视变换的本质是将图像投影到一个新的视平面,其通用变换公式如式1.2所示,数学表达式如式1.3所示,分别为:
Figure BDA0002488247450000151
Figure BDA0002488247450000152
其中,
Figure BDA0002488247450000153
为透视变换矩阵。
式1.2和式1.3中,(u,v)为原始图像像素横纵坐标,(x,y)为变换后的图像像素横纵坐标,x=x′/w,y=y′/w。假设上述新的视平面为四边形的平面,给定透视变换对应的四对像素点坐标,即可求得透视变换矩阵。
在本申请实施例中,假设多媒体素材为图像,目标帧图像的多媒体文件植入区域为四边形的平面区域,上述透视变换对应的四对像素点坐标可以指目标多媒体文件素材的4个角点坐标。具体实现中,参见图7,可以对目标多媒体文件素材和目标帧图像建立x-y平面坐标系,并将目标多媒体文件素材的4个角点横纵坐标(即A、B、C和D点的坐标)作为原始图像像素横纵坐标,将多媒体文件植入区域的4个角点横纵坐标(即A1、B1、C1和D1点的坐标)作为变换后的图像像素横纵坐标,输入上式1.3,求得透视变换矩阵,进而基于透视变换矩阵对多媒体文件素材进行透视变换。其中,多媒体文件植入区域的角点,指多媒体文件植入区域边缘的直线交叉点。
进一步地,由于直接将透视变换后的多媒体文件素材填充至多媒体文件植入区域后,在图像(即多媒体文件植入区域中填充的多媒体文件素材)边缘可能存在由直线连接导致的图像锯齿问题(如图1h的左图所示)。为了解决这一问题,终端设备在将透视变换后的目标多媒体文件素材填充到多媒体文件植入区域中之后,还可以对多媒体文件植入区域中显示的目标多媒体文件素材进行抗锯齿处理,从而使得目标图像中显示的目标多媒体文件素材的边缘更加平滑。
其中,对多媒体文件植入区域中显示的目标多媒体文件素材进行抗锯齿处理的具体实施方式可以为:从目标多媒体文件素材中获取位于多媒体文件植入区域的区域边缘线段上的多个邻近像素,在目标多媒体文件素材中对多个邻近像素进行混合处理,生成的最终像素可以使每个像素拥有邻近像素的特征,像素与像素之间的过渡色彩,就变得近似,使得多媒体文件植入区域中显示的目标多媒体文件素材的边缘色彩过渡也趋于平滑,从而实现对多媒体文件植入区域中显示的目标多媒体文件素材的抗锯齿处理。
示例性地,参见图1h,假设多媒体文件植入区域对应有4个区域边缘线段,多媒体文件植入区域中显示的目标多媒体文件素材为图像,可以分别从该图像中获取位于多媒体文件植入区域的每一个区域边缘线段上的多个邻近像素,并在该图像中对位于每一个区域边缘线段上的多个邻近像素分别进行混合处理,从而使得多媒体文件植入区域中显示的图像的各个边缘色彩过渡趋于平滑,其效果如图1h的右图所示。
可以理解的是,对于视频中的其它各帧图像,在确定出其它各帧图像中的多媒体文件植入区域之后,均可以通过上述步骤S606~步骤S608相似的方式,获取其它各帧图像对应的目标多媒体文件素材,对各自对应的目标多媒体文件素材进行透视变换,并将透视变换后的各个目标多媒体文件素材填充至其它各帧图像的多媒体文件植入区域中,从而完成对视频的多媒体文件植入。
本申请实施例中,可以预先配置视频中各帧图像与多媒体文件素材的对应关系,在基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域后,可以基于该对应关系确定目标帧图像对应的目标多媒体文件素材,并通过目标多媒体文件素材与多媒体文件植入区域之间的透视变换矩阵,对目标多媒体文件素材进行透视变换,进而将透视变换后的目标多媒体文件素材填充到多媒体文件植入区域中。采用这样的方式,可以在视频中植入至少一种多媒体文件素材,有利于提高视频多媒体文件植入的多样性。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再请参见图8,是本申请实施例的一种多媒体文件处理装置的结构示意图,本申请实施例的多媒体文件处理装置可以设置在上述终端设备中,也可以为运行于终端设备中的一个计算机程序(包括程序代码)。
本申请实施例的装置的一个实现方式中,装置包括如下结构。
获取单元80,用于获取视频中的目标帧图像;
处理单元81,用于识别目标帧图像包括的至少一个线段,从至少一个线段中筛选多媒体文件区域边缘线段;
处理单元81,还用于基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域;
填充单元82,用于在多媒体文件植入区域填充多媒体文件素材。
在一个实施例中,目标帧图像是视频中的任一帧图像或关键帧图像;关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像;至少一个线段是调用线段检测模型提取目标帧图像的特征信息,并基于该特征信息进行线段识别确定的。
在一个实施例中,处理单元81,具体用于获取目标帧图像中的多媒体文件植入初始区域;多媒体文件植入初始区域是目标帧图像中被框选的图像区域,或者是基于多媒体文件区域识别模型在目标帧图像中识别到的图像区域;从至少一个线段中将与多媒体文件植入初始区域匹配的多个线段确定为多媒体文件区域边缘线段。
在一个实施例中,多媒体文件区域边缘线段是指与多媒体文件植入初始区域的任一边缘线段距离最近,且满足连通条件的多个线段。
在一个实施例中,填充单元82,具体用于获取目标帧图像对应的目标多媒体文件素材;通过目标多媒体文件素材与多媒体文件植入区域之间的透视变换矩阵,对目标多媒体文件素材进行透视变换,透视变换矩阵是基于目标多媒体文件素材的角点坐标和多媒体文件植入区域的角点坐标确定的;将透视变换后的目标多媒体文件素材填充到多媒体文件植入区域中。
在一个实施例中,上述装置还包括显示单元83,其中:显示单元83,用于显示视频的视频处理页面,视频处理页面中包括多媒体文件素材配置项,当多媒体文件素材配置项被触发时,显示视频对应的多媒体文件素材配置页面;处理单元81,还用于基于在多媒体文件素材配置页面输入的素材配置操作,生成视频对应的多媒体文件素材配置信息,多媒体文件素材配置信息用于表征视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系。
在一个实施例中,多媒体文件素材配置页面包括时长区间配置项以及与时长区间配置项关联的多媒体文件素材选取项,时长区间配置项用于输入时长区间,与时长区间配置项关联的多媒体文件素材选取项,用于触发选取时长区间内的各帧图像对应的多媒体文件素材。
在一个实施例中,多媒体文件素材配置页面包括视频的视频总览区,视频总览区上显示有视频的起始时长,处理单元81,还具体用于响应在视频总览区上输入的切割操作,将视频切割为多个时长区间的子视频;基于针对各个时长区间的子视频输入的多媒体文件素材选取操作,确定视频中所述各个时长区间内的各帧图像对应的多媒体文件素材;建立视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,并基于该对应关系生成多媒体文件素材配置信息。
在一个实施例中,处理单元81,还用于基于多媒体文件素材配置信息表征的视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,确定目标帧图像对应的目标多媒体文件素材。
在一个实施例中,处理单元81,还具体用于在目标帧图像上标记多媒体文件区域边缘线段;若检测到针对多媒体文件区域边缘线段输入的确认操作,则将多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。
在一个实施例中,处理单元81,还用于将目标帧图像的下一帧图像包括的至少一个线段与目标帧图像对应的多媒体文件区域边缘线段进行距离对比,从下一帧图像包括的至少一个线段中将与多媒体文件区域边缘线段距离最近的多个线段,确定为下一帧图像对应的多媒体文件区域边缘线段,基于下一帧图像对应的多媒体文件区域边缘线段确定下一帧图像中的多媒体文件植入区域;填充单元82,还用于在下一帧图像中的多媒体文件植入区域填充多媒体文件素材。
在一个实施例中,处理单元81,还用于对从目标多媒体文件素材中获取位于多媒体文件植入区域的区域边缘线段上的多个邻近像素,在目标多媒体文件素材中对多个邻近像素进行混合处理。
在本申请实施例中,上述各个单元的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。
本申请实施例中的多媒体文件处理装置可获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。通过线段检测的方式更加精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。
再请参见图9,是本申请实施例的一种终端设备的结构示意图,本申请实施例的终端设备包括供电模块等结构,并包括处理器90、存储装置91、输入设备92以及输出设备93。处理器90、存储装置91、输入设备92以及输出设备93之间可以交互数据,由处理器90实现相应的多媒体文件处理功能。
存储装置91可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置91也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储装置91还可以包括上述种类的存储器的组合。
处理器90可以是中央处理器90(central processing unit,CPU)。在一个实施例中,处理器90还可以是图形处理器90(Graphics Processing Unit,GPU)。处理器90也可以是由CPU和GPU的组合。在终端设备中,可以根据需要包括多个CPU和GPU进行相应的多媒体文件处理。
输入设备92可以包括触控板、指纹采传感器、麦克风等,输出设备93可以包括显示器(LCD等)、扬声器等。
在一个实施例中,存储装置91用于存储程序指令。处理器90可以调用程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,终端设备的处理器90,调用存储装置91中存储的程序指令,用于获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,从至少一个线段中筛选多媒体文件区域边缘线段,基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,在多媒体文件植入区域填充多媒体文件素材。
在一个实施例中,目标帧图像是视频中的任一帧图像或关键帧图像;关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像;至少一个线段是调用线段检测模型提取目标帧图像的特征信息,并基于该特征信息进行线段识别确定的。
在一个实施例中,处理器90,具体用于获取目标帧图像中的多媒体文件植入初始区域;多媒体文件植入初始区域是目标帧图像中被框选的图像区域,或者是基于多媒体文件区域识别模型在目标帧图像中识别到的图像区域;从至少一个线段中将与多媒体文件植入初始区域匹配的多个线段确定为多媒体文件区域边缘线段。
在一个实施例中,多媒体文件区域边缘线段是指与多媒体文件植入初始区域的任一边缘线段距离最近,且满足连通条件的多个线段。
在一个实施例中,处理器90,还具体用于获取目标帧图像对应的目标多媒体文件素材;通过目标多媒体文件素材与多媒体文件植入区域之间的透视变换矩阵,对目标多媒体文件素材进行透视变换,透视变换矩阵是基于目标多媒体文件素材的角点坐标和多媒体文件植入区域的角点坐标确定的;将透视变换后的目标多媒体文件素材填充到多媒体文件植入区域中。
在一个实施例中,处理器90,还用于通过输出设备93显示视频的视频处理页面,该视频处理页面中包括多媒体文件素材配置项;进一步地,当多媒体文件素材配置项被触发时,通过输出设备93显示视频对应的多媒体文件素材配置页面,基于在多媒体文件素材配置页面输入的素材配置操作,生成视频对应的多媒体文件素材配置信息。其中,该多媒体文件素材配置信息用于表征视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系。
在一个实施例中,多媒体文件素材配置页面包括时长区间配置项以及与时长区间配置项关联的多媒体文件素材选取项,时长区间配置项用于输入时长区间,与时长区间配置项关联的多媒体文件素材选取项,用于触发选取时长区间内的各帧图像对应的多媒体文件素材。
在一个实施例中,多媒体文件素材配置页面包括视频的视频总览区,视频总览区上显示有视频的起始时长,处理器90,还具体用于响应在视频总览区上输入的切割操作,将视频切割为多个时长区间的子视频;基于针对各个时长区间的子视频输入的多媒体文件素材选取操作,确定视频中所述各个时长区间内的各帧图像对应的多媒体文件素材;建立视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,并基于该对应关系生成多媒体文件素材配置信息。
在一个实施例中,处理器90,还用于基于多媒体文件素材配置信息表征的视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,确定目标帧图像对应的目标多媒体文件素材。
在一个实施例中,处理器90,还具体用于在目标帧图像上标记多媒体文件区域边缘线段;若通过输入设备92检测到针对多媒体文件区域边缘线段输入的确认操作,则将多媒体文件区域边缘线段构成的闭合区域确定为目标帧图像中的多媒体文件植入区域。
在一个实施例中,处理器90,还用于将目标帧图像的下一帧图像包括的至少一个线段与目标帧图像对应的多媒体文件区域边缘线段进行距离对比,从下一帧图像包括的至少一个线段中将与多媒体文件区域边缘线段距离最近的多个线段,确定为下一帧图像对应的多媒体文件区域边缘线段,基于下一帧图像对应的多媒体文件区域边缘线段确定下一帧图像中的多媒体文件植入区域,在下一帧图像中的多媒体文件植入区域填充多媒体文件素材。
在一个实施例中,处理器90,还用于对从目标多媒体文件素材中获取位于多媒体文件植入区域的区域边缘线段上的多个邻近像素,在目标多媒体文件素材中对多个邻近像素进行混合处理。
在本申请实施例中,上述处理器90的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。
本申请实施例中的终端设备可获取视频中的目标帧图像,并识别目标帧图像包括的至少一个线段,进一步地,从至少一个线段中筛选多媒体文件区域边缘线段,并基于多媒体文件区域边缘线段确定目标帧图像中的多媒体文件植入区域,进而在多媒体文件植入区域填充多媒体文件素材。通过线段检测的方式更加精确地确定视频中目标帧图像的多媒体文件植入区域,有利于提升视频的多媒体文件植入效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所描述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (15)

1.一种多媒体文件处理方法,其特征在于,包括:
获取视频中的目标帧图像,并识别所述目标帧图像包括的至少一个线段;
从所述至少一个线段中筛选多媒体文件区域边缘线段;
基于所述多媒体文件区域边缘线段确定所述目标帧图像中的多媒体文件植入区域;
在所述多媒体文件植入区域填充多媒体文件素材。
2.如权利要求1所述的方法,其特征在于,所述目标帧图像是所述视频中的任一帧图像或关键帧图像;所述关键帧图像包括以下任一种:首帧图像、尾帧图像或指定帧图像;
所述至少一个线段是调用线段检测模型提取所述目标帧图像的特征信息,并基于所述特征信息进行线段识别确定的。
3.如权利要求1所述的方法,其特征在于,所述从所述至少一个线段中筛选多媒体文件区域边缘线段,包括:
获取所述目标帧图像中的多媒体文件植入初始区域;所述多媒体文件植入初始区域是所述目标帧图像中被框选的图像区域,或者是基于多媒体文件区域识别模型在所述目标帧图像中识别到的图像区域;
从所述至少一个线段中将与所述多媒体文件植入初始区域匹配的多个线段确定为多媒体文件区域边缘线段。
4.如权利要求3所述的方法,其特征在于,所述多媒体文件区域边缘线段是指与所述多媒体文件植入初始区域的任一边缘线段距离最近,且满足连通条件的多个线段。
5.如权利要求1所述的方法,其特征在于,所述在所述多媒体文件植入区域填充多媒体文件素材,包括:
获取所述目标帧图像对应的目标多媒体文件素材;
通过所述目标多媒体文件素材与所述多媒体文件植入区域之间的透视变换矩阵,对所述目标多媒体文件素材进行透视变换,所述透视变换矩阵是基于所述目标多媒体文件素材的角点坐标和所述多媒体文件植入区域的角点坐标确定的;
将透视变换后的目标多媒体文件素材填充到所述多媒体文件植入区域中。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
显示所述视频的视频处理页面,所述视频处理页面中包括多媒体文件素材配置项;
当所述多媒体文件素材配置项被触发时,显示所述视频对应的多媒体文件素材配置页面;
基于在所述多媒体文件素材配置页面输入的素材配置操作,生成所述视频对应的多媒体文件素材配置信息,所述多媒体文件素材配置信息用于表征所述视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系。
7.如权利要求6所述的方法,其特征在于,所述多媒体文件素材配置页面包括时长区间配置项以及与所述时长区间配置项关联的多媒体文件素材选取项,所述时长区间配置项用于输入时长区间,所述与所述时长区间配置项关联的多媒体文件素材选取项,用于触发选取所述时长区间内的各帧图像对应的多媒体文件素材。
8.如权利要求6所述的方法,其特征在于,所述多媒体文件素材配置页面包括所述视频的视频总览区,所述视频总览区上显示有所述视频的起始时长,所述基于在所述多媒体文件素材配置页面输入的素材配置操作,生成所述视频对应的多媒体文件素材配置信息,包括:
响应在所述视频总览区上输入的切割操作,将所述视频切割为多个时长区间的子视频;
基于针对各个时长区间的子视频输入的多媒体文件素材选取操作,确定所述视频中所述各个时长区间内的各帧图像对应的多媒体文件素材;
建立所述视频中所述各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,并基于所述对应关系生成所述多媒体文件素材配置信息。
9.如权利要求6所述的方法,其特征在于,所述获取所述目标帧图像对应的目标多媒体文件素材之前,所述方法还包括:
基于所述多媒体文件素材配置信息表征的所述视频中各时长区间内的各帧图像与各个多媒体文件素材之间的对应关系,确定所述目标帧图像对应的目标多媒体文件素材。
10.如权利要求1所述的方法,其特征在于,所述基于所述多媒体文件区域边缘线段确定所述目标帧图像中的多媒体文件植入区域,包括:
在所述目标帧图像上标记所述多媒体文件区域边缘线段;
若检测到针对所述多媒体文件区域边缘线段输入的确认操作,则将所述多媒体文件区域边缘线段构成的闭合区域确定为所述目标帧图像中的多媒体文件植入区域。
11.如权利要求10所述的方法,其特征在于,所述方法还包括:
将所述目标帧图像的下一帧图像包括的至少一个线段与所述目标帧图像对应的所述多媒体文件区域边缘线段进行距离对比;
从所述下一帧图像包括的至少一个线段中将与所述多媒体文件区域边缘线段距离最近的多个线段,确定为所述下一帧图像对应的多媒体文件区域边缘线段;
基于所述下一帧图像对应的多媒体文件区域边缘线段确定所述下一帧图像中的多媒体文件植入区域;
在所述下一帧图像中的多媒体文件植入区域填充多媒体文件素材。
12.如权利要求5所述的方法,其特征在于,所述多媒体文件素材为图像,所述将透视变换后的目标多媒体文件素材填充到所述多媒体文件植入区域中之后,所述方法还包括:
从所述目标多媒体文件素材中获取位于所述多媒体文件植入区域的区域边缘线段上的多个邻近像素;
在所述目标多媒体文件素材中对所述多个邻近像素进行混合处理。
13.一种多媒体文件处理装置,其特征在于,所述装置包括:
获取单元,用于获取视频中的目标帧图像;
处理单元,用于识别所述目标帧图像包括的至少一个线段,从所述至少一个线段中筛选多媒体文件区域边缘线段;
所述处理单元,还用于基于所述多媒体文件区域边缘线段确定所述目标帧图像中的多媒体文件植入区域;
填充单元,用于在所述多媒体文件植入区域填充多媒体文件素材。
14.一种终端设备,其特征在于,所述终端设备包括处理器和存储装置,所述处理器和存储装置相互连接,其中,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-12任一项所述的方法。
15.一种计算机存储介质,其特征在于,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现如权利要求1-12任一项所述的方法。
CN202010397616.2A 2020-05-12 2020-05-12 一种多媒体文件处理方法、装置、终端设备及介质 Active CN111556336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397616.2A CN111556336B (zh) 2020-05-12 2020-05-12 一种多媒体文件处理方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397616.2A CN111556336B (zh) 2020-05-12 2020-05-12 一种多媒体文件处理方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN111556336A true CN111556336A (zh) 2020-08-18
CN111556336B CN111556336B (zh) 2023-07-14

Family

ID=72004561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397616.2A Active CN111556336B (zh) 2020-05-12 2020-05-12 一种多媒体文件处理方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN111556336B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749613A (zh) * 2020-08-27 2021-05-04 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及存储介质
CN113259713A (zh) * 2021-04-23 2021-08-13 深圳信息职业技术学院 视频处理方法、装置、终端设备及存储介质
CN113518256A (zh) * 2021-07-23 2021-10-19 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113780291A (zh) * 2021-08-25 2021-12-10 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN114925348A (zh) * 2022-07-19 2022-08-19 苏州英博特力信息科技有限公司 一种基于指纹识别的安全验证方法及系统
CN116962816A (zh) * 2023-09-20 2023-10-27 世优(北京)科技有限公司 设置植入标识的方法、装置、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182375A1 (en) * 2002-03-21 2003-09-25 Webex Communications, Inc. Rich multi-media format for use in a collaborative computing system
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频插入的方法和设备
CN104822069A (zh) * 2015-04-30 2015-08-05 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN106507200A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频播放内容插入方法和系统
CN106507157A (zh) * 2016-12-08 2017-03-15 北京聚爱聊网络科技有限公司 广告投放区域识别方法及装置
CN107135421A (zh) * 2017-06-13 2017-09-05 北京市博汇科技股份有限公司 视频特征检测方法及装置
CN107301366A (zh) * 2017-05-12 2017-10-27 杨铮 一种嵌码视频中图形码的解码方法及装置
CN107679068A (zh) * 2017-08-15 2018-02-09 深圳天珑无线科技有限公司 多媒体文件的信息导入及显示方法、移动终端及存储设备
CN109271533A (zh) * 2018-09-21 2019-01-25 深圳市九洲电器有限公司 一种多媒体文件检索方法
CN110121034A (zh) * 2019-05-09 2019-08-13 腾讯科技(深圳)有限公司 一种在视频中植入信息的方法、装置及存储介质
CN110163640A (zh) * 2018-02-12 2019-08-23 华为技术有限公司 一种在视频中植入广告的方法及计算机设备
CN110213629A (zh) * 2019-06-27 2019-09-06 腾讯科技(深圳)有限公司 一种信息植入方法、装置、服务器及存储介质
CN110458820A (zh) * 2019-08-06 2019-11-15 腾讯科技(深圳)有限公司 一种多媒体信息植入方法、装置、设备及存储介质
CN111104920A (zh) * 2019-12-27 2020-05-05 深圳市商汤科技有限公司 视频处理方法及装置、电子设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182375A1 (en) * 2002-03-21 2003-09-25 Webex Communications, Inc. Rich multi-media format for use in a collaborative computing system
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频插入的方法和设备
CN104822069A (zh) * 2015-04-30 2015-08-05 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN106507200A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频播放内容插入方法和系统
CN106507157A (zh) * 2016-12-08 2017-03-15 北京聚爱聊网络科技有限公司 广告投放区域识别方法及装置
CN107301366A (zh) * 2017-05-12 2017-10-27 杨铮 一种嵌码视频中图形码的解码方法及装置
CN107135421A (zh) * 2017-06-13 2017-09-05 北京市博汇科技股份有限公司 视频特征检测方法及装置
CN107679068A (zh) * 2017-08-15 2018-02-09 深圳天珑无线科技有限公司 多媒体文件的信息导入及显示方法、移动终端及存储设备
CN110163640A (zh) * 2018-02-12 2019-08-23 华为技术有限公司 一种在视频中植入广告的方法及计算机设备
CN109271533A (zh) * 2018-09-21 2019-01-25 深圳市九洲电器有限公司 一种多媒体文件检索方法
CN110121034A (zh) * 2019-05-09 2019-08-13 腾讯科技(深圳)有限公司 一种在视频中植入信息的方法、装置及存储介质
CN110213629A (zh) * 2019-06-27 2019-09-06 腾讯科技(深圳)有限公司 一种信息植入方法、装置、服务器及存储介质
CN110458820A (zh) * 2019-08-06 2019-11-15 腾讯科技(深圳)有限公司 一种多媒体信息植入方法、装置、设备及存储介质
CN111104920A (zh) * 2019-12-27 2020-05-05 深圳市商汤科技有限公司 视频处理方法及装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘洋等: "一种基于边缘检测和线条特征的视频字符检测算法", 《计算机学报》 *
刘洋等: "一种基于边缘检测和线条特征的视频字符检测算法", 《计算机学报》, no. 03, 12 March 2005 (2005-03-12) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749613A (zh) * 2020-08-27 2021-05-04 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及存储介质
CN112749613B (zh) * 2020-08-27 2024-03-26 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及存储介质
CN113259713A (zh) * 2021-04-23 2021-08-13 深圳信息职业技术学院 视频处理方法、装置、终端设备及存储介质
CN113518256A (zh) * 2021-07-23 2021-10-19 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113518256B (zh) * 2021-07-23 2023-08-08 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113780291A (zh) * 2021-08-25 2021-12-10 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN114925348A (zh) * 2022-07-19 2022-08-19 苏州英博特力信息科技有限公司 一种基于指纹识别的安全验证方法及系统
CN114925348B (zh) * 2022-07-19 2022-10-04 苏州英博特力信息科技有限公司 一种基于指纹识别的安全验证方法及系统
CN116962816A (zh) * 2023-09-20 2023-10-27 世优(北京)科技有限公司 设置植入标识的方法、装置、电子设备及存储介质
CN116962816B (zh) * 2023-09-20 2023-12-12 世优(北京)科技有限公司 设置植入标识的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111556336B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111556336A (zh) 一种多媒体文件处理方法、装置、终端设备及介质
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
CN110136229B (zh) 一种用于实时虚拟换脸的方法与设备
WO2021012837A1 (zh) 推荐信息植入位置的确定方法、装置、设备及存储介质
US11334779B1 (en) Dynamic embedding of machine-readable codes within video and digital media
CN109034115A (zh) 视频识图方法、装置、终端及存储介质
CN109298912B (zh) 主题色彩的调节方法、装置、存储介质及电子设备
CN108961183B (zh) 图像处理方法、终端设备及计算机可读存储介质
CN111325271A (zh) 图像分类方法及装置
US11308628B2 (en) Patch-based image matting using deep learning
CN113516666A (zh) 图像裁剪方法、装置、计算机设备及存储介质
US8705847B2 (en) Method and system of two-dimensional to stereoscopic conversion
CN114615480A (zh) 投影画面调整方法、装置、设备、存储介质和程序产品
CN115082291A (zh) 图像亮度调整的方法、计算机程序产品、电子设备及介质
CN114003160A (zh) 数据可视化展示方法、装置、计算机设备和存储介质
CN108763491B (zh) 图片处理方法、装置及终端设备
WO2016071566A1 (en) Variable resolution image capture
CN112712571B (zh) 基于视频的物体平面贴图方法、装置以及设备
CN112752110B (zh) 视频呈现方法及装置、计算设备、存储介质
CN114332297A (zh) 图像的绘制方法、装置、计算机设备和存储介质
CN116630139A (zh) 数据生成的方法、装置、设备和存储介质
WO2023047162A1 (en) Object sequence recognition method, network training method, apparatuses, device, and medium
CN113596354A (zh) 图像处理方法、装置、计算机设备及存储介质
CN114792283A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Palma et al. Enhanced visualization of detected 3d geometric differences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027395

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant