CN111372122B - 一种媒体内容植入方法、模型训练方法以及相关装置 - Google Patents

一种媒体内容植入方法、模型训练方法以及相关装置 Download PDF

Info

Publication number
CN111372122B
CN111372122B CN202010123971.0A CN202010123971A CN111372122B CN 111372122 B CN111372122 B CN 111372122B CN 202010123971 A CN202010123971 A CN 202010123971A CN 111372122 B CN111372122 B CN 111372122B
Authority
CN
China
Prior art keywords
target
media content
model
corner
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010123971.0A
Other languages
English (en)
Other versions
CN111372122A (zh
Inventor
余自强
罗雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010123971.0A priority Critical patent/CN111372122B/zh
Publication of CN111372122A publication Critical patent/CN111372122A/zh
Priority to PCT/CN2020/127404 priority patent/WO2021169396A1/zh
Priority to US17/680,540 priority patent/US12051089B2/en
Application granted granted Critical
Publication of CN111372122B publication Critical patent/CN111372122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4314Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种媒体内容植入方法、模型训练方法以及相关装置,通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到多个目标角点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,提高了媒体内容植入的效率。

Description

一种媒体内容植入方法、模型训练方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种媒体内容植入方法、模型训练方法以及相关装置。
背景技术
随着互联网技术的发展,越来越多的媒体内容需要进行曝光,其中,视频接入(Video-In)是一种软性的植入广告形式。相对于传统广告,它具有触达率高、合作风险小和节约预算等优势。通过Video-In技术,广告主可以根据媒体内容的受欢迎程度,在相关界面或内容中的后期植入广告,减少广告投入的风险。
一般,可以通过视频在拍摄时确定广告内容、预留镜头或者将广告板放置于拍摄场景中,即预先设定插入点即时间,然后通过人工后期逐帧替换广告素材。
但是,在大量媒体内容曝光的场景中,为保证相关广告位的曝光率,并不会将相关的视频进行预先的裁剪,预先植入的方式适用范围有限,且预先植入的方法需要人工逐帧替换,会影响媒体内容植入的效率以及准确性,且植入过程的灵活性较低。
发明内容
有鉴于此,本申请提供一种媒体内容植入的方法,可以有效避免由于人工逐帧替换而带来的低植入效率以及不稳定性,提高媒体内容植入过程的效率以及准确性。
本申请一方面提供一种媒体内容植入的方法,可以应用于计算机设备中包含媒体内容植入功能的系统或程序中,具体包括:获取目标视频以及第一媒体内容,所述目标视频包括多个视频帧;
将所述视频帧输入第一模型进行角点跟踪,以得到多个目标角点,其中,所述第一模型包括角点分支和图像分支,所述角点分支用于指示所述视频帧中的候选角点,所述图像分支用于从所述候选角点中提取所述目标角点;
根据所述目标角点确定目标区域,所述目标区域包含于所述目标视频指示的区域中;
将所述第一媒体内容植入所述目标区域。
可选的,在本申请一些可能的实现方式中,所述将所述视频帧输入第一模型进行角点跟踪,以得到多个目标角点,包括:
将所述视频帧输入第一模型,以通过所述角点分支提取所述视频帧中的所述候选角点;
将所述候选角点通过所述图像分支映射到所述视频帧中,以得到候选区域;
从所述候选角点中确定满足预设条件的多个所述目标角点,所述预设条件基于所述候选区域与预设区域的对应关系确定,所述预设区域用于指示在所述视频帧中标记的植入区域。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
将所述第一媒体内容输入第二模型,以得到仿色信息,所述仿色信息包括色调参数、纹理参数或质地参数,所述第二模型基于多个分辨率下的所述第一媒体内容和所述目标视频的显示参数训练所得;
根据所述仿色信息对所述第一媒体内容进行更新。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取所述目标角点的坐标信息;
根据所述坐标信息确定透视变换矩阵;
将所述透视变换矩阵和所述第一媒体内容输入透视变换公式,以得到第二媒体内容;
所述将所述第一媒体内容植入所述目标区域,包括:
基于所述目标区域植入所述第二媒体内容。
可选的,在本申请一些可能的实现方式中,所述根据所述目标角点确定目标区域,包括:
根据所述目标角点确定边界信息;
对所述边界信息对应的边界线进行抗锯齿处理,以确定为所述目标区域。
可选的,在本申请一些可能的实现方式中,所述目标视频为视频播放界面,所述方法还包括:
获取目标植入点,所述目标植入点用于指示作为植入点的视频帧;
所述将所述第一媒体内容植入所述目标区域,包括:
根据所述目标植入点确定对应的视频帧目标区域;
基于所述视频帧目标区域植入所述第一媒体内容。
可选的,在本申请一些可能的实现方式中,所述媒体内容为广告,所述目标区域为广告位,所述第一模型为用于目标跟踪的网络模型,所述第二模型为图像识别卷积网络模型。
本申请一方面提供一种媒体内容植入的装置,包括:获取单元,用于获取目标视频以及第一媒体内容,所述目标视频包括多个视频帧;
跟踪单元,用于将所述视频帧输入第一模型进行角点跟踪,以得到多个目标角点,其中,所述第一模型包括角点分支和图像分支,所述角点分支用于指示所述视频帧中的候选角点,所述图像分支用于从所述候选角点中提取所述目标角点;
确定单元,用于根据所述目标角点确定目标区域,所述目标区域包含于所述目标视频指示的区域中;
植入单元,用于将所述第一媒体内容植入所述目标区域。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于将所述视频帧输入第一模型,以通过所述角点分支提取所述视频帧中的所述候选角点;
所述确定单元,具体用于将所述候选角点通过所述图像分支映射到所述视频帧中,以得到候选区域;
所述确定单元,具体用于从所述候选角点中确定满足预设条件的多个所述目标角点,所述预设条件基于所述候选区域与预设区域的对应关系确定,所述预设区域用于指示在所述视频帧中标记的植入区域。
可选的,在本申请一些可能的实现方式中,所述确定单元,还用于将所述第一媒体内容输入第二模型,以得到仿色信息,所述仿色信息包括色调参数、纹理参数或质地参数,所述第二模型基于多个分辨率下的所述第一媒体内容和所述目标视频的显示参数训练所得;
所述植入单元,还用于根据所述仿色信息对所述第一媒体内容进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元,还用于获取所述目标角点的坐标信息;
所述确定单元,还用于根据所述坐标信息确定透视变换矩阵;
所述确定单元,还用于将所述透视变换矩阵和所述第一媒体内容输入透视变换公式,以得到第二媒体内容;
所述确定单元,还用于基于所述目标区域植入所述第二媒体内容。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于根据所述目标角点确定边界信息;
所述确定单元,具体用于对所述边界信息对应的边界线进行抗锯齿处理,以确定为所述目标区域。
可选的,在本申请一些可能的实现方式中,所述目标视频为视频播放界面,所述获取单元,还用于获取目标植入点,所述目标植入点用于指示作为植入点的视频帧;
所述植入单元,具体用于根据所述目标植入点确定对应的视频帧目标区域;
所述植入单元,具体用于基于所述视频帧目标区域植入所述第一媒体内容。
本申请一方面提供一种模型训练方法,包括:获取至少一个模板图片和至少一个检测图片,所述模板图片与目标视频指示的图片相关,所述检测图片与目标区域指示的图片相关;
提取所述模板图片的角点特征以及所述检测图片的图像特征;
将所述角点特征以及所述图像特征输入预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述将所述角点特征以及所述图像特征输入预设模型进行训练,以得到第一模型,包括:
将所述角点特征输入残差网络模型,以得到角点分支;
将所述图像特征输入特征提取网络模型,以得到图像分支;
根据所述角点分支和所述图像分支对所述预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述根据所述角点分支和所述图像分支对所述预设模型进行训练,以得到第一模型,包括:
获取所述角点分支中的第一损失函数以及所述图像分支中的第二损失函数,所述第一损失函数基于所述角点的数量确定;
根据所述第一损失函数以及所述第二损失函数确定第三损失函数,所述第三损失函数基于所述第一损失函数和所述第一损失函数进行权重合并所得;
通过最小化所述第三损失函数对所述预设模型的参数进行调整,以得到所述第一模型。
可选的,在本申请一些可能的实现方式中,其特征在于,所述获取至少一个模板图片和至少一个检测图片之后,所述方法还包括:
根据预设尺寸信息将所述模板图片和所述检测图片进行处理,以得到尺寸调整参数;
根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新。
可选的,在本申请一些可能的实现方式中,所述根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新,包括:
根据所述尺寸调整参数确定调整区域;
获取所述模板图片和所述检测图片的平均色数值;
根据所述平均色数值对所述调整区域进行填充,以得到更新后的所述模板图片和所述检测图片。
本申请一方面提供一种模型训练装置,包括:获取单元,用于获取至少一个模板图片和至少一个检测图片,所述模板图片与目标视频指示的图片相关,所述检测图片与目标区域指示的图片相关;
提取单元,用于提取所述模板图片的角点特征以及所述检测图片的图像特征;
训练单元,用于将所述角点特征以及所述图像特征输入预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于将所述角点特征输入残差网络模型,以得到角点分支;
所述训练单元,具体用于将所述图像特征输入特征提取网络模型,以得到图像分支;
所述训练单元,具体用于根据所述角点分支和所述图像分支对所述预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于获取所述角点分支中的第一损失函数以及所述图像分支中的第二损失函数,所述第一损失函数基于所述角点的数量确定;
所述训练单元,具体用于根据所述第一损失函数以及所述第二损失函数确定第三损失函数,所述第三损失函数基于所述第一损失函数和所述第一损失函数进行权重合并所得;
所述训练单元,具体用于通过最小化所述第三损失函数对所述预设模型的参数进行调整,以得到所述第一模型。
可选的,在本申请一些可能的实现方式中,其特征在于,所述获取单元,还用于根据预设尺寸信息将所述模板图片和所述检测图片进行处理,以得到尺寸调整参数;
所述获取单元,还用于根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于根据所述尺寸调整参数确定调整区域;
所述获取单元,具体用于获取所述模板图片和所述检测图片的平均色数值;
所述获取单元,具体用于根据所述平均色数值对所述调整区域进行填充,以得到更新后的所述模板图片和所述检测图片。
本申请一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述媒体内容植入的方法,或上述模型训练的方法。
本申请一方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述媒体内容植入的方法,或上述模型训练的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到目标角点其中,目标区域包含于目标视频指示的区域中,第一模型包括角点分支与图像分支,角点分支用于指示视频帧中的候选角点,图像分支用于从所述候选角点中提取所述目标角点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,提高了媒体内容植入的效率以及灵活度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为媒体内容植入系统运行的网络架构图;
图2为本申请实施例提供的一种媒体内容植入的流程架构图;
图3为本申请实施例提供的一种媒体内容植入的方法的流程图;
图4为本申请实施例提供的一种媒体内容植入的场景示意图;
图5为本申请实施例提供的一种媒体内容植入的方法的流程图;
图6为本申请实施例提供的一种透视变换的场景示意图;
图7为本申请实施例提供的一种媒体内容植入的方法的流程图;
图8为本申请实施例提供的一种媒体内容插入的场景示意图;
图9为本申请实施例提供的一种媒体内容插入的场景示意图;
图10为本申请实施例提供的一种媒体内容插入的场景示意图
图11为本申请实施例提供的一种模型训练的方法的流程图;
图12为本申请实施例提供的一种模型训练的模型架构图;
图13为本申请实施例提供的一种模型训练的方法示意图;
图14为本申请实施例提供的一种模型训练的模型架构图;
图15为本申请实施例提供的一种媒体内容植入装置的结构示意图;
图16为本申请实施例提供的一种模型训练装置的结构示意图;
图17为本申请实施例提供的一种计算机设备的结构示意图;
图18为本申请实施例提供的一种服务器结构示意图。
具体实施方式
本申请实施例提供了一种媒体内容植入的方法以及相关装置,可以应用于计算机设备中包含媒体内容植入功能的系统或程序中,通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到目标角点其中,目标区域包含于目标视频指示的区域中,第一模型基于至少一个训练分支训练所得,训练分支包括角点分支或图像分支,角点分支用于指示训练角点与训练界面的对应关系,图像分支用于指示训练界面与训练图像的对应关系,训练角点为训练图像边界的交叉点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,进一步的提高了媒体内容植入的效率以及灵活度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
Video-In:一种后期在视频中植入广告的的形式。
视频帧:视频内容由一系列帧组成。通常表示为每秒帧数(Frames per second,FPS),每帧是静止图像,当按顺序播放时,创建运动图像。例如,使用30的FPS创建的内容意味着有30个“静止图像”将播放每秒视频。
角点(Corner):本方案中指平面广告的两条边缘直线交叉点,例如矩形平面广告的角点指广告素材4个角的点。
角点跟踪:确定目标图形的两条边缘直线交叉点。
透视变换:是将图片投影到一个新的视平面。
仿色:通过对图片色彩的分析,模仿其整体的风格色调,例如日系、复古等色调。
色调损失:主要表现在图像颜色、亮度、纹理、质地上的一些差异。
内容损失:本申请中图像内容表示图像的像素信息,可表示图像的结构、纹理、边缘等。内容损失通过计算不同图像相同位置像素点对应的数值差异进行表示。
Siamese:一种常用于目标跟踪的网络模型,当前目标跟踪任务大多数为基于Siamese网络架构的改进。
SiamCorner:本申请提供的一种基于Siamese改进得到的网络模型,可以用于角点的追踪。
VGG19:是一种图像识别卷积网络,前几层仅使用3*3卷积核来增加网络深度,通过最大池化(max pooling)依次减少每层的神经元数量,最后三层分别是2个有4096个神经元的全连接层和一个softmax层。VGG19共用19 层,本申请采用基于ImageNet(包含上千万张图片的数据集)训练好的VGG19 预训练模型参数进行色调迁移。
格拉姆(Gram)矩阵:特征之间的偏心协方差矩阵,即没有减去均值的协方差矩阵;在特征中,每个数字都来自于一个特定滤波器在特定位置的卷积,因此每个数字代表一个特征的强度,而Gram计算的可以得到两两特征之间的相关性、同时出现的特征、出现相悖的特征。且Gram矩阵包含了图片的纹理信息以及颜色信息。
残差网络模型(resnet):残差网络模型是一种用于图像分类、检测、定位深度卷积网络;且残差网络模型容易优化,并且能够通过增加相当的深度来提高准确率。
应理解,本申请提供的媒体内容植入方法可以应用于计算机设备中包含媒体内容植入功能的系统或程序中,例如视频广告软件,具体的,媒体内容植入系统可以运行于如图1所示的网络架构中,如图1所示,是媒体内容植入系统运行的网络架构图,如图可知,媒体内容植入系统可以提供多个信息源的媒体内容植入,终端通过网络建立与服务器的连接,进而接收服务器发送的多个媒体内容,并根据终端本身的目标视频进行相关媒体内容的植入并显示播放;可以理解的是,图1中示出了多种计算机设备,在实际场景中可以有更多或更少种类的计算机设备参与到媒体内容植入的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多内容应用交互的场景中,具体服务器数量因实际场景而定。
应当注意的是,本实施例提供的媒体内容植入方法也可以离线进行,即不需要服务器的参与,此时终端在本地与其他终端进行连接,进而进行终端之间的媒体内容植入的过程。
可以理解的是,上述媒体内容植入系统可以运行于个人移动终端,例如:作为视频广告这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供媒体内容植入,以得到信息源的媒体内容植入处理结果;具体的媒体内容植入系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的发展,越来越多的媒体内容需要进行曝光,其中,视频接入(Video-In)是一种软性的植入广告形式。相对于传统广告,它具有触达率高、合作风险小和节约预算等优势。通过Video-In技术,广告主可以根据媒体内容的受欢迎程度,在相关界面或内容中的后期植入广告,减少广告投入的风险。
一般,可以通过视频在拍摄时确定广告内容、预留镜头或者将广告板放置于拍摄场景中,即预先设定插入点即时间,然后通过人工后期逐帧替换广告素材。
但是,在大量媒体内容曝光的场景中,为保证相关广告位的曝光率,并不会将相关的视频进行预先的裁剪,预先植入的方式适用范围有限,且预先植入的方法需要人工逐帧替换,会影响媒体内容植入的效率以及准确性,且植入过程的灵活性较低。
为了解决上述问题,本申请提出了一种媒体内容植入的方法,该方法应用于图2所示的媒体内容植入的流程框架中,如图2所示,为本申请实施例提供的一种媒体内容植入的流程架构图,该过程由计算机设备执行,计算机设备可以是终端或服务器;首先从服务器获取待植入的媒体内容,并输入与客户端中目标视频进行交互的网络模型,从而识别出目标区域,进而将媒体内容植入目标区域中;由于网络模型经过角点分支与图像分支的参数调整,保证了目标区域确定的准确性,实现了媒体内容的自动高效植入的过程。应当注意的是,本实施例提供的媒体内容植入方法由计算机设备执行是指,可以由终端单独执行,也可以由服务器单独执行,还可以由终端和服务器一起执行。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种媒体内容植入装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该媒体内容植入装置通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到目标角点其中,目标区域包含于目标视频指示的区域中,第一模型基于至少一个训练分支训练所得,训练分支包括角点分支或图像分支,角点分支用于指示训练角点与训练界面的对应关系,图像分支用于指示训练界面与训练图像的对应关系,训练角点为训练图像边界的交叉点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,进一步的提高了媒体内容植入的效率以及灵活度。
结合上述流程架构,下面将对本申请中媒体内容植入的方法进行介绍,请参阅图3,图3为本申请实施例提供的一种媒体内容植入的方法的流程图,本申请实施例至少包括以下步骤:
301、获取目标视频以及第一媒体内容。
本实施例中,目标视频包括多个视频帧;目标视频可以是通过终端的显示界面进行显示,例如:移动终端的屏幕;目标视频也可以是某一显示界面中的部分界面,例如:个人终端中某一播放器程序的界面。
另外,第一媒体内容可以是广告,具体的,广告内容可以是图片、视频或其他媒体形式,具体形式性实际场景而定,此处不做限定。
在一种可能的场景中,获取第一媒体内容可以是获取目标视频中待插入该视频的广告素材。
302、将视频帧输入第一模型进行角点跟踪,以得到多个目标角点。
本实施例中,第一模型可以基于Siamese网络模型确定,即一种用于目标图像跟踪的网络模型;进一步的,考虑到目标视频的各个视频帧的可能差别极小,仅通过图像追踪并不能保证目标区域追踪的准确性,例如相邻视频帧的图像特征极小,但此时图像的位置发生了变化,此时进行媒体内容的植入可能出现植入位置偏移的情况。故本实施例中基于角点追踪对Siamese网络模型进行了改进,可以记为SiamCorner网络模型;具体的,SiamCorner网络模型包括角点分支和图像分支,角点分支用于指示视频帧中的候选角点,图像分支用于从候选角点中提取目标角点;在一种可能实现方式中,首先通过角点分支提取视频帧中的候选角点;然后将候选角点通过图像分支映射到视频帧中,以得到候选区域;进一步的从候选角点中确定满足预设条件的多个目标角点,预设条件基于候选区域与预设区域的对应关系确定,预设区域用于指示在视频帧中标记的植入区域,例如:判断候选区域中是否包含预设区域指示的标记。
可选的,SiamCorner网络模型可以应用于同一视频中目标区域的确定,即通过SiamCorner网络模型对目标视频进行多次目标区域的提取,则采用首次基于目标视频对SiamCorner网络模型的训练结果进行目标区域的提取;在另一种可能的场景中,SiamCorner网络模型为首次对目标视频进行提取,下面对该场景下的SiamCorner网络模型的训练过程进行说明。
一方面,提取目标视频的第一个视频帧作为模板帧,并在模板帧中标识出植入区域,其中,标识的过程可以是相关人员进行圈定,也可以是系统根据历史植入区域自动生成;然后,将目标视频除第一个视频帧的后续视频帧作为检测帧逐一与模板帧成对输入SiamCorner网络模型中,以跟踪的目标角点所在的位置。具体的,通过模板帧中标记的训练角点与模板帧的对应关系,提取其中的角点特征,其中,提取角点特征的过程可以是基于残差网络 (resnet-50)的前4个阶段进行的,即第一卷积层(conv1)的卷积核大小为 7*7,通道数为64,步长(stride)为2;第二卷积层(conv2)的卷积核大小为3*3的最大池化,stride为2,然后进行卷积参数(卷积核大小,通道数) 为(1*1,64;3*3,64;1*1,256)*3的卷积操作;第三卷积层(conv3)的卷积参数为(1*1,128;3*3,128;1*1,512)*4的卷积操作;第四卷积层 (conv4)的卷积参数为(1*1,256;3*3,256;1*1,1024)*6的卷积操作。
另一方面,对于检测帧中的图像特征也可以基于resnet-50的前四个阶段进行提取,具体参数参照模板帧的提取参数,此处不做赘述。通过检测帧得到图像特征后与通过模板帧得到的角点特征进行互相关操作,得到响应图。其中,响应图中包括多个1*1的响应窗口(respones of a candidate window,row);然后对于每个row进行角点分支的编码和图像分支的编码,即通过第五卷积层(conv5)和第六卷积层(conv6)进行卷积操作,具体的,编码过程所涉及的卷积参数如表1所示。
表1图像分支与角点分支的卷积参数
卷积层 图像分支 角点分支
conv5 1*1,256 1*1,256
conv6 1*1,1 1*1,8
进而通过角点分支可以得到多个候选角点,然后通过图像分支将这些候选角点映射到检测帧中,并确定是否包含植入区域,从而从候选角点中提取出目标角点。
可选的,从候选角点中提取出目标角点的过程可以是通过输出分数,该过程可以成为分数分支,即分数分支输出的结果表示图像分支确定的候选角点映射到检测帧中,并确定是否包含植入区域,若包含则值为+1,若不包含则值为-1;从而通过判断值的大小确定目标角点,即可以取值最大的候选角点为目标角点。
通过上述实施例可见,本实施例中的Siamese网络模型相当于增加了角点的追踪过程,以及角点的筛选过程,保证了目标角点的准确性,避免了由于目标视频的场景变化导致植入区域检测不准确的问题,提高了植入区域检测的精确度。
可以理解的是,上述输出角点的过程为示例,即通过第一模型输出的目标角点的个数至少为三个,即由目标角点连线组成的区域可以是三角形,也可以是基于四个目标角点连线组成的的矩形,还可以即基于更多目标角点连线组成的多边形,具体形状与角点个数因实际场景而定,此处不做限定。
可选的,基于第一模型还可以输出目标视频中视频帧的图像识别结果,例如:通过第一模型识别视频帧中的广告位,该过程可以结合目标角点进行目标区域的判断,也可以单独的进行目标区域的判断。
在一种可能的场景中,广告位可以是由确定的目标角点中的一部分确定的,例如:确定的目标角点为4个,而在植入广告的过程中临时需要进行部分广告的显示,即弹窗广告的植入,此时可以通过其中的3个角点确定弹窗广告的植入区域,可见本实施例中通过角点确定目标区域的过程不同于直接进行植入框的确定,相较于直接进行植入框的确定,基于角点进行广告的植入更加灵活,可以提供与层叠式广告的实现,提升用户体验。
可选的,上述提取目标角点的过程也可以基于Kitchen-Rosenfeld、Harris 角点检测算法进行提取,或者采用基于物体区域分割的方式再检测角点,此处不做赘述。
303、根据目标角点确定目标区域。
本实施例中,目标区域包含于目标视频指示的区域中。具体的可以通过目标角点外层连线得到的形状作为目标区域。
在一种可能的场景中,目标视频指示的区域与目标区域的关系可以参照图4,图4为本申请实施例提供的一种媒体内容植入的场景示意图,图中包括目标视频指示的区域A1;角点A2、A3、A4、A5;以及目标区域A6。具体的,目标视频指示的区域A1可以是视频播放页,目标区域A6为广告位,角点A2、A3、A4、A5为广告位边界的交叉点。可以理解的是,本实施例中角点的数量以及目标视频指示的区域的形状仅为示例,具体的数量和形状因实际场景而定。
可选的,结合上述步骤303中关于基于第一模型输出图像识别结果的描述,对于图像识别过程与角点判断的过程可以进行结合,即确定第一模型输出的目标标识,目标标识用于指示待定区域的范围;若目标标识在目标角点连线组成的范围内,则确定待定区域为目标区域。
可选的,在得到目标区域后,考虑到第一媒体内容与目标视频的适应性,可以对第一媒体内容或目标视频的相关色调参数进行调整,具体的,可以是将两者调整至同一色调值,或以任一方为基准进行色调的转换。
304、将第一媒体内容植入目标区域。
本实施例中,计算机设备将第一媒体内容植入目标区域的过程可以是基于目标区域对第一媒体内容进行一定比例大小的变换,例如:目标区域的尺寸为10*10,第一媒体内容的尺寸为20*20,则将第一媒体内容缩小1倍至 10*10后植入目标区域。
可选的,由于目标视频中的目标区域可能不是规则的形状,例如:由于视角变换产生的目标区域的形变,而第一媒体内容往往是采用预设的形状进行设置的,此时,为保证第一媒体内容的顺利植入,可以对第一媒体内容进行适应性的裁剪或变换,以符合目标区域的植入需求。
结合上述实施例可知,通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到目标角点其中,目标区域包含于目标视频中,第一模型基于至少一个训练分支训练所得,训练分支包括角点分支或图像分支,角点分支用于指示训练角点与训练界面的对应关系,图像分支用于指示训练界面与训练图像的对应关系,训练角点为训练图像边界的交叉点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,进一步的提高了媒体内容植入的效率以及灵活度。
上述实施例介绍了媒体内容植入的过程,但是,由于目标视频在一些场景中可能发生形变或色调的变化,为保证媒体内容插入的精确性,可以对媒体内容结合目标视频的相关参数进行进一步调整,下面对该场景进行说明,请参阅图5,图5为本申请实施例提供的一种媒体内容植入的方法的流程图,本申请实施例至少包括以下步骤:
501、获取目标视频以及第一媒体内容。
502、将目标视频的视频帧输入第一模型进行角点跟踪,以得到多个目标角点。
503、根据目标角点确定目标区域。
本实施例中,步骤501-步骤503与图3所示的实施例中步骤301-303相似,相关特征描述可以进行参考,此处不做赘述。
504、对第一媒体内容进行仿色处理。
本实施例中,仿色处理为基于第二模型进行图像处理的过程,其中,第二模型可以是VGG19模型,用于获取第一媒体内容与目标视频的色调参数差异。具体的,可以将第一媒体内容输入第二模型,以得到仿色信息,其中,仿色信息包括色调参数、纹理参数或质地参数,第二模型基于多个分辨率下的第一媒体内容和目标视频的显示参数训练所得;然后根据仿色信息对第一媒体内容进行更新,即参见仿色信息中指示的色调参数、纹理参数或质地参数的差异值进行参数调整。
可以理解的是,仿色处理的过程可以是在获取第一媒体内容后即进行,也可以是在第一媒体内容植入目标区域后进行,具体的顺序因实际场景而定,此处不做限定。
505、根据目标区域坐标进行透视变换。
本实施例中,透视变换的过程可以参见图6,图6为本申请实施例提供的一种透视变换的场景示意图,可见首先根据目标区域的形状将第一媒体内容 B1进行形状变换,然后将变换后的媒体内容B2植入目标区域B3。
可选的,对于上述目标区域的形状的确定过程可以基于角点的坐标进行;首先获取目标角点的坐标信息;然后根据坐标信息确定透视变换矩阵,将透视变换矩阵和第一媒体内容输入透视变换公式,以得到第二媒体内容;具体的透视变换公式可以参考如下公式:
Figure BDA0002393851210000171
其中,[x',y',w']是第二媒体内容指示区域的坐标,x'为第二媒体内容指示区域的三维空间横坐标,y'为第二媒体内容指示区域的三维空间纵坐标,w' 为第二媒体内容指示区域的三维空间竖坐标;[u,v,w]是第一媒体内容指示区域的坐标,u为第一媒体内容指示区域的三维空间横坐标,v为第一媒体内容指示区域的三维空间纵坐标,w为第一媒体内容指示区域的三维空间竖坐标;本实施例中,透视变化的目标区域的坐标为二维空间的坐标,故可以将上述公式的三维坐标进行二维的转换。
具体的,(u,v)为第一媒体内容指示区域的横纵坐标,(x',y')为第二媒体内容指示区域的横纵坐标,其中x'=x/w,y'=y/w,即进行二维坐标的转换。
对应的,透视变换矩阵的数学表达式为:
Figure BDA0002393851210000181
Figure BDA0002393851210000182
其中,u为第一媒体内容指示区域的横坐标;v为第一媒体内容指示区域的纵坐标;x'为第二媒体内容指示区域的横坐标;y'为第二媒体内容指示区域的纵坐标;w'为第二媒体内容指示区域的三维空间竖坐标;a11、a12、a13、a21、 a22、a23、a31、a32、a33为变换矩阵中的参数。
即根据角点透视变换后对应的坐标,例如:广告素材的4个角点,即可求得透视变换矩阵。
通过上述透视变化后得到的第二媒体内容即为植入目标区域的媒体内容。
506、将处理后的第一媒体内容植入目标区域。
本实施例中,处理后的第一媒体内容可以是经过仿色处理的,也可以是经过透视变换的,还可以是即经过仿色处理又经过透视变换的,具体的处理过程因实际场景而定。
可选的,由于经过处理后的第一媒体内容可能出现边界模糊的情况,此次可以进一步的对植入后的边界进行抗锯齿处理,以得到最终的植入结果。
结合上述实施例可见,通过仿色处理和透视变换后的第一媒体内容,可以更好的适应于植入目标区域后的场景,避免了由于色差或视角原因造成的植入缺陷,提高了媒体内容植入的准确性。
通过上述实施例的描述,可以使得媒体内容可以精确地植入目标视频中,在一些可能的场景中,目标视频播放的是视频,下面结合广告植入这种具体的场景进行说明,请参阅图7,图7为本申请实施例提供的一种媒体内容植入的方法的流程图,本申请实施例至少包括以下步骤:
701、确定目标植入点。
本实施例中,由于目标视频中播放的是视频,在植入过程中应确定规定的目标植入点,即确定作为植入点的视频帧。其中,目标视频可以是播放器应用的界面,也可以是实时视频的界面。
702、进行植入点检测。
本实施例中,植入点检测的过程可以是时序的测定,例如植入点在10分 2秒出出现,即该时间点后需要播放广告,此时即停止视频播放,进而在目标区域中播放第一媒体内容。
703、确定目标植入点对应的目标帧图像。
本实施例中,目标帧图像即为视频过程中某一帧的图像,广告素材可以是动态图片、视频或具有输入功能的网页信息;如图8所示,是本申请实施例提供的一种媒体内容插入的场景示意图,即将图中所示的广告素材插入到目标帧图像的目标区域C1;具体的,可以是将广告素材的角点与目标区域C1 的角点对其进行插入,也可以是基于目标区域C1的角点对广告素材进行一定比例的缩小然后插入,具体的插入方式因实际场景而定。
704、在目标帧图像中确定目标区域。
本实施例中,目标区域可以参照图8中的显示,即为广告位指示的区域。
705、在目标区域植入广告素材。
本实施例中,目标帧图像即相当于上述图3和图5所示实施例中的目标视频的处理过程;经过仿色处理后广告素材会发生色调参数的变化,如图9 所示,是本申请实施例提供的一种媒体内容插入的场景示意图,可见在仿色处理前图片的色调较暗,而经过仿色处理后图片的色调变亮了,这是由于目标帧图像的整体色调较亮,仿色处理可以适配广告素材和目标帧图像的色调参数,进而进行的色调调节。进一步的进行透视变换处理,具体过程可以参考图5所示实施例的步骤505的相关描述;结合图10可见,仿色处理以及透视变换处理后的广告素材更加接近视频中的环境色调,显示更加自然,图10 为本申请实施例提供的一种媒体内容插入的场景示意图,可见仿色处理前的目标界面D1是进过透视变换的,即目标界面D1的形状与图8中所示的广告素材并不完全相同,经过透视变换后的广告素材更加更加适配与目标视频中的场景;进一步的,经过仿色处理后得到目标界面D2,目标界面D2的色调与目标视频的色调更加贴合,使得广告素材的植入更加自然。应当注意的是,上述图8中所示的对比为结果示意,即具体的透视变换与仿色处理的顺序可以是先将广告素材进行透视变换后再进行仿色处理;也可以是先进行仿色处理后再进行透视变换;还可以作为同时处理的过程。
可选的,对于植入广告素材后的处理,可以是停止视频的播放,待广告素材播放完毕后继续播放;也可以是视频的播放与广告素材播放同时进行,指示广告素材置于视频的图层之上。
通过对于植入点的检测以触发广告植入进程,使得广告素材可以方便的插入视频内容中,避免了预先逐帧处理的麻烦以及不稳定性,提高了广告植入的效率与准确性。
上述实施例介绍了媒体内容植入的方法,在植入过程中,利用到了第一模型进行了目标区域的确定过程,而该第一模型是经过预先训练的,下面对模型训练的过程进行说明,请参阅图11,图11为本申请实施例提供的一种模型训练的方法的流程图,本申请实施例至少包括以下步骤:
1101、获取至少一个模板图片和至少一个检测图片。
本实施例中,模板图片与目标视频指示的图片相关,检测图片与目标区域指示的图片相关。
可选的,为保证模型训练的一致性,可以根据预设尺寸信息将模板图片和检测图片进行处理,以得到尺寸调整参数:然后根据尺寸调整参数对模板图片和检测图片进行更新,即将模板图片与检测图片调整至同一尺寸。
另外,对于上述尺寸调整的过程,可能存在一些图像部分无法完全对应的情况,此次可以对空缺的部分进行色素填充。具体的,首先根据尺寸调整参数确定调整区域;然后获取模板图片和检测图片的平均色数值;进而根据平均色数值对调整区域进行填充,以得到更新后的模板图片和检测图片。
1102、提取模板图片的角点特征以及检测图片的图像特征。
本实施例中,角点特征的提取过程即对对于多个角点以及其对应界面的对应关系的提取;图像特征的提取过程即对于目标区域的图片特征和对应图片的提取。
1103、将角点特征以及图像特征输入预设模型进行训练,以得到第一模型。
本实施例中,第一模型和预设模型可以基于Siamese网络模型确定,即一种用于目标跟踪的网络模型。由于预设模型可以包括两个分支,故可以将角点特征输入残差网络模型,以得到角点分支;并将图像特征输入特征提取网络模型,以得到图像分支;然后根据角点分支和图像分支对预设模型进行训练,以得到第一模型。
具体的,预设模型的网络模型架构可以参见图12,图12为本申请实施例提供的一种模型训练的模型架构图,图中示出的上部分的分支代表模板图像,即角点分支,也就是要跟踪的目标角点所在的位置,尺寸为127*127*3。模板图片经过特征提取网络fθ后得到尺寸为15*15*256的特征图,其中,fθ为残差网络resnet-50的前4个阶段,具体参数可参考图3实施例中步骤302的描述,此处不做赘述。图12所示下部分的分支的代表整个待搜索画面,即图像分支,尺寸为255*255*3,检测帧经过同样的特征提取网络fθ后得到尺寸为 31*31*256的特征图。然后以模板帧的特征图作为卷积核在检测帧的特征图上进行*d互相关操作,得到一个17*17*256的响应图。在响应图中每个位置上的1*1*256称为候选窗口响应row。进一步的,将row再通过1x1分支编码为角点分支输出和分数分支输出,具体编码过程的卷积参数可参考图3实施例中的表1,此处不做赘述。角点分支的每一个row向量表示多个角点,例如4 个角点,即分别为边界框的左上角、右上角、左下角或右下角的角点的横纵坐标,由于每个角点通过横坐标与纵坐标表示,则row向量的大小为1*1* (2*4),即1*1*8。分数分支输出表示该row向量映射到检测图像中所在的位置是否包含目标标识,值为±1,即用于判断目标区域是否包含广告为的图像特征。
可选的,由于上述预设模型的模型架构设计多个变量的转换,其损失函数也需要进行相应的变换,具体的,首先获取角点分支中的第一损失函数以及图像分支中的第二损失函数,第一损失函数基于角点的数量确定;并根据第一损失函数以及第二损失函数确定第三损失函数,第三损失函数基于第一损失函数和第一损失函数进行权重合并所得;进而通过最小化第三损失函数对预设模型的参数进行调整,以得到第一模型。
在一种可能的场景中,角点分支损失函数如下:
Figure BDA0002393851210000221
其中,δ[i]、
Figure BDA0002393851210000222
分别表示角点所在位置的坐标真值和预测值。i=(0,1) 表示第一个角点的横纵坐标(x,y),总共可取N/2个角点,N个坐标值,N即为角点的个数。
另外,smoothL1损失函数的数学表达式为:
Figure BDA0002393851210000223
结合上述表达式,总损失函数如下:
Figure BDA0002393851210000224
其中,λ1和λ2分别表示角点分支合分数分支损失函数的权重,
Figure BDA0002393851210000225
表示角点分支的损失函数,
Figure BDA0002393851210000226
表示分数分支的损失函数。
通过最小化,即可对预设模型的相关参数进行调整,以得到第一模型。
另外,本申请实施例中的仿色处理过程也可以基于对于VGG19模型的训练过程进行,下面对VGG19模型的训练过程进行说明,如图13所示,是本申请实施例提供的一种模型训练的方法示意图,首先将媒体内容输入分辨率融合网络,以生成仿色后的媒体内容,即输出内容;其中,分辨率融合网络采用多分辨率的特征拼接,每一层融合都包含了多个分辨率下的信息。
然后将输出内容、媒体内容以及目标视频图像输入VGG19模型,即一种图像识别卷积网络,以进行特征抽取。具体的,先利用在ImageNet上预训练好的VGG19模型,抽取不同的网络特征层表示色调信息和内容信息。然后计算网络模型损失;其中,损失主要包含仿色后的输出图像与视频任意帧图像的色调损失和内容损失,结合预设的权重比例,进而得到不同图像的差异信息。然后通过最小化损失函数不断训练更新模型参数,得到最终的图像仿色模型。
可以理解的是,对于色调损失和内容损失的权重比例设置过程可以是预先设定的,也可以是基于目标场景的历史权重记录自动生成的,具体设置方法因具体场景而定。
上述实施例介绍了VGG19的作用过程,下面对VGG19的网络结构图进行说明,如图14所示,是本申请实施例提供的一种模型训练的模型架构图。
首先通过在ImageNet上预训练好的VGG19模型,可很好地提取图像在色调、纹理、质地、边缘等特征。对应于上述模型训练的过程,内容损失表示为VGG19抽取”conv5_1”层和“conv4_2”层的特征之和,这是由于“conv5_1”层和“conv4_2”层可表现为不同颗粒度上的图像结构信息,将两层特征数值相加可以包含更丰富的图像结构信息。另外,色调损失表示为VGG19中提取“conv1_2”、“conv2_2”、“conv3_2”的Gram矩阵特征之和,主要包含视频帧图像的色彩信息,这是由于conv2_2的数值同其他层数值相比较大,因此给予其0.5的权重比例,以防止conv2_2代表的色调信息比重过大。
通过上述VGG19模型的训练过程,使得训练后的VGG19模型可以准确的输出相关色调调整参数,便于仿色处理过程的进行,进一步的提高了媒体内容植入的准确定。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图15,图15为本申请实施例提供的一种媒体内容植入装置的结构示意图,媒体内容植入装置1500包括:
获取单元1501,用于获取目标视频以及第一媒体内容,所述目标视频包括多个视频帧;
跟踪单元1502,用于将所述视频帧输入第一模型进行角点跟踪,以得到多个目标角点,其中,所述第一模型包括角点分支和图像分支,所述角点分支用于指示所述视频帧中的候选角点,所述图像分支用于从所述候选角点中提取所述目标角点;
确定单元1503,用于根据所述目标角点确定目标区域,所述目标区域包含于所述目标视频指示的区域中;
植入单元1504,用于将所述第一媒体内容植入所述目标区域。
可选的,在本申请一些可能的实现方式中,所述确定单元1503,具体用于将所述视频帧输入第一模型,以通过所述角点分支提取所述视频帧中的所述候选角点;
所述确定单元1503,具体用于将所述候选角点通过所述图像分支映射到所述视频帧中,以得到候选区域;
所述确定单元1503,具体用于从所述候选角点中确定满足预设条件的多个所述目标角点,所述预设条件基于所述候选区域与预设区域的对应关系确定,所述预设区域用于指示在所述视频帧中标记的植入区域。
可选的,在本申请一些可能的实现方式中,所述确定单元1503,还用于将所述第一媒体内容输入第二模型,以得到仿色信息,所述仿色信息包括色调参数、纹理参数或质地参数,所述第二模型基于多个分辨率下的所述第一媒体内容和所述目标视频的显示参数训练所得;
所述植入单元1504,还用于根据所述仿色信息对所述第一媒体内容进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元1503,还用于获取所述目标角点的坐标信息;
所述确定单元1503,还用于根据所述坐标信息确定透视变换矩阵;
所述确定单元1503,还用于将所述透视变换矩阵和所述第一媒体内容输入透视变换公式,以得到第二媒体内容;
所述确定单元1503,还用于基于所述目标区域植入所述第二媒体内容。
可选的,在本申请一些可能的实现方式中,所述确定单元1503,具体用于根据所述目标角点确定边界信息;
所述确定单元1503,具体用于对所述边界信息对应的边界线进行抗锯齿处理,以确定为所述目标区域。
可选的,在本申请一些可能的实现方式中,所述目标视频为视频播放界面,所述获取单元1501,还用于获取目标植入点,所述目标植入点用于指示作为植入点的视频帧;
所述植入单元1504,具体用于根据所述目标植入点确定对应的视频帧目标区域;
所述植入单元1504,具体用于基于所述视频帧目标区域植入所述第一媒体内容。
通过获取目标视频以及第一媒体内容;然后将目标视频的视频帧输入第一模型进行角点跟踪,以得到目标角点其中,目标区域包含于目标视频指示的区域中,第一模型基于至少一个训练分支训练所得,训练分支包括角点分支或图像分支,角点分支用于指示训练角点与训练界面的对应关系,图像分支用于指示训练界面与训练图像的对应关系,训练角点为训练图像边界的交叉点;并根据目标角点确定目标区域;进而将第一媒体内容植入目标区域。从而实现了媒体内容的自动植入,由于可以通过第一模型输出基于角点或图像特征获得的目标区域,保证了植入过程的准确性,且全过程无需人工手动替换,进一步的提高了媒体内容植入的效率以及灵活度。
本申请实施例还提供了一种模型训练装置1600,如图16所示,是本申请实施例提供的一种模型训练装置的结构示意图。包括:获取单元1601,用于获取至少一个模板图片和至少一个检测图片,所述模板图片与目标视频指示的图片相关,所述检测图片与目标区域指示的图片相关;
提取单元1602,用于提取所述模板图片的角点特征以及所述检测图片的图像特征;
训练单元1603,用于将所述角点特征以及所述图像特征输入预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述训练单元1603,具体用于将所述角点特征输入残差网络模型,以得到角点分支;
所述训练单元1603,具体用于将所述图像特征输入特征提取网络模型,以得到图像分支;
所述训练单元1603,具体用于根据所述角点分支和所述图像分支对所述预设模型进行训练,以得到第一模型。
可选的,在本申请一些可能的实现方式中,所述训练单元1603,具体用于获取所述角点分支中的第一损失函数以及所述图像分支中的第二损失函数,所述第一损失函数基于所述角点的数量确定;
所述训练单元1603,具体用于根据所述第一损失函数以及所述第二损失函数确定第三损失函数,所述第三损失函数基于所述第一损失函数和所述第一损失函数进行权重合并所得;
所述训练单元1603,具体用于通过最小化所述第三损失函数对所述预设模型的参数进行调整,以得到所述第一模型。
可选的,在本申请一些可能的实现方式中,其特征在于,所述获取单元 1601,还用于根据预设尺寸信息将所述模板图片和所述检测图片进行处理,以得到尺寸调整参数;
所述获取单元1601,还用于根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元1601,具体用于根据所述尺寸调整参数确定调整区域;
所述获取单元1601,具体用于获取所述模板图片和所述检测图片的平均色数值;
所述获取单元1601,具体用于根据所述平均色数值对所述调整区域进行填充,以得到更新后的所述模板图片和所述检测图片。
本申请实施例还提供了一种计算机设备,如图17所示,是本申请实施例提供的一种计算机设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意计算机设备,以终端为手机为例:
图17示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图17,手机包括:射频(radio frequency,RF)电路1710、存储器1720、输入单元1730、显示单元1740、传感器1750、音频电路1760、无线保真(wireless fidelity,WiFi)模块1770、处理器1780、以及电源1790等部件。本领域技术人员可以理解,图17中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图17对手机的各个构成部件进行具体的介绍:
RF电路1710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1780处理;另外,将设计上行的数据发送给基站。通常,RF电路1710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS) 等。
存储器1720可用于存储软件程序以及模块,处理器1780通过运行存储在存储器1720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1730可包括触控面板1731以及其他输入设备1732。触控面板1731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1731上或在触控面板1731附近的操作,以及在触控面板 1731上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1780,并能接收处理器1780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1731。除了触控面板1731,输入单元1730还可以包括其他输入设备1732。具体地,其他输入设备1732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1740可包括显示面板1741,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1741。进一步的,触控面板1731可覆盖显示面板1741,当触控面板1731检测到在其上或附近的触摸操作后,传送给处理器1780以确定触摸事件的类型,随后处理器1780根据触摸事件的类型在显示面板1741上提供相应的视觉输出。虽然在图17中,触控面板1731 与显示面板1741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1731与显示面板1741集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1760、扬声器1761,传声器1762可提供用户与手机之间的音频接口。音频电路1760可将接收到的音频数据转换后的电信号,传输到扬声器1761,由扬声器1761转换为声音信号输出;另一方面,传声器1762将收集的声音信号转换为电信号,由音频电路1760接收后转换为音频数据,再将音频数据输出处理器1780处理后,经RF电路1710以发送给比如另一手机,或者将音频数据输出至存储器1720以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块1770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1720内的软件程序和/或模块,以及调用存储在存储器1720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1780可包括一个或多个处理单元;可选的,处理器1780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1780中。
手机还包括给各个部件供电的电源1790(比如电池),可选的,电源可以通过电源管理系统与处理器1780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1780还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图18,图18是本申请实施例提供的一种服务器结构示意图,该服务器1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units, CPU)1822(例如,一个或一个以上处理器)和存储器1832,一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中,存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器 1822可以设置为与存储介质1830通信,在服务器1800上执行存储介质1830 中的一系列指令操作。
服务器1800还可以包括一个或一个以上电源1826,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1858,和/或,一个或一个以上操作系统1841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM, FreeBSDTM等等。
上述实施例中由模型训练装置所执行的步骤可以基于该图18所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有媒体内容植入指令,当其在计算机上运行时,使得计算机执行如前述图2至图13所示实施例描述的方法中媒体内容植入装置所执行的步骤。
本申请实施例中还提供一种包括媒体内容植入指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图13所示实施例描述的方法中媒体内容植入装置所执行的步骤。
本申请实施例还提供了一种媒体内容植入系统,所述媒体内容植入系统可以包含图14所描述实施例中的媒体内容植入装置,或者图15所描述的模型训练装置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,媒体内容植入装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (13)

1.一种媒体内容植入的方法,其特征在于,包括:
获取目标视频以及第一媒体内容,所述目标视频包括多个视频帧;
将所述视频帧输入第一模型,所述第一模型是基于角点追踪对目标跟踪网络模型进行改进得到的模型,以在所述目标跟踪网络模型中增加角点的追踪过程与角点的筛选过程,避免由于所述目标视频的场景变化导致目标区域检测不准确;
通过所述第一模型中的角点分支提取所述视频帧中的候选角点;
将所述候选角点通过所述第一模型中的图像分支映射到所述视频帧中,以得到候选区域;
基于所述第一模型中的分数分支,从所述候选角点中确定满足预设条件的多个目标角点,所述预设条件基于所述候选区域与预设区域的对应关系确定,所述预设区域用于指示在所述视频帧中标记的植入区域;所述分数分支的输出结果表示所述图像分支确定的候选角点映射到视频帧中,判断是否包含植入区域,并根据判断结果确定目标角点;
根据所述目标角点确定目标区域,所述目标区域包含于所述目标视频指示的区域中;
将所述第一媒体内容植入所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一媒体内容输入第二模型,以得到仿色信息,所述仿色信息包括色调参数、纹理参数或质地参数,所述第二模型基于多个分辨率下的所述第一媒体内容和所述目标视频的显示参数训练所得;
根据所述仿色信息对所述第一媒体内容进行更新。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标角点的坐标信息;
根据所述坐标信息确定透视变换矩阵;
将所述透视变换矩阵和所述第一媒体内容输入透视变换公式,以得到第二媒体内容;
所述将所述第一媒体内容植入所述目标区域,包括:
基于所述目标区域植入所述第二媒体内容。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标角点确定目标区域,包括:
根据所述目标角点确定边界信息;
对所述边界信息对应的边界线进行抗锯齿处理,以确定为所述目标区域。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取目标植入点,所述目标植入点用于指示作为植入点的视频帧;
所述将所述第一媒体内容植入所述目标区域,包括:
根据所述目标植入点确定对应的视频帧目标区域;
基于所述视频帧目标区域植入所述第一媒体内容。
6.根据权利要求2所述的方法,其特征在于,所述媒体内容为广告,所述目标区域为广告位,所述第二模型为图像识别卷积网络模型。
7.一种模型训练的方法,其特征在于,包括:
获取至少一个模板图片和至少一个检测图片,所述模板图片与目标视频指示的图片相关,所述检测图片与目标区域指示的图片相关;
提取所述模板图片的角点特征以及所述检测图片的图像特征;
将所述角点特征输入残差网络模型,以得到角点分支;
将所述图像特征输入特征提取网络模型,以得到图像分支;
根据所述角点分支和所述图像分支对预设模型进行训练,以得到第一模型,所述第一模型与所述预设模型均是基于角点追踪对目标跟踪网络模型进行改进得到的模型,以在所述目标跟踪网络模型中增加角点的追踪过程与角点的筛选过程,避免由于所述目标视频的场景变化导致目标区域检测不准确;
所述第一模型还包括分数分支,所述分数分支的输出结果表示所述图像分支确定的候选角点映射到检测图片中,判断是否包含植入区域,并根据判断结果确定目标角点。
8.根据权利要求7所述的方法,其特征在于,所述根据所述角点分支和所述图像分支对所述预设模型进行训练,以得到第一模型,包括:
获取所述角点分支中的第一损失函数以及所述图像分支中的第二损失函数,所述第一损失函数基于所述角点的数量确定;
根据所述第一损失函数以及所述第二损失函数确定第三损失函数,所述第三损失函数基于所述第一损失函数和所述第一损失函数进行权重合并所得;
通过最小化所述第三损失函数对所述预设模型的参数进行调整,以得到所述第一模型。
9.根据权利要求7-8任一项所述的方法,其特征在于,所述获取至少一个模板图片和至少一个检测图片之后,所述方法还包括:
根据预设尺寸信息将所述模板图片和所述检测图片进行处理,以得到尺寸调整参数;
根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新。
10.根据权利要求9所述的方法,其特征在于,所述根据所述尺寸调整参数对所述模板图片和所述检测图片进行更新,包括:
根据所述尺寸调整参数确定调整区域;
获取所述模板图片和所述检测图片的平均色数值;
根据所述平均色数值对所述调整区域进行填充,以得到更新后的所述模板图片和所述检测图片。
11.一种媒体内容植入的装置,其特征在于,包括:
获取单元,用于获取目标视频以及第一媒体内容,所述目标视频包括多个视频帧;
跟踪单元,用于将所述视频帧输入第一模型,所述第一模型是基于角点追踪对目标跟踪网络模型进行改进得到的模型,以在所述目标跟踪网络模型中增加角点的追踪过程与角点的筛选过程,避免由于所述目标视频的场景变化导致目标区域检测不准确;通过所述第一模型中的角点分支提取所述视频帧中的候选角点;将所述候选角点通过所述第一模型中的图像分支映射到所述视频帧中,以得到候选区域;基于所述第一模型中的分数分支,从所述候选角点中确定满足预设条件的多个目标角点,所述预设条件基于所述候选区域与预设区域的对应关系确定,所述预设区域用于指示在所述视频帧中标记的植入区域;所述分数分支的输出结果表示所述图像分支确定的候选角点映射到视频帧中,判断是否包含植入区域,并根据判断结果确定目标角点;
确定单元,用于根据所述目标角点确定目标区域,所述目标区域包含于所述目标视频指示的区域中;
植入单元,用于将所述第一媒体内容植入所述目标区域。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的媒体内容植入的方法,或权利要求7至10任一项所述的模型训练的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至6任一项所述的媒体内容植入的方法,或权利要求7至10任一项所述的模型训练的方法。
CN202010123971.0A 2020-02-27 2020-02-27 一种媒体内容植入方法、模型训练方法以及相关装置 Active CN111372122B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010123971.0A CN111372122B (zh) 2020-02-27 2020-02-27 一种媒体内容植入方法、模型训练方法以及相关装置
PCT/CN2020/127404 WO2021169396A1 (zh) 2020-02-27 2020-11-09 一种媒体内容植入方法以及相关装置
US17/680,540 US12051089B2 (en) 2020-02-27 2022-02-25 Media content placement method and related apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123971.0A CN111372122B (zh) 2020-02-27 2020-02-27 一种媒体内容植入方法、模型训练方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111372122A CN111372122A (zh) 2020-07-03
CN111372122B true CN111372122B (zh) 2022-03-15

Family

ID=71211506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123971.0A Active CN111372122B (zh) 2020-02-27 2020-02-27 一种媒体内容植入方法、模型训练方法以及相关装置

Country Status (3)

Country Link
US (1) US12051089B2 (zh)
CN (1) CN111372122B (zh)
WO (1) WO2021169396A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111372122B (zh) * 2020-02-27 2022-03-15 腾讯科技(深圳)有限公司 一种媒体内容植入方法、模型训练方法以及相关装置
CN111598917B (zh) * 2020-07-15 2020-12-04 腾讯科技(深圳)有限公司 数据嵌入方法、装置、设备及计算机可读存储介质
CN111986133B (zh) * 2020-08-20 2024-05-03 叠境数字科技(上海)有限公司 一种应用于子弹时间的虚拟广告植入方法
CN112312203B (zh) * 2020-08-25 2023-04-07 北京沃东天骏信息技术有限公司 视频播放方法、装置和存储介质
CN113259713A (zh) * 2021-04-23 2021-08-13 深圳信息职业技术学院 视频处理方法、装置、终端设备及存储介质
CN114760517B (zh) * 2022-04-15 2024-02-02 广州华多网络科技有限公司 图像活动嵌入方法及其装置、设备、介质、产品
CN114898112A (zh) * 2022-04-27 2022-08-12 咪咕文化科技有限公司 视频内容的植入方法、模型训练方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014019062A1 (en) * 2012-07-30 2014-02-06 Mdialog Corporation Method and system for dynamically inserting content into streaming media
CN107516060A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 目标检测方法和装置
CN107527053A (zh) * 2017-08-31 2017-12-29 北京小米移动软件有限公司 目标检测方法及装置
CN108090916A (zh) * 2017-12-21 2018-05-29 百度在线网络技术(北京)有限公司 用于跟踪视频中的目标图形的方法和装置
CN108875723A (zh) * 2018-01-03 2018-11-23 北京旷视科技有限公司 对象检测方法、装置和系统及存储介质
CN110163640A (zh) * 2018-02-12 2019-08-23 华为技术有限公司 一种在视频中植入广告的方法及计算机设备
CN110225389A (zh) * 2019-06-20 2019-09-10 北京小度互娱科技有限公司 在视频中插入广告的方法,装置和介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020100042A1 (en) * 2000-01-19 2002-07-25 Denis Khoo Method and system for providing intelligent advertisement placement in a motion picture
US8654255B2 (en) * 2007-09-20 2014-02-18 Microsoft Corporation Advertisement insertion points detection for online video advertising
US8059865B2 (en) * 2007-11-09 2011-11-15 The Nielsen Company (Us), Llc Methods and apparatus to specify regions of interest in video frames
JP5465620B2 (ja) * 2010-06-25 2014-04-09 Kddi株式会社 映像コンテンツに重畳する付加情報の領域を決定する映像出力装置、プログラム及び方法
CN103870795A (zh) * 2012-12-13 2014-06-18 北京捷成世纪科技股份有限公司 一种视频游动字幕的自动检测方法和装置
US9467750B2 (en) * 2013-05-31 2016-10-11 Adobe Systems Incorporated Placing unobtrusive overlays in video content
CN103974126B (zh) * 2014-05-15 2017-03-01 北京奇艺世纪科技有限公司 一种在视频中植入广告的方法及装置
WO2016028813A1 (en) * 2014-08-18 2016-02-25 Groopic, Inc. Dynamically targeted ad augmentation in video
US9852677B2 (en) * 2014-11-04 2017-12-26 Intel Corporation Dithering for image data to be displayed
CN104899590B (zh) * 2015-05-21 2019-08-09 深圳大学 一种无人机视觉目标跟随方法及系统
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
CN105955042B (zh) 2016-05-27 2019-02-05 浙江大学 一种虚拟现实型的可见即可控智能家居控制方法
US20180143321A1 (en) * 2016-11-22 2018-05-24 4Sense, Inc. Modulated-Light-Based Passive Tracking System
US10575033B2 (en) * 2017-09-05 2020-02-25 Adobe Inc. Injecting targeted ads into videos
CN109996107A (zh) * 2017-12-29 2019-07-09 百度在线网络技术(北京)有限公司 视频生成方法、装置和系统
CN110147708B (zh) * 2018-10-30 2023-03-31 腾讯科技(深圳)有限公司 一种图像数据处理方法和相关装置
CN110708593A (zh) * 2019-09-06 2020-01-17 深圳平安通信科技有限公司 视频内容中嵌入广告的方法、装置及存储介质
CN111372122B (zh) * 2020-02-27 2022-03-15 腾讯科技(深圳)有限公司 一种媒体内容植入方法、模型训练方法以及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014019062A1 (en) * 2012-07-30 2014-02-06 Mdialog Corporation Method and system for dynamically inserting content into streaming media
CN107516060A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 目标检测方法和装置
CN107527053A (zh) * 2017-08-31 2017-12-29 北京小米移动软件有限公司 目标检测方法及装置
CN108090916A (zh) * 2017-12-21 2018-05-29 百度在线网络技术(北京)有限公司 用于跟踪视频中的目标图形的方法和装置
CN108875723A (zh) * 2018-01-03 2018-11-23 北京旷视科技有限公司 对象检测方法、装置和系统及存储介质
CN110163640A (zh) * 2018-02-12 2019-08-23 华为技术有限公司 一种在视频中植入广告的方法及计算机设备
CN110225389A (zh) * 2019-06-20 2019-09-10 北京小度互娱科技有限公司 在视频中插入广告的方法,装置和介质

Also Published As

Publication number Publication date
CN111372122A (zh) 2020-07-03
US20220180397A1 (en) 2022-06-09
US12051089B2 (en) 2024-07-30
WO2021169396A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
CN111372122B (zh) 一种媒体内容植入方法、模型训练方法以及相关装置
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN110232696B (zh) 一种图像区域分割的方法、模型训练的方法及装置
US20210152751A1 (en) Model training method, media information synthesis method, and related apparatuses
CN110738211A (zh) 一种对象检测的方法、相关装置以及设备
CN110852942B (zh) 一种模型训练的方法、媒体信息合成的方法及装置
CN110517339B (zh) 一种基于人工智能的动画形象驱动方法和装置
CN111672109B (zh) 一种游戏地图生成的方法、游戏测试的方法以及相关装置
CN110517340B (zh) 一种基于人工智能的脸部模型确定方法和装置
CN111582116A (zh) 一种视频抹除痕迹检测方法、装置、设备和存储介质
CN107770454A (zh) 一种图像处理方法、终端及计算机可读存储介质
CN111047511A (zh) 一种图像处理方法及电子设备
CN113706440B (zh) 图像处理方法、装置、计算机设备及存储介质
US20200098166A1 (en) Reconstruction and detection of occluded portions of 3d human body model using depth data from single viewpoint
CN111556337B (zh) 一种媒体内容植入方法、模型训练方法以及相关装置
CN107464290A (zh) 三维信息展示方法、装置和移动终端
JP2023505900A (ja) メモリおよびデバイスのトラッキングを使用する拡張現実アプリケーションにおけるオクルージョンハンドリングのための方法と関連装置
CN112051995B (zh) 一种图像渲染的方法、相关装置、设备及存储介质
CN109544441B (zh) 图像处理方法及装置、直播中的肤色处理方法及装置
CN110490897A (zh) 模仿视频生成的方法和电子设备
CN109871767A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN115170400A (zh) 一种视频修复的方法、相关装置、设备以及存储介质
CN110717964A (zh) 场景建模方法、终端及可读存储介质
CN117455753B (zh) 特效模板生成方法、特效生成方法、装置及存储介质
CN117582661A (zh) 虚拟模型渲染方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026169

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant