CN113329259A - 一种基于连续兴趣点的视频剪辑方法及存储介质 - Google Patents

一种基于连续兴趣点的视频剪辑方法及存储介质 Download PDF

Info

Publication number
CN113329259A
CN113329259A CN202110585574.XA CN202110585574A CN113329259A CN 113329259 A CN113329259 A CN 113329259A CN 202110585574 A CN202110585574 A CN 202110585574A CN 113329259 A CN113329259 A CN 113329259A
Authority
CN
China
Prior art keywords
video
mode
continuous
picture
intelligence model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110585574.XA
Other languages
English (en)
Other versions
CN113329259B (zh
Inventor
许含瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rockchip Electronics Co Ltd
Original Assignee
Rockchip Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rockchip Electronics Co Ltd filed Critical Rockchip Electronics Co Ltd
Priority to CN202110585574.XA priority Critical patent/CN113329259B/zh
Publication of CN113329259A publication Critical patent/CN113329259A/zh
Application granted granted Critical
Publication of CN113329259B publication Critical patent/CN113329259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种基于连续兴趣点的视频剪辑方法及存储介质,其中方法包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。通过上述技术方案,能够基于连续兴趣点的特征,利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的,从而在视频中持续追踪连续兴趣点。最终完成视频的素材浓缩。

Description

一种基于连续兴趣点的视频剪辑方法及存储介质
技术领域
本发明涉及视频处理领域,尤其涉及一种基于连续兴趣点的视频剪辑方法及电子设备。
背景技术
电影或者实时视频的剪辑需要专业的视频剪辑师来进行,视频剪辑是一项非常标准的艺术工作。假设某部电影讲述的是主人公被动卷入挑战世界上最难的8个精进项目,如果我们先从这部电影中剪辑出8个视频片段,每个视频片段3-5分钟。普通用户对于视频剪辑是无所适从的。专业的视频剪辑师也需要投入高性能的设备、专业的剪辑软件和大量分析/剪辑时间,才能产生作品级的视频剪辑样片。
发明内容
为此,需要提供一种精简视频的剪辑方法,以满足普通用户对于长视频所要表达的内容的精炼剪辑的需求;
为实现上述目的,发明人提供了一种基于连续兴趣点的视频剪辑方法,包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。
具体地,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的景物;事件中心模式的视频片段特征是剧情相关的道具,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型具有短时记忆能力的多层卷积神经网络。
进一步地,视频智能剪辑模块包括图像后处理模块,图像后处理模块用于将多个连续画面特征进行多特征融合,多特征融合包括:画面特征按照权重优选,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。
进一步地,还包括步骤,根据用户需求的格式将保留的视频片段重编码为新视频。
具体地,所述格式包括ts、mp4、mkv、mov和hls。
一种基于连续兴趣点的视频剪辑存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。
具体地,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的景物;事件中心模式的视频片段特征是剧情相关的道具,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型优选具有短时记忆能力的多层卷积神经网络。
具体地,视频智能剪辑模块包括图像后处理模块,图像后处理模块用于将多个连续画面特征进行多特征融合,多特征融合包括:画面特征按照权重优选,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。
优选地,所述计算机程序在被运行时还执行包括步骤,根据用户需求的格式将保留的视频片段重编码为新视频。
可选地,所述格式包括ts、mp4、mkv、mov和hls。
一种基于连续兴趣点的视频剪辑电子设备,包括上述的存储介质,还包括CPU单元、GPU单元、OpenCL单元、NPU单元、硬件视频Codec单元;其中CPU单元用于执行软件和逻辑控制类型的负载任务;GPU单元负责加速图形渲染类型的负载任务;OpenCL单元负责加速计算类型的负载任务;NPU单元负责加速深度学习的负载任务;硬件视频Codec单元负责加速视频编解码类型的负载任务。
具体地,还包括存储器、内存;所述存储器负责数据和程序的动态写入和动态读出,存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、或数字视频,
所述内存用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据。
具体地,还包括通信组件、I/O接口、通信组件、电源组件、传感器组件、视频组件、音频组件、显示组件、安全组件。所述通信组件用于接入标准数据通信网络,或接入近场通信网络;
所述I/O接口是可编程的,用于作为处理器外部设备或组件交换信息的物理通道;
所述电源组件用于为其他组件或部件提供外部电源;
所述传感器组件还可以包括图像传感器、压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器中的一种或多种;
所述视频组件用于硬件编码和解码视频数据;
音频组件用于硬件音频采集和输出,所述硬件音频采集要求对原始音频数据进行3A音频处理;
所述显示组件用于显示输出和显示输出切换和管理;
所述安全组件用于安全存取身份信息、指纹信息或账户信息。
通过上述技术方案,能够基于连续兴趣点的特征,利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的,从而在视频中持续追踪连续兴趣点。最终完成视频的素材浓缩。
附图说明
图1为本发明一实施方式所述的基于连续兴趣点的视频剪辑方法流程图。
图2为本发明一实施方式所述的基于连续兴趣点的视频剪辑电子设备框图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,介绍了一种基于连续兴趣点的视频剪辑方法,可以运行于视频处理需求的微机、摄像装置内,方法包括如下步骤,S100加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤S102,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,并对视频片段做智能的视频后处理,将后处理的图像重编码为新视频。这里的连续画面特征条件为,连续的若干帧镜头表达了特定的内容或采用了特殊的镜头语言,且连续若干帧之间具有可归因的相关性,连续若干帧需要达到1S以上。当然,这些连续画面特征条件也是在人工智能模型的训练之初,在进行素材标注的时候就需要确定的。最终才能体现在保留的视频片段结果中。通过上述方案,我们达到了基于连续兴趣点的特征,利用视频浓缩用的人工智能模型来进行视频剪辑的技术效果。最终浓缩需要形成的视频格式可以根据用户需求确定,可用格式包括ts、mp4、mkv、mov和hls等。
在一些具体的实施例中,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动(变换)的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的或宏大的景物;事件中心模式的视频片段特征是剧情相关的道具。在本实施例中,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,而人工智能模型中配置了多种卷积层和卷积核。所述连续画面特征模型优选具有短时记忆能力的多层卷积神经网络,多层卷积神经网络用于识别画面特征,短时记忆用于识别时间连续特征。
示例性地,具体的多层卷积神经网络可以根据实际情况进行微调整,如本例中,所述连续画面特征模型为五层卷积神经网络模型串联LSTM单元。其中,第一层为输入层,获取的图像金字塔,可以作为输入层的输入;第二层为12*12的卷积层,卷积核为12*12*8,参数个数为(12x12+1)x8*w*h,进行图像特征的提取;第三层为8*8的卷积层,卷积核为8*8*12,参数个数为(8x8+1)x12*w*h,基于第二层的提取结果再次进行图像特征的提取;第四层为5*5的卷积层,卷积核为5*5*16,参数个数为(5x5+1)x16*w*h,基于第三层的提取结果再次进行图像特征的提取;第五层为3*3的卷积层,卷积核为3*3*20,参数个数为(3x3+1)x20*w*h,基于第四层的提取结果再次进行图像特征的提取;前五层构成五层卷积神经网络模型。卷积神经网络模型的后级是LSTM单元;最后一层为输出回归层,1*1*100的卷积,最后输出感兴趣区域(ROI),其可反映出如下结果:1.感兴趣区域的类型和矩形区域;2.感兴趣区域的得分。需要说明的是,在实际应用中,不限于上述卷积神经网络模型结构,本领域技术人员还可以根据实际需求采用更多层的模型结构。模型输入层还可以配置图像预处理模块,图像预处理模块可以完成图像大小、角度、色彩空间、剪裁等数字图像变换。
在其他一些进一步的实施例中,我们的视频智能剪辑模块包括图像后处理模块。图像后处理模块用于将多个连续画面特征进行多特征融合。对于多特征融合我们优选以下特征指标:特征区域的类型、特征区域的分数、特征区域的矩形、特征区域的时间戳等。特征区域评分的融合公式如下:
特征区域评分=MAX(S)*(Weihht+Score+ΔD/MAX(D)+ΔT/MAX(T))
其中MAX(S)为最大基准分数;Weight为特征区域类型的权重;Score为特征区域的分数;ΔD/MAX(D)为特征区域的矩形中心和画面中心的归一化距离权重;ΔT/MAX(T)为特征区域的时间戳的归一化时间权重。当画面出现多线多种画面特征时,按照上述特征区域评分公式,选取得分最大的为最终的特征区域。图像后处理模块按照最终目标图像的尺寸,将特征图像区域扩大到目标图像的尺寸。
具体的多特征融合包括:画面特征按照权重优选,画面特征即每帧的画面中出现的符合单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式的特征。而在选取的视频片段中,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。如画面特征占比大于50%,同时连续20S,这时候就会筛选出该20S的视频片段。同时不同的画面特征之间也会按照权重比较,权重参数正相关于画面特征占比,也正相关于连续的时间长度。
最后筛选出的多个视频/图像片段,我们还对其进行步骤,根据用户需求的格式将保留的视频片段重编码为新视频。通过上述方案,我们最终提供了一个能够利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的,从而在视频中持续追踪连续兴趣点的视频剪辑方法。
在本发明的其他一些实施例中,还介绍一种基于连续兴趣点的视频剪辑,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。
具体地,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的景物;事件中心模式的视频片段特征是剧情相关的道具,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型优选具有短时记忆能力的多层卷积神经网络。
具体地,视频智能剪辑模块包括图像后处理模块,图像后处理模块用于将多个连续画面特征进行多特征融合,多特征融合包括:画面特征按照权重优选,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。
优选地,所述计算机程序在被运行时还执行包括步骤,根据用户需求的格式将保留的视频片段重编码为新视频。
可选地,所述格式包括ts、mp4、mkv、mov和hls。
请参阅图2,介绍了基于连续兴趣点的电子设备框图。电子设备可以是智能手机、个人计算机、平板电脑、无人机云台/控制器、游戏机主机、手持医疗终端、数字机顶盒、运动相机、智能运动设备等。参照图-2,电子设备具有以下一个或多个组件:处理器、存储器、内存、通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件和安全组件等。
基于连续兴趣点的电子设备的处理器,处理器和其他组件一般建立双向连接,进行双向数据和控制交互。处理器优选的具有CPU单元、GPU单元、OpenCL单元、NPU单元和硬件视频Codec单元的异构多处理器。其中CPU单元负责执行软件和逻辑控制类型的负载任务;GPU单元负责加速图形渲染类型的负载任务;OpenCL单元负责加速计算类型的负载任务;NPU单元负责加速深度学习的负载任务;硬件视频Codec单元负责加速视频编解码类型的负载任务。
存储器负责数据和程序的动态写入和动态读出。存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、数字视频等。存储器的物理电子设备可以是静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM)等。
内存用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据。内存一般采用半导体存储单元,包括随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)。
通信组件可以接入标准数据通信网络,如WiFi,2G/3G/4G/5G,或它们的组合。通信组件还可是接入近场通信网络,如蓝牙、近场通信(NFC),或它们的组合。
I/O接口是处理器外部设备或组件交换信息的物理通道。I/O接口是可编程的,其工作方式由程序进行控制。
电源组件为多种组件提供外部电源。电源组件可以包含电源管理单元(PMU)、单路或多路电源。处理器单元可以对电源组件进行电源管理,管理系统的电源分配和功耗控制。
传感器组件还可以包括图像传感器,如CMOS/CCD图像传感器,用于摄像类应用。在一些实施例中,该传感器组件还可以包括压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器。
视频组件用于硬件编码和解码视频数据。视频组件一般具有H263/H264/H265/VP8/VP9等硬件编解码器。
音频组件用于硬件音频采集和输出。硬件音频采集要求对原始音频数据进行3A音频处理。
显示组件用于显示输出和显示输出切换和管理。显示组件提供一个输出接口的屏幕,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。
安全组件用于保护敏感用户信息,可以用于安全存取身份信息、指纹信息、账户信息等敏感用户信息。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于连续兴趣点的视频剪辑方法,其特征在于,包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。
2.根据权利要求1所述的基于连续兴趣点的视频剪辑方法,其特征在于,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的景物;事件中心模式的视频片段特征是剧情相关的道具,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型具有短时记忆能力的多层卷积神经网络。
3.根据权利要求1所述的基于连续兴趣点的视频剪辑方法,其特征在于,视频智能剪辑模块包括图像后处理模块,图像后处理模块用于将多个连续画面特征进行多特征融合,多特征融合包括:画面特征按照权重优选,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。
4.根据权利要求1所述的基于连续兴趣点的视频剪辑方法,其特征在于,还包括步骤,根据用户需求的格式将保留的视频片段重编码为新视频。
5.根据权利要求4所述的基于连续兴趣点的视频剪辑方法,其特征在于,所述格式包括ts、mp4、mkv、mov和hls。
6.一种基于连续兴趣点的视频剪辑存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载和解码视频流,送入视频智能剪辑模块,所述视频智能剪辑模块加载人工智能模型,所述人工智能模型被训练为识别视频流中特定连续画面特征,
进行步骤,人工智能模型对加载的视频流进行识别,仅保留具有满足特定连续画面特征条件的视频片段,删除其余片段,将保留的视频片段重编码为新视频。
7.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质,其特征在于,所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种,单主角模式的视频片段特征是单个人物角色;耍帅模式的视频片段特征是出现人物角色和移动的场景;正反派模式的视频片段特征是两个人物的言语交流或动作交互;场面模式视频片段特征是广角的景物;事件中心模式的视频片段特征是剧情相关的道具,所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型优选具有短时记忆能力的多层卷积神经网络。
8.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质,其特征在于,视频智能剪辑模块包括图像后处理模块,图像后处理模块用于将多个连续画面特征进行多特征融合,多特征融合包括:画面特征按照权重优选,各帧中的画面特征占比大于第一阈值,且连续时间长度大于第二阈值。
9.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质,其特征在于,所述计算机程序在被运行时还执行包括步骤,根据用户需求的格式将保留的视频片段重编码为新视频。
10.根据权利要求9所述的基于连续兴趣点的视频剪辑存储介质,其特征在于,所述格式包括ts、mp4、mkv、mov和hls。
CN202110585574.XA 2021-05-27 2021-05-27 一种基于连续兴趣点的视频剪辑方法及存储介质 Active CN113329259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585574.XA CN113329259B (zh) 2021-05-27 2021-05-27 一种基于连续兴趣点的视频剪辑方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585574.XA CN113329259B (zh) 2021-05-27 2021-05-27 一种基于连续兴趣点的视频剪辑方法及存储介质

Publications (2)

Publication Number Publication Date
CN113329259A true CN113329259A (zh) 2021-08-31
CN113329259B CN113329259B (zh) 2022-08-12

Family

ID=77421813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585574.XA Active CN113329259B (zh) 2021-05-27 2021-05-27 一种基于连续兴趣点的视频剪辑方法及存储介质

Country Status (1)

Country Link
CN (1) CN113329259B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566907A (zh) * 2017-09-20 2018-01-09 广东欧珀移动通信有限公司 视频剪辑方法、装置、存储介质及终端
US20180018970A1 (en) * 2016-07-15 2018-01-18 Google Inc. Neural network for recognition of signals in multiple sensory domains
CN107995536A (zh) * 2017-11-28 2018-05-04 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
CN108140032A (zh) * 2015-10-28 2018-06-08 英特尔公司 自动视频概括
CN109672922A (zh) * 2017-10-17 2019-04-23 腾讯科技(深圳)有限公司 一种游戏视频剪辑方法及装置
CN109889856A (zh) * 2019-01-21 2019-06-14 南京微特喜网络科技有限公司 一种基于人工智能的直播剪辑系统
CN110012357A (zh) * 2019-03-14 2019-07-12 深圳大神电竞文体产业园有限公司 一种大路数ai剪辑设备及方法
CN110505519A (zh) * 2019-08-14 2019-11-26 咪咕文化科技有限公司 一种视频剪辑方法、电子设备及存储介质
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
US20210144442A1 (en) * 2019-11-13 2021-05-13 Netflix, Inc. Automatic trailer detection in multimedia content

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140032A (zh) * 2015-10-28 2018-06-08 英特尔公司 自动视频概括
US20180018970A1 (en) * 2016-07-15 2018-01-18 Google Inc. Neural network for recognition of signals in multiple sensory domains
CN107566907A (zh) * 2017-09-20 2018-01-09 广东欧珀移动通信有限公司 视频剪辑方法、装置、存储介质及终端
CN109672922A (zh) * 2017-10-17 2019-04-23 腾讯科技(深圳)有限公司 一种游戏视频剪辑方法及装置
CN107995536A (zh) * 2017-11-28 2018-05-04 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
CN109889856A (zh) * 2019-01-21 2019-06-14 南京微特喜网络科技有限公司 一种基于人工智能的直播剪辑系统
CN110012357A (zh) * 2019-03-14 2019-07-12 深圳大神电竞文体产业园有限公司 一种大路数ai剪辑设备及方法
CN110505519A (zh) * 2019-08-14 2019-11-26 咪咕文化科技有限公司 一种视频剪辑方法、电子设备及存储介质
US20210144442A1 (en) * 2019-11-13 2021-05-13 Netflix, Inc. Automatic trailer detection in multimedia content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈煜平等: "基于CNN/LSTM和稀疏下采样的人体行为识别", 《计算机工程与设计》 *

Also Published As

Publication number Publication date
CN113329259B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
US10742900B2 (en) Method and system for providing camera effect
EP3533025B1 (en) Virtual reality experience sharing
JP2018537174A (ja) ノンプレイヤキャラクタのインタラクション特性を生成するために用いられるインタラクティブなモーションキャプチャデータの編集
TW202141340A (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
CN111583154A (zh) 图像处理方法、肤质美化模型训练方法及相关装置
CN112565868B (zh) 视频播放方法、装置及电子设备
CN111880664A (zh) Ar互动方法、电子设备及可读存储介质
CN109753145B (zh) 一种过渡动画的展示方法和相关装置
CN114185466A (zh) 业务处理方法、装置、电子设备及存储介质
CN114422692B (zh) 视频录制方法、装置及电子设备
CN112954212A (zh) 视频生成方法、装置及设备
US20230188830A1 (en) Image Color Retention Method and Device
CN113329259B (zh) 一种基于连续兴趣点的视频剪辑方法及存储介质
CN110431838B (zh) 提供人脸识别摄像机的动态内容的方法及系统
CN113256655A (zh) 一种基于画面特征的视频分割方法及存储介质
CN112613374A (zh) 人脸可见区域解析与分割方法、人脸上妆方法及移动终端
CN106161954A (zh) 一种视频拍摄控制方法、装置及电子设备
CN114518859A (zh) 显示控制方法、装置、电子设备及存储介质
CN117788316A (zh) 图像处理方法、装置、电子设备、介质及计算机程序产品
US20240062392A1 (en) Method for determining tracking target and electronic device
CN110266937A (zh) 终端设备及摄像头的控制方法
CN113810536B (zh) 基于视频中人肢体动作轨迹展示信息方法、装置、终端
WO2022131017A1 (ja) 画像処理装置、及び画像処理方法
CN114339050B (zh) 显示方法、装置及电子设备
CN115103112A (zh) 镜头控制方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant