CN113256655A - 一种基于画面特征的视频分割方法及存储介质 - Google Patents

一种基于画面特征的视频分割方法及存储介质 Download PDF

Info

Publication number
CN113256655A
CN113256655A CN202110585144.8A CN202110585144A CN113256655A CN 113256655 A CN113256655 A CN 113256655A CN 202110585144 A CN202110585144 A CN 202110585144A CN 113256655 A CN113256655 A CN 113256655A
Authority
CN
China
Prior art keywords
features
picture
configuration
video
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110585144.8A
Other languages
English (en)
Inventor
许含瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rockchip Electronics Co Ltd
Original Assignee
Rockchip Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rockchip Electronics Co Ltd filed Critical Rockchip Electronics Co Ltd
Priority to CN202110585144.8A priority Critical patent/CN113256655A/zh
Publication of CN113256655A publication Critical patent/CN113256655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于画面特征的视频分割方法及存储介质,其中方法包括如下步骤,加载视频图像,送入视频智能分析模块,所述视频智能分析模块加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,进行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面,并对具有组态特征的画面进行分割,裁剪出感兴趣的画面,并放大到统一尺寸,按照原顺序编码为特征格式的视频。上述方案能够让人工智能识别图像帧中的特定组态,为了进行某些组态的呈现,还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑,达到方便地提取视频要素的效果。

Description

一种基于画面特征的视频分割方法及存储介质
技术领域
本发明涉及视频处理领域,尤其涉及一种基于画面特征的视频分割方法。
背景技术
运动相机、行车记录仪和IP网络摄像头,一般都会客观的记录拍摄到的视频图像。视频记录设备具备强大的视频编码能力,但是视频记录设备不能够理解视频内容,只能记录原始视频,然后存储保存。对于冗长和枯燥的记录视频,普通用户对于这类视频,基本没有动力或兴趣去发掘和剪辑其中有意思的视频剪辑。
发明内容
为此,需要提供一种能够自动处理视频的方法,以满足在现有环境下视频流冗余信息多、不能够自动提取兴趣点的问题;
为实现上述目的,发明人提供了一种基于画面特征的视频分割方法,包括如下步骤,加载视频图像,送入视频智能分析模块,所述视频智能分析模块加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
进行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面,并对具有组态特征的画面进行分割,裁剪出感兴趣的画面,并放大到统一尺寸,按照原顺序编码为特征格式的视频。
进一步地,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
具体地,还进行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,得到裁剪后区域。
具体地,还包括步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。
进一步地,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征:双主角特征:特写特征:强关联特征:运动增强特征:动物增强特征的初始权重比为 1:2:3:3:2:1;所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。
一种基于画面特征的视频分割存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载视频图像,加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
计算机程序还继续执行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面。
具体地,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
进一步地,所述计算机程序在被运行时还执行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,得到裁剪后区域。
进一步地,所述计算机程序在被运行时还执行步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。
进一步地,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征:双主角特征:特写特征:强关联特征:运动增强特征:动物增强特征的初始权重比为 1:2:3:3:2:1;所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。
一种基于画面特征的视频分割电子设备,包括上述的存储介质,还包括 CPU单元、GPU单元、OpenCL单元、NPU单元、硬件视频Codec单元;其中CPU 单元用于执行软件和逻辑控制类型的负载任务;GPU单元负责加速图形渲染类型的负载任务;OpenCL单元负责加速计算类型的负载任务;NPU单元负责加速深度学习的负载任务;硬件视频Codec单元负责加速视频编解码类型的负载任务。
进一步地,还包括存储器、内存;所述存储器负责数据和程序的动态写入和动态读出,存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、或数字视频,
所述内存用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据。
具体地,还包括通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件、安全组件。所述通信组件用于接入标准数据通信网络,或接入近场通信网络;
所述I/O接口是可编程的,用于作为处理器外部设备或组件交换信息的物理通道;
所述电源组件用于为其他组件或部件提供外部电源;
所述传感器组件还可以包括图像传感器、压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器中的一种或多种;
所述视频组件用于硬件编码和解码视频数据;
音频组件用于硬件音频采集和输出,所述硬件音频采集要求对原始音频数据进行3A音频处理;
所述显示组件用于显示输出和显示输出切换和管理;
所述安全组件用于安全存取身份信息、指纹信息或账户信息。
通过上述技术方案,能够让人工智能识别图像帧中的特定组态,为了进行某些组态的呈现,还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑,达到方便地提取视频要素的效果。
附图说明
图1为本发明一实施方式所述的基于画面特征的视频分割方法流程图。
图2为本发明一实施方式所述的基于画面特征的视频分割电子设备示意图。
图3为本发明一实施方式所述的内容区域整合画面图。
附图标记说明
301、内容区域甲;302、内容区域乙;303、内容区域丙;3、裁剪后的区域。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,介绍了一种基于画面特征的视频分割方法,包括如下步骤, S100加载视频图像,送入视频智能分析模块,所述视频智能分析模块加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
进行步骤S102,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面,并进行S104对具有组态特征的画面进行分割,裁剪出感兴趣的画面,S106放大到统一尺寸,按照原顺序编码为特征格式的视频。这里的特征格式可以是用户的自定义格式,是封装音频和视频数据包的容器,常用的媒体格式,包括ts、mp4、mkv、mov、hls等。能够让人工智能识别图像帧中的特定组态,为了进行某些组态的呈现,还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑,达到方便地提取视频要素的效果。
在进一步的实施例中,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,在我们的实施例中,单主角特征是指单个人物在画面中占比较大时,具有的图像特征。双主角特征是指双人物在画面中占比较大时,具有的图像特征。特写特征是指人物的细节(如人脸/接吻/打斗等)在画面中占比较大时,具有的图像特征。强关联特征包括时间维度的强关联,运动维度的强关联。运动增强特征是指运动动作画面在画面中占比较大时,具有的图像特征。动物增强特征是指动物在画面中占比较大时,具有的图像特征。判断时优选人和动作的组合区域。组态特征的识别通过人工智能模型进行判断识别,具体地,只需要将视频素材作为训练素材,可以使用人工标注或自动标注等方式对训练素材进行具体的组态特征的标注,再输入人工智能模型中进行训练即可,训练过程可以参考现有技术,此处不再赘述。在其他一些实施例中,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
示例性地,具体的多层卷积神经网络可以根据实际情况进行微调整,如本例中,所述连续画面特征模型为五层卷积神经网络模型串联分类层。其中,第一层为输入层,获取的图像金字塔,可以作为输入层的输入;第二层为12*12 的卷积层,卷积核为12*12*8,参数个数为(12x12+1)x8*w*h,进行图像特征的提取;第三层为8*8的卷积层,卷积核为8*8*12,参数个数为(8x8+1)x12*w*h, 基于第二层的提取结果再次进行图像特征的提取;第四层为5*5的卷积层,卷积核为5*5*16,参数个数为(5x5+1)x16*w*h,基于第三层的提取结果再次进行图像特征的提取;第五层为3*3的卷积层,卷积核为3*3*20,参数个数为 (3x3+1)x20*w*h,基于第四层的提取结果再次进行图像特征的提取;前五层构成五层卷积神经网络模型。卷积神经网络模型的后级是分类层;分类层包含若干全连接层,最后输出图像特征类型和特征区域。,其可反映出如下结果: 1.图像特征的类型和矩形区域;2.图像特征的得分。需要说明的是,在实际应用中,不限于上述卷积神经网络模型结构,本领域技术人员还可以根据实际需求采用更多层的模型结构。模型输入层还可以配置图像预处理模块,图像预处理模块可以完成图像大小、角度、色彩空间、剪裁等数字图像变换。
在进一步地具体实施例中,还进行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,这里的内容区域整合步骤可以是,通过以下约束条件得到裁剪后区域:裁剪区域需要包括画面中所有具有组态特征的内容区域;还可以是需要整合前后若干帧中具有组态特征的内容区域作为裁剪区域的大小,从而提升帧间变换的顺滑度。
在其他一些具体的实施例中,还包括步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。在本实施例中,进行内容区域的加权兴趣值的计算,仅保留排名前二高的加权兴趣值的内容区域,有助于提升裁剪之后的图片展示有效信息的效率。我们发现通过这种方式裁剪区域拼接的视频更加地顺畅,内容紧凑,冗余信息少。在某些优选的实施例中,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征、双主角特征、特写特征、强关联特征、运动增强特征:动物增强特征的初始权重比为 1:2:3:3:2:1。上述初始权重也可以归一化为:
0.0833:0.1667:0.25:0.25:0.1667:0.0833;
所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定,如视频流的前后帧具有相同的组态特征,则相关因子就越大,前后帧的组态特征与本帧的组态特征类型相同、所在区域坐标越接近,则相关因子也会也越大。视频流相关因子与前后帧的组态特征与本帧内容区域的接近程度、组态类型相同度正相关。通过设计加权兴趣值的做法,我们能够量化每个帧画面中内容组态区域的信息强度,从而更好地选取帧画面中的裁剪区域,同时考虑了视频流相关因子的做法,也是基于视频流中数据特性、相关程度对裁剪区域的选取进行了优化,避免前后帧画面的裁剪区域进行大幅的变化从而影响观感。
同时,在其他一些进一步的实施例中,我们还提供一种基于画面特征的视频分割存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载视频图像,加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
计算机程序还继续执行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面。
具体地,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
进一步地,所述计算机程序在被运行时还执行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,得到裁剪后区域。
进一步地,所述计算机程序在被运行时还执行步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。
进一步地,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征:双主角特征:特写特征:强关联特征:运动增强特征:动物增强特征的初始权重比为1:2:3:3:2:1;所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。
在图3所示的实施例中,我们给出了一种内容区域整合的实例,粗框表示原画面帧的范围,其中根据智能化识别出了具有组态特征,面积较大,距离原画面帧中心中等的内容区域301,以及具有组态特征,面积较小,距离原画面帧中心距离较近的内容区域302,以及具有组态特征,面积较小,距离原画面帧中心距离较远的内容区域303、在本例中,假设内容区域303没有特写特征、强关联特征等高权重的情况,经过测算,内容区域301的加权兴趣之和内容区域302的加权兴趣值排列第一、第二名。则最终整合生成了裁剪后区域3。
请参阅图2,介绍了一种基于画面特征的视频分割电子设备。电子设备可以是智能手机、个人计算机、平板电脑、无人机云台/控制器、游戏机主机、手持医疗终端、数字机顶盒、运动相机、智能运动设备等。参照图2,电子设备具有以下一个或多个组件:处理器、存储器、内存、通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件和安全组件等。
基于连续兴趣点的电子设备的处理器,处理器和其他组件一般建立双向连接,进行双向数据和控制交互。处理器优选的具有CPU单元、GPU单元、OpenCL 单元、NPU单元和硬件视频Codec单元的异构多处理器。其中CPU单元负责执行软件和逻辑控制类型的负载任务;GPU单元负责加速图形渲染类型的负载任务;OpenCL单元负责加速计算类型的负载任务;NPU单元负责加速深度学习的负载任务;硬件视频Codec单元负责加速视频编解码类型的负载任务。
存储器负责数据和程序的动态写入和动态读出。存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、数字视频等。存储器的物理电子设备可以是静态随机存取存储器(SRAM),电可擦除可编程只读存储器 (EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM)等。
内存用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据。内存一般采用半导体存储单元,包括随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)。
通信组件可以接入标准数据通信网络,如WiFi,2G/3G/4G/5G,或它们的组合。通信组件还可是接入近场通信网络,如蓝牙、近场通信(NFC),或它们的组合。
I/O接口是处理器外部设备或组件交换信息的物理通道。I/O接口是可编程的,其工作方式由程序进行控制。
电源组件为多种组件提供外部电源。电源组件可以包含电源管理单元 (PMU)、单路或多路电源。处理器单元可以对电源组件进行电源管理,管理系统的电源分配和功耗控制。
传感器组件还可以包括图像传感器,如CMOS/CCD图像传感器,用于摄像类应用。在一些实施例中,该传感器组件还可以包括压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器。
视频组件用于硬件编码和解码视频数据。视频组件一般具有 H263/H264/H265/VP8/VP9等硬件编解码器。
音频组件用于硬件音频采集和输出。硬件音频采集要求对原始音频数据进行3A音频处理。
显示组件用于显示输出和显示输出切换和管理。显示组件提供一个输出接口的屏幕,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。
安全组件用于保护敏感用户信息,可以用于安全存取身份信息、指纹信息、账户信息等敏感用户信息。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于画面特征的视频分割方法,其特征在于,包括如下步骤,加载视频图像,送入视频智能分析模块,所述视频智能分析模块加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
进行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面,并对具有组态特征的画面进行分割,裁剪出感兴趣的画面,并放大到统一尺寸,按照原顺序编码为特征格式的视频。
2.根据权利要求1所述的基于画面特征的视频分割方法,其特征在于,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
3.根据权利要求1所述的基于画面特征的视频分割方法,其特征在于,还进行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,得到裁剪后区域。
4.根据权利要求1所述的基于画面特征的视频分割方法,其特征在于,还包括步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。
5.根据权利要求4所述的基于画面特征的视频分割方法,其特征在于,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征:双主角特征:特写特征:强关联特征:运动增强特征:动物增强特征的初始权重比为1:2:3:3:2:1;所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。
6.一种基于画面特征的视频分割存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,加载视频图像,加载人工智能模型,所述人工智能模型被训练为识别视频图像中特定帧的组态特征,
计算机程序还继续执行步骤,人工智能模型对加载的视频图像进行识别,保留具有组态特征的画面,删除不具有组态特征的画面。
7.根据权利要求6所述的基于画面特征的视频分割存储介质,其特征在于,所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种,所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。
8.根据权利要求6所述的基于画面特征的视频分割存储介质,其特征在于,所述计算机程序在被运行时还执行步骤,人工智能模型对具有组态特征的画面进行特征匹配,输出具有组态特征的内容区域,对具有组态特征的画面进行内容区域整合,得到裁剪后区域。
9.根据权利要求6所述的基于画面特征的视频分割存储介质,其特征在于,所述计算机程序在被运行时还执行步骤,对具有组态特征的画面进行内容区域的加权兴趣值计算,保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域;根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。
10.根据权利要求9所述的基于画面特征的视频分割存储介质,其特征在于,内容区域的加权兴趣值计算具体为:
加权兴趣值=初始权重*距离因子*视频流相关因子
其中初始权重为内容区域的组态特征类型决定,单主角特征:双主角特征:特写特征:强关联特征:运动增强特征:动物增强特征的初始权重比为1:2:3:3:2:1;所述距离因子为内容区域的中心点与画面中心的距离;所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。
CN202110585144.8A 2021-05-27 2021-05-27 一种基于画面特征的视频分割方法及存储介质 Pending CN113256655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585144.8A CN113256655A (zh) 2021-05-27 2021-05-27 一种基于画面特征的视频分割方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585144.8A CN113256655A (zh) 2021-05-27 2021-05-27 一种基于画面特征的视频分割方法及存储介质

Publications (1)

Publication Number Publication Date
CN113256655A true CN113256655A (zh) 2021-08-13

Family

ID=77184796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585144.8A Pending CN113256655A (zh) 2021-05-27 2021-05-27 一种基于画面特征的视频分割方法及存储介质

Country Status (1)

Country Link
CN (1) CN113256655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187556A (zh) * 2021-12-14 2022-03-15 养哇(南京)科技有限公司 一种基于画面特征的高清视频智能分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
WO2019194863A1 (en) * 2018-04-04 2019-10-10 Sri International Methods for enhanced imaging based on semantic processing and dynamic scene modeling
CN110505519A (zh) * 2019-08-14 2019-11-26 咪咕文化科技有限公司 一种视频剪辑方法、电子设备及存储介质
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
US20200322647A1 (en) * 2019-04-02 2020-10-08 Wangsu Science & Technology Co., Ltd. Method, apparatus, server, and storage medium for generating live broadcast video of highlight collection
WO2021083515A1 (en) * 2019-10-30 2021-05-06 Telefonaktiebolaget Lm Ericsson (Publ) Processing an input video stream to determine cropping region

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
WO2019194863A1 (en) * 2018-04-04 2019-10-10 Sri International Methods for enhanced imaging based on semantic processing and dynamic scene modeling
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
US20200322647A1 (en) * 2019-04-02 2020-10-08 Wangsu Science & Technology Co., Ltd. Method, apparatus, server, and storage medium for generating live broadcast video of highlight collection
CN110505519A (zh) * 2019-08-14 2019-11-26 咪咕文化科技有限公司 一种视频剪辑方法、电子设备及存储介质
WO2021083515A1 (en) * 2019-10-30 2021-05-06 Telefonaktiebolaget Lm Ericsson (Publ) Processing an input video stream to determine cropping region

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187556A (zh) * 2021-12-14 2022-03-15 养哇(南京)科技有限公司 一种基于画面特征的高清视频智能分割方法
CN114187556B (zh) * 2021-12-14 2023-12-15 华策影视(北京)有限公司 一种基于画面特征的高清视频智能分割方法

Similar Documents

Publication Publication Date Title
Betancourt et al. The evolution of first person vision methods: A survey
US9633479B2 (en) Time constrained augmented reality
CN111612873B (zh) Gif图片生成方法、装置及电子设备
Agarwal et al. Anubhav: recognizing emotions through facial expression
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
US10198831B2 (en) Method, apparatus and system for rendering virtual content
US20210127071A1 (en) Method, system and computer program product for object-initiated redaction of surveillance video
WO2023202570A1 (zh) 图像处理方法和处理装置、电子设备和可读存储介质
US20130265490A1 (en) Video Analytic Encoding
Li et al. Fast aerial video stitching
CN113407436A (zh) 播放组件兼容性检测方法、装置、计算机设备和存储介质
US11348254B2 (en) Visual search method, computer device, and storage medium
CN113256655A (zh) 一种基于画面特征的视频分割方法及存储介质
KR101984825B1 (ko) Api 정보를 이용한 클라우드 디스플레이 화면의 부호화 방법 및 그 장치
CN111368593A (zh) 一种马赛克处理方法、装置、电子设备及存储介质
CN109089120A (zh) 分析辅助编码
KR101947553B1 (ko) 객체 기반 동영상 편집 장치 및 방법
CN115457308B (zh) 细粒度图像识别方法、装置和计算机设备
CN115660969A (zh) 图像处理方法、模型训练方法、装置、设备和存储介质
CN113329259B (zh) 一种基于连续兴趣点的视频剪辑方法及存储介质
Basbrain et al. One-shot only real-time video classification: a case study in facial emotion recognition
JP7202995B2 (ja) 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム
CN114970576A (zh) 识别码的识别方法、相关电子设备及计算机可读存储介质
CN117788316A (zh) 图像处理方法、装置、电子设备、介质及计算机程序产品
KR102470139B1 (ko) 쿼드 트리 기반의 객체 탐지 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination