CN114283351A - 视频场景分割方法、装置、设备及计算机可读存储介质 - Google Patents

视频场景分割方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114283351A
CN114283351A CN202111149863.1A CN202111149863A CN114283351A CN 114283351 A CN114283351 A CN 114283351A CN 202111149863 A CN202111149863 A CN 202111149863A CN 114283351 A CN114283351 A CN 114283351A
Authority
CN
China
Prior art keywords
frame
video
video frame
feature
scene segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111149863.1A
Other languages
English (en)
Inventor
祁雷
叶振旭
岑杰鹏
杨伟东
陈宇
何俊烽
熊鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111149863.1A priority Critical patent/CN114283351A/zh
Publication of CN114283351A publication Critical patent/CN114283351A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供了一种视频场景分割方法、装置、设备及计算机可读存储介质;涉及人工智能技术,方法包括:对待处理视频进行抽帧,得到视频帧集合;并对视频帧集合中的每个视频帧进行特征提取,得到每个视频帧对应的特征向量;基于特征向量,构造帧间相似度矩阵;帧间相似度矩阵表征视频帧之间的相似程度;基于帧间相似度矩阵进行场景变化预测,从视频帧集合中确定出场景分割帧;基于场景分割帧对待处理视频进行场景分割,得到场景分割结果。通过本申请,能够提高视频场景分割的准确性。

Description

视频场景分割方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种视频场景分割方法、装置、设备及计算机可读存储介质。
背景技术
目前,关于视频场景的分割方法,相关技术通常是先通过视频分段算法对视频分段;再根据特征相似对视频分段进行聚类,将同一聚类下的视频片段作为一个视频场景利用神经网络提取视频分段的特征,并对视频片段的特征进行学习,依赖于同一场景中视频片段更加相似的假设,对视频片段的特征进行聚类,将同一场景下的片段聚集在一起,作为一个视频场景,从而实现对视频的场景分割。可以看出,相关技术的方法通常需要引入专门的算法模型来得到视频片段,从而造成了额外的处理成本,降低了场景分割的效率;并且,场景分割的准确度容易受到视频片段本身的视频质量的影响,从而降低了视频场景分割的准确性。
发明内容
本申请实施例提供一种视频场景分割方法、装置、设备及计算机可读存储介质,能够提高视频场景分割的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种视频场景分割方法,包括:
对待处理视频进行抽帧,得到视频帧集合;并对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量;
基于所述特征向量,构造帧间相似度矩阵;所述帧间相似度矩阵表征视频帧之间的相似程度;
基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧;
基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果。
本申请实施例提供一种视频场景分割装置,包括:
提取模块,用于对待处理视频进行抽帧,得到视频帧集合;并对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量;
计算模块,用于基于所述特征向量,构造帧间相似度矩阵;所述帧间相似度矩阵表征视频帧之间的相似程度;
预测模块,用于基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧;
分割模块,用于基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果。
上述装置中,所述提取模块,还用于对所述每个视频帧进行至少一种方式的特征提取,得到所述每个视频帧对应的至少一个单特征;对所述至少一个单特征进行特征融合,得到所述每个视频帧对应的特征向量。
上述装置中,所述提取模块,还用于将至少一个单特征映射到统一的特征维度,得到至少一个映射单特征;对至少一个映射单特征进行特征拼接与平均池化处理,得到平均特征;根据所述平均特征,基于注意力机制计算所述至少一个映射单特征中每个映射单特征对应的融合权重;根据所述每个映射单特征对应的融合权重,对所述至少一个映射单特征进行加权与拼接,得到所述特征向量。
上述装置中,所述计算模块,还用于分别计算所述每个视频帧与所述视频帧集合中全部视频帧的特征向量之间的距离,得到所述每个视频帧对应的至少一个特征距离;根据所述每个视频帧对应的至少一个特征距离,构造得到特征距离矩阵;对所述特征距离矩阵进行归一化处理,得到所述帧间相似度矩阵。
上述装置中,所述预测模块,还用于利用场景分割检测网络,对所述帧间相似度矩阵进行卷积处理与分类预测,得到所述每个视频帧对应的场景分割概率;根据所述场景分割概率,确定出所述场景分割帧。
上述装置中,所述场景分割检测网络包括:分类模块与至少两个卷积模块;所述预测模块,还用于通过所述至少两个卷积模块,对所述帧间相似度矩阵进行多层卷积处理,得到帧嵌入向量;通过所述分类模块,基于所述帧嵌入向量进行分类预测,得到所述每个视频帧对应的场景分割概率。
上述装置中,所述至少两个卷积模块包括:第一卷积模块与至少一个第二卷积模块,所述第一卷积模块对应的特征维度高于所述第二卷积模块对应的特征维度;所述预测模块,还用于通过所述第一卷积模块,对所述帧间相似度矩阵进行卷积处理,得到所述帧间相似度矩阵中每个矩阵元素对应的多维特征向量,从而得到第一特征矩阵;对所述第一特征矩阵进行维度变换,得到第二特征矩阵;通过所述至少一个第二卷积模块,对所述第二特征矩阵进行卷积处理,得到所述帧嵌入向量。
上述装置中,所述分割模块,还用于获取所述场景分割帧在所述待处理视频中对应的分割时间点;根据包含所述分割时间点的预设时间范围,对所述待处理视频进行抽帧,得到更新视频帧集合;所述更新视频帧集合抽帧频率高于所述视频帧集合的抽帧频率;根据所述更新视频帧集合的每个更新视频帧包含的像素颜色值,从所述更新视频帧集合中确定出所述场景分割帧对应的更新分割帧;根据所述更新分割帧,对所述待处理视频进行场景分割,得到场景分割结果。
上述装置中,所述分割模块,还用于计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离;根据所述像素颜色距离,从所述更新视频帧集合中确定出所述更新分割帧。
上述装置中,所述分割模块,还用于所述计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离之前,将所述每个更新视频帧的像素颜色空间转换为直观颜色空间;所述直观颜色空间的空间模型通过色调、饱和度与亮度来表示。
上述装置中,所述分割模块,还用于对所述像素颜色距离进行均值化处理,作为所述每个视频帧对应的颜色变化度;在所述更新场景视频帧集合中,将最大的颜色变化度对应的更新视频帧,确定为所述更新场景分割帧。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现如上述的视频场景分割方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本申请实施例提供的视频场景分割方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本申请实施例提供的视频场景分割方法。
本申请实施例具有以下有益效果:
本申请实施例以帧级粒度进行特征提取,并通过构造帧间相似度矩阵记录各个视频帧之间的相似信息,进而可以基于帧间相似度矩阵进行场景变化预测,得到场景分割帧,实现了将相关技术中基于划分视频片段并聚类进行场景分割问题,转换为场景分割帧的检测问题,从而减少了较差的视频片段质量对场景分割精度的影响,提高了场景分割的准确性;并且,本申请实施例直接针对视频帧进行相似度信息提取与预测处理,减少了生成视频片段的工作量,从而提高了场景分割的效率。
附图说明
图1是本申请实施例提供的视频场景分割系统架构的一个可选的结构示意图;
图2是本申请实施例提供的视频场景分割装置的一个可选的结构示意图;
图3是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图4是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图5是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图6是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图7是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图8是本申请实施例提供的场景分割检测网络的一个可选的结构示意图;
图9是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图10是本申请实施例提供的视频场景分割方法的一个可选的流程示意图;
图11是本申请实施例提供的实际应用场景中的视频场景分割方法的一个可选的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
2)计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
3)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体通过如下实施例进行说明。
本申请实施例提供一种视频场景分割方法、装置、设备和计算机可读存储介质,能够提高视频场景分割的准确性。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,智能电视,机顶盒,智能车载与智慧交通设备,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备等各种类型的终端,但并不局限于此;也可以实施为服务器。在电子设备实施为服务器时,可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器等等,本申请实施例不作限定。下面,将说明电子设备实施为服务器时示例性应用。
参见图3,图3是本申请实施例提供的视频场景分割系统100的一个可选的架构示意图,包含终端400与服务器200。其中,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于通过视频场景分割应用410,将待处理视频上传至服务器200。
服务器200用于接收终端400上传的待处理视频,并对待处理视频进行抽帧,得到视频帧集合;并对视频帧集合中的每个视频帧进行特征提取,得到每个视频帧对应的特征向量;基于特征向量,构造帧间相似度矩阵;帧间相似度矩阵表征视频帧集合中每两帧之间的相似程度;基于帧间相似度矩阵进行场景变化预测,从视频帧集合中确定出场景分割帧;场景分割点为视频帧中集合位于不同场景之间的视频帧;根据场景分割帧对待处理视频进行场景分割,得到场景分割结果。
服务器200还用于将场景分割结果发送至终端400,以使终端400通过视频场景分割应用410,基于场景分割结果进行视频内容制作等操作。
参见图2,图2是本申请实施例提供的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器250中的视频场景分割装置255,其可以是程序和插件等形式的软件,包括以下软件模块:提取模块2551、计算模块2552、预测模块2553与分割模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的视频场景分割方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的视频场景分割方法。以及,本申请实施例提供的视频场景分割方法可应用于云技术、人工智能、智慧交通和车载等各种场景。
参见图3,图3是本申请实施例提供的视频场景分割方法的一个可选的流程示意图。将结合图3示出的步骤进行说明。
S101、对待处理视频进行抽帧,得到视频帧集合;并对视频帧集合中的每个视频帧进行特征提取,得到每个视频帧对应的特征向量。
本申请实施例提供的视频场景分割方法可以应用于视频拆条、视频关键场景抽取等场景,以满足视频内容机器创作、素材检索等需求。或者,本申请实施例提供的视频场景分割方法还可以应用于生成视频标签的场景。由于目前视频标签大多是针对整个视频,缺少到对视频中不同场景的细粒度标签,基于本申请实施例的视频场景分割方法,可以将视频标签的标签粒度从视频级细化到场景级,深化对视频的语义解析程度。还可以用于其他基于人工智能对视频进行场景分割的应用场景中,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,服务器可以对待处理视频进行抽帧,将待处理视频拆分为视频帧集合。可以理解,视频帧抽取越密集,则待处理视频中的信息越能被完整被保留。在实际应用中,考虑到精度与时间和计算资源的均衡,可以采取稀疏采样的方式对待处理视频进行抽帧。示例性地,可以采用了一秒抽一帧的方式,对待处理视频进行抽帧。即对于时长为T秒的待处理视频进行抽帧,得到包含T个视频帧的视频帧集合S={I1,I2,…,IT}。其中,I代表单个视频帧。
本申请实施例中,服务器对视频帧集合中的每个视频帧进行特征提取,得到每个视频帧对应的特征向量。这里,服务器可以通过图像特征提取算法,如尺度不变换特征变换(Scale invariant feature Transform,SIFT)、方向梯度直方图(Histogram of OrientedGradient,HOG)等方法对视频帧进行特征提取;也可以通过基于深度机器学习的神经网络,如卷积神经网络(Convolutional Neural Networks,CNN)等进行特征提取,具体的根据实际情况进行选择,本申请实施例不作限定。
这里,服务器在进行特征提取时,可以通过一种特征提取方式提取到每个视频帧对应的一种单特征作为特征向量,也可以通过多种特征提取方式提取到每个视频帧对应的多种单特征向量并加以结合,得到特征向量,将在之后的实施例中进行说明。
S102、基于特征向量,构造帧间相似度矩阵;帧间相似度矩阵表征视频帧之间的相似程度。
本申请实施例中,服务器可以基于每个视频帧的特征向量,计算视频帧集合中各个视频帧之间的相似程度,从而构建得到帧间相似度矩阵。帧间相似度矩阵中的矩阵元素可以表征视频帧集合中任意两帧之间的相似程度。由于同一场景下的两帧之间的相似度要比不同场景下两帧之间的相似程度高,因此,本申请实施例可以利用帧间相似度矩阵来预测不同场景间的分割点,也即场景分割帧。
在一些实施例中,基于图3,如图4所示,S102可以通过执行S1021-S1023来实现,将结合各步骤进行说明。
S1021、分别计算每个视频帧与视频帧集合中全部视频帧的特征向量之间的距离,得到每个视频帧对应的至少一个特征距离。
本申请实施例中,对于视频帧集合中的每一个视频帧,服务器可以分别计算该视频帧与视频帧集合中全部视频帧的特征向量之间的距离,得到该视频帧对应的至少一个特征距离。
这里,服务器可以以计算余弦距离的方式得到特征距离,也可以使用其他距离计算方式,如二范数距离等,具体的根据实际情况进行选择,本申请实施例不作限定。
S1022、根据每个视频帧对应的至少一个特征距离,构造得到特征距离矩阵。
本申请实施例中,基于上述得到的每个视频帧对应的至少一个特征距离,服务器可以将视频帧集合中的各个视频帧所对应的至少一个特征距离构造为矩阵形式,从而得到特征距离矩阵。其中,每个视频帧对应的至少一个特征距离可以对应于与特征距离矩阵中的一行或一列,具体的构造形式本申请实施例不作限定。
在一些实施例中,视频帧集合中对应的特征向量集合可以表示为{f1,f2,…,fT},服务器可以通过公式(1),计算每个视频帧对应的至少一个特征距离,并构造得到特征距离矩阵,如下:
Figure BDA0003286574950000121
公式(1)中,fi与fj分别表示视频帧集合中第i帧与第j帧的特征向量;τ表示尺度控制因子,用于调节特征距离的尺度,避免fi与fj比较接近时,直接通过距离计算,如计算二范数距离计算得到的距离数值较小,导致后续的神经网络模型难以处理过小的数值。M'(i,j)表示第i帧与第j帧的特征距离,M'表示特征距离矩阵,其中M'∈RT×T
S1023、对特征距离矩阵进行归一化处理,得到帧间相似度矩阵。
本申请实施例中,服务器可以对特征距离矩阵M'进行归一化处理,将特征距离矩阵中的每个特征距离映射至同一取值范围,得到帧间相似度矩阵。
在一些实施例中,服务器可以通过公式(2)对特征距离矩阵进行归一化处理,得到帧间相似度矩阵,如下:
Figure BDA0003286574950000122
这里,公式(2)为指数归一化函数,q代表第i帧在特征距离矩阵M'中对应的至少一个特征距离,q∈(1,T);M(i,j)为服务器通过指数归一化函数对特征距离矩阵M'进行归一化处理,所得到的帧间相似度矩阵,M∈RT×T
在一些实施例中,服务器也可以采用其他归一化处理方法,如线性归一化、均值归一化或方差归一化等方法对特征距离矩阵进行处理,得到帧间相似度矩阵。具体的根据实际情况进行选择,本申请实施例不作限定。
S103、基于帧间相似度矩阵进行场景变化预测,从视频帧集合中确定出场景分割帧。
本申请实施例中,由于帧间相似度矩阵表征视频帧集合中任意两帧之间的相似程度,服务器在得到帧间相似度矩阵的情况下,可以基于帧间相似度矩阵进行每两帧之间上下文关系的推理,从而预测出视频帧之间是否属于同一场景,进而从视频帧集合中确定出场景分割帧。
本申请实施例中,服务器可以通过构建基于人工智能的场景分割点检测网络,对帧间相似度进行处理,预测并输出每个视频帧对应为场景分割帧的概率,从而得到场景分割帧。在一些实施例中,基于图3或图4,如图5所示,S103可以通过执行S1031-S1032来实现,将结合各步骤进行说明。
S1031、利用场景分割检测网络,对帧间相似度矩阵进行卷积处理与分类预测,得到每个视频帧对应的场景分割概率。
本申请实施例中,服务器可以将记录有视频帧间特征距离的相似度矩阵输入预训练的场景分割检测网络中,利用场景分割检测网络对帧间相似度矩阵进行多层卷积处理,以联合每个视频帧的相邻视频帧,基于特征距离自动学习视频帧间的相关性,对比当前视频帧与前后视频帧的变化,进而基于学习到的特征信息进行分类预测,得到每个视频帧为场景分割帧的概率分数,作为场景分割概率。
在一些实施例中,场景分割检测网络包括:分类模块与至少两个卷积模块;基于图5,如图6所示,S1031可以通过S201-S202来实现,将结合各步骤进行说明。
S201、通过至少两个卷积模块,对帧间相似度矩阵进行多层卷积处理,得到帧嵌入向量;帧嵌入向量包含每个视频帧对应的上下文信息。
本申请实施例中,服务器可以通过至少两个卷积模块对帧间相似度矩阵进行多层卷积处理,将帧间相似度矩阵中的每个表征特征距离的矩阵元素作为局部信息,利用卷积模块中预训练的权重对其进行逐层映射与函数拟合,得到表征每个视频帧对应的全局相关性的特征向量,作为帧嵌入向量。这里,帧嵌入向量包含每个视频帧对应的具有全局相关性的上下文信息。
在一些实施例中,至少两个卷积模块包括:第一卷积模块与至少一个第二卷积模块,第一卷积模块对应的特征维度高于第二卷积模块对应的特征维度;基于图6,如图7所示,S201可以通过S2011-S2013来实现,将结合各步骤进行说明。
S2011、通过第一卷积模块,对帧间相似度矩阵进行卷积处理,得到帧间相似度矩阵中每个矩阵元素对应的多维特征向量,从而得到第一特征矩阵。
S2011中,服务器可以通过第一卷积模块,对帧间相似度矩阵进行卷积处理,得到帧间相似度矩阵中每个矩阵元素对应的多维特征向量,从而得到第一特征矩阵。
在一些实施例中,第一卷积模块可以是二维卷积模块,服务器可以通过第一卷积模块对维度为T×T的帧间相似度矩阵M∈RT×T进行二维卷积处理,得到每个矩阵元素对应的D维特征向量,得到T×T×D维的第一特征矩阵。其中,D为大于或等于1的正整数。
S2012、对第一特征矩阵进行维度变换,得到第二特征矩阵。
S2012中,服务器可以通过维度合并或拉伸等方式,对第一特征矩阵进行维度变换,将其维度变换至第二卷积模块所能处理的特征维度,得到第二特征矩阵。
在一些实施例中,服务器可以将T×T×D维的第一特征矩阵作为T×(T×D)维,将T×D作为一个特征维度D',对第一特征矩阵进行维度变换,得到T×D'维的第二特征矩阵。
S2013、通过至少一个第二卷积模块,对第二特征矩阵进行卷积处理,得到帧嵌入向量。
本申请实施例中,服务器可以通过低维度上的至少一个第二卷积模块,对第二特征矩阵进行卷积处理,得到每个视频帧对应的嵌入向量,作为帧嵌入向量。
在一些实施例中,第二卷积模块可以是一维卷积模块,服务器可以通过至少一个第二卷积模块,对T×D'维的第二特征矩阵进行卷积处理,得到T个视频帧中每个视频帧对应的嵌入向量,也即帧嵌入向量。
S202、通过分类模块,基于帧嵌入向量进行分类预测,得到每个视频帧对应的场景分割概率。
本申请实施例中,分类模块可以是具有分类功能的神经网络模块,服务器可以通过分类模块,针对帧嵌入向量中每个视频帧对应的嵌入向量进行分类预测,得到每个视频帧为场景分割帧的概率分数,作为场景分割概率。
在一些实施例中,如图8所示,场景分割检测网络可以包含一个第一卷积模块80、维度变换模块81、四个第二卷积模块82(图8中示出了第二卷积模块82-1至第二卷积模块82-4)和分类模块83。其中,第一卷积模块80以及第二卷积模块的每个卷积模块中均包含有一组卷积层、激活层和池化层,第一卷积模块80的池化层输出与维度变换模块81相连接,维度变换模块81用于通过维度合并或拉伸等方式,对第一卷积模块80的池化层输出的一特征矩阵进行维度变换,将其维度变换至第二卷积模块所能处理的特征维度,得到第二特征矩阵。如图8所示,维度变换模块81的输出与第二卷积模块82-1的卷积层的输入相连,第二卷积模块82-1的池化层输出与第二卷积模块82-2的卷积层的输入相连(图示未示出)…四个第二卷积模块82依次首尾连接,最后一个第二卷积模块82-4的输出与分类模块83连接。其中,分类模块83中包含池化层与分类层。其中,从第l个卷积模块到第l+1层的卷积模块的卷积处理可以如公式(3)所示,如下:
Figure BDA0003286574950000151
公式(3)中,Zl表示第l个卷积模块的输出,
Figure BDA0003286574950000152
为第l+1个卷积模块中卷积层的输出,
Figure BDA0003286574950000153
表示第l+1个卷积模块中第k个滤波器的卷积核参数矩阵,
Figure BDA0003286574950000154
表示第l+1个卷积模块中第k个滤波器的偏重向量;
Figure BDA0003286574950000155
代表第l+1个卷积模块中激活函数的输出,max为取最大值操作;Zl+1代表第l+1个卷积模块的输出,pooling为池化层的池化操作。
图8中,分类层可以通过池化层与分类层,采用二分类器的方式进行分类预测。在一些实施例中,分类预测的过程可以如公式(4)所示,如下:
Figure BDA0003286574950000161
其中,p(i)表示第i帧为场景分割点的概率,也即第i帧的场景分割概率,w为分类模块中分类层的网络参数。
在一些实施例中,服务器可以首先构造出初始场景分割检测网络,通过标注数据集对初始场景分割检测网络进行训练,得到场景分割检测网络。示例性地,标注数据集可以采用包含10000条视频的数据集,其中包括5000条训练视频,5000条测试视频。每个视频包含2到6种场景,其中的场景分割帧对应有视频稠密帧级别的标注。服务器将帧间相似度矩阵M输入初始场景分割检测网络中的第一卷积模块,即Z1=M,经过逐层的前向传播,得到最后分类层的输出P∈RT,其中P(i)表示第i帧为视频分割点的概率。服务器可以以Fp=-logP(k)为损失函数,利用误差回传算法对损失函数进行优化,直至达到预设训练目标的情况下,得到训练完成的场景分割检测网络。进而,服务器即可利用训练完成的场景分割点检测网络来预测视频帧集合中每个视频帧为场景分割帧的概率,即每个视频帧对应的场景分割概率。
S1032、根据场景分割概率,确定出场景分割帧。
本申请实施例中,场景分割概率表征了每个视频帧为场景分割帧的概率,服务器可以根据预先设定的阈值,结合场景分割概率,从视频帧集合中确定出场景分割帧;也可以对场景分割帧进行排序,将场景分割概率大的视频帧确定为场景分割帧。具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,场景分割帧的时间精度对应于S101中抽帧处理的采样率,示例性地,如S101中抽帧得到视频帧的采样率是1秒1帧,则场景分割帧的时间精度为1秒。
S104、基于场景分割帧对待处理视频进行场景分割,得到场景分割结果。
本申请实施例中,服务器可以直接基于场景分割帧,对待处理视频进行场景分割,得到待处理视频中的不同场景对应的视频片段,作为场景分割结果。
在一些实施例中,服务器也可以基于场景分割帧,结合待处理视频中其他维度上的视频信息,如文字信息、音频信息等,对待处理视频进行场景分割,得到场景分割结果。
示例性地,上述的文本信息可以是待处理视频中包含的标志性文字信息。服务器可以在场景分割帧的基础上,结合待处理视频中的标志性文字信息,如待处理视频主体画面中的建筑物标志文字、背景装饰文字等等,将包含相同文本信息的视频帧作为同一场景下的视频片段,对场景分割帧对应的初步分割结果进行调整,得到场景分割结果。
示例性地,上述的文本信息也可以是待处理视频中包含的字幕信息,服务器可以在场景分割帧的基础上,利用基于人工智能的自然语言处理模型,结合待处理视频中的字幕信息进行上下文语义理解与分析,将字幕信息属于上下文关系的视频帧作为同一场景下的视频片段,对场景分割帧对应的初步分割结果进行调整,得到场景分割结果。
示例性地,上述的音频信息可以是待处理视频中的背景音,服务器可以将相同背景音,如背景音乐或背景环境音的视频帧作为同一场景下的视频片段。
示例性地,上述的音频信息也可以是视频中人物的语音特征,服务器可以将相同语音特征,如同一人物的持续语音的相邻视频帧,作为同一场景下的视频片段。
在一些实施例中,服务器也可以利用对像素点空间位置变化的检测,得到视频帧中人或物体的动作轨迹,根据动作轨迹等与时间变化关联性较强的特征,结合场景分割帧进行场景分割,具体的根据实际情况进行选择,本申请实施例不作限定。
可以理解的是,本申请实施例以帧级粒度进行特征提取,并通过构造帧间相似度矩阵记录各个视频帧之间的相似信息,进而可以基于帧间相似度矩阵进行场景变化预测,得到场景分割帧,实现了将相关技术中基于划分视频片段并聚类进行场景分割问题,转换为场景分割帧的检测问题,从而减少了较差的视频片段质量对场景分割精度的影响,提高了场景分割的准确性;并且,本申请实施例直接针对视频帧进行相似度信息提取与预测处理,减少了生成视频片段的工作量,从而提高了场景分割的效率。
在一些实施例中,基于图3-图7中的任一个,如图9所示,S101可以通过执行S1011-S1012来实现,将结合各步骤进行说明。
S1011、对每个视频帧进行至少一种方式的特征提取,得到每个视频帧对应的至少一个单特征。
本申请实施例中,单一特征提取方式得到的特征往往只适用于变化较为单一的视频场景,服务器通过对待处理视频抽帧,得到视频帧集合后,可以以至少一种特征提取方式对视频帧集合中的每个视频帧进行特征提取,得到每个视频帧对应与每种特征提取方式的单特征,从而得到每个视频帧对应的至少一个单特征。
在一些实施例中,服务器可以通过至少一种特征提取模型来对每个视频帧进行特征提取,得到至少一个单特征。示例性地,至少一个特征提取模型可以包括:CLIP模型、SWIN模型与EfficientNet模型。对于给定的一帧视频帧I,服务器可以将其分别输入至CLIP模型、SWIN模型与EfficientNet模型中,利用CLIP模型、SWIN模型与EfficientNet模型中的特征提取分支,对视频帧I进行特征提取,得到三种单特征,过程如公式(6)所示,如下:
Figure BDA0003286574950000181
公式(6)中,CLIP、SWIN与EfficientNet分别表示对应的网络模型,fc表示CLIP模型对视频帧I进行特征提取得到的单特征,fs表示SWIN模型对视频帧I进行特征提取得到的单特征,fe表示EfficientNet模型对视频帧I进行特征提取得到的单特征。其中,
Figure BDA0003286574950000182
dc,ds,de分别表示对应单特征的维度。也就是说,不同特征提取方式,如不同特征提取模型所提取得到的单特征的特征维度可能是不同的。
这里,CLIP模型和SWIN模型是通过语义和图像双模态的方式训练出来的,所以CLIP模型和SWIN模型提取出的单特征带有高层的语义特征,而EfficientNet模型侧重于提取出图像本身的底层特征,这样,通过上述多个模型的特征提取,能够覆盖视频帧中更多复杂场景的情况。
这里,需要说明的是,服务器可以根据实际需求,如性能、速度或特征精度的需求等等,确定至少一种特征提取方式。至少一种特征提取方式不限于利用上述示例中的三种特征提取模型进行提取,可以是任意至少一种特征提取方式或特征提取模型对应的提取方式组合,从而提高至少一种特征提取方式的灵活性和可扩展性。
S1012、对至少一个单特征进行特征融合,得到每个视频帧对应的特征向量。
本申请实施例中,服务器可以通过将至少一个单特征进行特征融合,将至少一个单特征合并为一个特征向量。
在一些实施例中,服务器可以以相同的权重对至少一个单特征进行特征融合,在一些实施例中,服务器也可以为每个单特征进行不同权重的加权融合,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,服务器可以通过注意力机制来得到每个单特征用于融合的权重。服务器可以将至少一个单特征映射到统一的特征维度,得到至少一个映射单特征;对至少一个映射单特征进行特征拼接与平均池化处理,得到平均特征;根据平均特征,基于注意力机制计算至少一个映射单特征中每个映射单特征对应的融合权重;根据每个映射单特征对应的融合权重,对至少一个映射单特征进行加权与拼接,得到特征向量。
示例性地,服务器可以利用SE(Squeeze-and-Excitation)网络模型来融合至少一种单特征。SE网络模型本身可以通过空间注意力机制对图像中不同区域的信息进行调制,在本申请实施例中,SE网络模型可以用于调制三种单模型特征的融合权重,以使得不同模型提取得到的单特征能够自适应的融合。
示例性地,至少一个单特征可以是CLIP模型提取得到的单特征fc、SWIN模型提取得到的单特征fs、以及EfficientNet模型提取得到的单特征fe,服务器可以通过公式(7),将至少一个单特征映射到统一的特征维度,得到至少一个映射单特征,如下:
Figure BDA0003286574950000201
公式(7)中,FC代表全连接层,fc'、fs'与fe'分别为fc、fs与fe对应的映射单特征,其中,fc'∈Rd,fs'∈Rd,fe'∈Rd
在一些实施例中,基于公式(7),服务器可以通过公式(8),对至少一个映射单特征进行特征拼接与平均池化处理,得到平均特征,如下:
Figure BDA0003286574950000202
公式(8)中,Concat、AvgPooling分别表示拼接层和平均池化层,fcon∈Rd×3表示特征拼接的结果,favg∈Rd表示平均特征。
在一些实施例中,基于公式(8),服务器可以通过公式(9),根据平均特征,计算至少一个映射单特征中每个映射单特征对应的融合权重,并根据每个映射单特征对应的融合权重,对至少一个映射单特征进行加权。如下:
Figure BDA0003286574950000203
公式(9)中,SubNet表示一个小型的神经网络;在一些实施例中,SubNet可以通过包含两层全连接层的网络来实现。attc、atts与atte分别表示SubNet根据平均特征favg输出的每个映射单特征fc'、fs'与fe'对应的融合权重,f”c∈Rd,f”∈Rd s,f”e∈Rd分别表示重新加权过后得到的单特征。
在一些实施例中,基于公式(9),服务器可以通过公式(10),对加权后的至少一个映射单特征进行拼接,得到特征向量,如下:
f=Concat(fc”,fs”,fe”) (10)
公式(10)中,Concat表示特征拼接,f∈R3d为由加权后的映射单模型特征串联得到的最终融合特征,即特征向量。
可以理解的是,通过对视频帧进行至少一种方式的特征提取与融合,可以使得得到的特征向量包含更多的特征信息,从而能够适应实际应用场景中视频的复杂的变化场景,从而可以提高利用特征向量的场景分割检测网络的鲁棒性,以及视频场景分割的准确性。
目前,在相关技术中,为了兼顾速度,往往视频帧采样的频率不会太高,这就限制了场景分割帧的检测精度。本申请人在大量实验中观察到,在局部时间范围内,实际的场景分割帧附近的视频帧在亮度、颜色等属性上的变化程度相比非场景分割帧要更为剧烈。基于此观察,本申请实施例提供一种基于像素颜色的场景分割方法,能够将误差较大的粗糙分割帧精调到误差较小的精细分割帧,提高场景分割的准确性。将在下方进行说明。
在一些实施例中,基于图3-图7中的任一个,如图10所示,S104可以通过执行S1041-S1044来实现,将结合各步骤进行说明。
S1041、获取场景分割帧在待处理视频中对应的分割时间点。
S1042、根据包含分割时间点的预设时间范围,对待处理视频进行抽帧,得到更新视频帧集合;更新视频帧集合抽帧频率高于视频帧集合的抽帧频率。
本申请实施例中,服务器可以将场景分割帧在待处理视频中对应的时间点作为分割时间点,获取分割时间点并对分割时间点附近的视频进行采样率更高的抽帧,得到更新视频帧集合。
在一些实施例中,场景分割帧可以是通过一秒一次的稀疏采样得到的视频帧,场景分割帧对应的分割时间点为第t秒。服务器可以将第t秒前后各0.5秒内作为预设时间范围,以待处理视频的原始帧率作为抽帧频率,抽取第t秒前后各0.5秒内的稠密视频帧作为更新视频帧,假定待处理视频I的原始帧率为25帧每秒,则可抽取得到25帧更新视频帧,每一更新视频帧的时间精度为0.04秒,从而得到25帧的更新视频帧集合{I1,I2,…,I25}。可以看出,更新视频帧集合的抽帧频率与时间精度高于视频帧集合,因此,在场景分割帧的粗定位基础上,可以通过更新视频帧集合定位出更精细的分割帧,以提高场景分割的准确性。
S1043、根据更新视频帧集合的每个更新视频帧包含的像素颜色值,从更新视频帧集合中确定出场景分割帧对应的更新分割帧。
S1044、根据更新分割帧,对待处理视频进行场景分割,得到场景分割结果。
本申请实施例中,服务器可以将更新视频帧输入神经网络,通过大量网络运算来从更新视频帧中预测出更新分割帧。为了减少运算量,服务器可以根据每个更新视频帧包含的像素颜色值,通过计算像素颜色距离的方式,从更新视频帧集合中找到颜色剧烈变化的更新视频帧,确定为场景分割帧对应的更新分割帧。
在一些实施例中,服务器可以根据同一像素位置在相邻的更新视频帧中对应的像素颜色值,计算像素颜色距离,基于像素颜色距离来评估像素颜色在时间维度上的变化,得到更新分割帧。
在一些实施例中,为了使得基于颜色分割的结果更符合人眼的直观感受,服务器可以将每个更新视频帧的像素颜色空间,如原始的RGB颜色空间转换为直观颜色空间;这里,直观颜色空间的空间模型通过色调、饱和度与亮度来表示。示例性地,直观颜色空间可以是HSV(Hue,Saturation,Value)空间。相比RGB颜色空间,HSV颜色空间直接刻画画面的色调、饱和度、明度属性,与人眼的感知更相符。假定第i个更新视频帧上的某一像素的RGB值为(ri,gi,bi),转换为HSV空间后的HSV值为(hi,si,vi)。
在一些实施例中,以在HSV空间中进行像素颜色距离为例,对于每个更新视频帧,服务器可以通过公式(11),根据像素颜色值,计算每个更新视频帧与其对应的前后两个相邻更新视频帧间的像素颜色距离;如下:
Figure BDA0003286574950000231
公式(11)中,针对每个像素位置,(hi,si,vi)为第i个更新视频帧中该像素位置对应的HSV像素值,(hi-1,si-1,vi-1)为第i-1个更新视频帧中该像素位置对应的HSV像素值,(hi+1,si+1,vi+1)为第i+1个更新视频帧中该像素位置对应的HSV像素值;d1为该像素位置上第i-1个更新视频帧与第i个更新视频帧之间的像素颜色距离;d2为该像素位置上第i个更新视频帧与第i+1个更新视频帧之间的像素颜色距离;服务器可以通过公式(11),对每个像素位置进行相同的处理,得到每个像素位置上的像素颜色距离,最终通过对每个像素位置上的像素颜色距离进行均值化处理的方式,得到每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离。
需要说明的是,上述的通过计算每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色值的差异,得到像素颜色距离的方法,是根据像素颜色值进行像素颜色距离计算的一种示例性计算方式,实际应用中也可以采用其他的距离计算方式来实现,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,基于上述计算得到的每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离d1和d2,服务器可以对像素颜色距离进行均值化处理,作为每个视频帧对应的颜色变化度;示例性地,均值化处理的方法可以如公式(12)所示,如下:
Figure BDA0003286574950000232
公式(12)中,d为第i个更新视频帧对应的颜色变化度。这里,服务器也可以采用其他均值化方法,如方差平均,指数平均等方法得到每个视频帧对应的颜色变化度,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,在更新场景视频帧集合中,服务器可以将最大的颜色变化度对应的更新视频帧,确定为更新场景分割帧。
可以理解的是,相对于将每一帧图片输入神经网络,计算每一帧是否是分割点的概率,通过计算相邻帧之间像素值的变换,直接在视频帧上直接进行操作,省去了将视频帧输入神经网络,由神经网络参与计算并预测出分割点的过程,从而大大减少了计算量,提高了场景分割的效率。并且,由于计算帧间色彩变化计算量较小,因此可以通过稠密采样,提高更新场景分割帧的精度。进一步的,通过将像素颜色空间从RGB空间转换至HSV空间,可以使得场景分割结果更符合人眼直观的体验效果,从而提高了场景分割的准确性。
下面,将结合图11中示出的S301-S304的过程,介绍本申请实施例在一些实际场景中的示例性应用。
S301、利用多种特征提取模型,提取待处理视频中每一帧图片的特征。
S301中,服务器可以对待处理视频进行采样抽帧,将采样得到的帧图片,即视频帧分别输入到多种特征提取模型中进行单特征提取,并将提取到的单特征进行融合,得到待处理视频中每一帧图片的特征,也即每个视频帧对应的特征向量。
这里,S301的过程描述与上述的S1011-S1012的过程描述一致,此处不再赘述。
S302、由每一帧图片的特征构造帧间相似度矩阵。
S302中,S302的过程描述与上述的S102的过程描述一致,此处不再赘述。
S303、将帧间相似度矩阵输入场景切换点检测网络,得到粗糙分割点。
S303中,场景切换点检测网络相当于场景分割检测网络,粗糙分割点相当于场景分割帧,S303的过程与上述的S102的过程描述一致,此处不再赘述。
S304、基于HSV颜色空间变化检测的后处理策略,确认最终的场景分割点。
S304中,服务器可以在HSV颜色空间中,通过检测粗糙分割点附近的色彩变化最大值点,来确认最终的场景分割点,即更新场景分割帧。S304的过程与S1041-S1044的过程描述一致,此处不再赘述。
S304之后,服务器可以根据最终的场景分割点完成视频场景分割。
可以看出,本申请实施例基于每个视频帧的特征向量构建表征视频帧间相似信息的帧间相似性矩阵,并通过场景切换点检测网络处理视频帧间的相似性信息,预测出场景发生变化的分割点,将现有的视频片段的分割精度提高到帧级分割,且无需额外进行视频片段的划分的计算量,从而提高了场景分割的效率与准确性。并且,为了适应线上视频复杂的变化场景,融合了多种先进的特征,从而使得场景分割能够覆盖更多的复杂变化场景。进一步的,通过基于像素颜色计算的粗检测+精细调节的策略,避免了对处理稠密采样数据带来的时间成本,满足了精度和时间效率的要求,从而进一步提高了场景分割的效率与准确性。
在一些实施例中,本申请的各个实施例中场景分割方法的效果可以通过实验进一步说明。以下实验包含5000条训练视频,5000条测试视频的数据集上进行,使用平均交并比(Mean Intersection over Union,MIoU)指标进行评估,实验结果如表1所示,如下:
方法 MIoU
基线 82.1%
基线+后处理策略 86.1%
基线+后处理策略+多特征融合 89.2%
表1
表1中,基线方法为不包含上述的多特征融合与基于像素颜色值的后处理策略的方法,基线方法的MIoU在82%左右。加上后处理策略后,MIoU提升至86.1%,说明后处理策略大幅度提升了场景分割帧的检测精度;加上多特征融合后,MIoU提升至89.2%,说明使用多特征融合相比单特征具有明显的优势,能够进一步提升场景分割的准确性。
下面继续说明本申请实施例提供的视频场景分割装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的视频场景分割装置255中的软件模块可以包括:提取模块2551、计算模块2552、预测模块2553与分割模块2554,其中,
所述提取模块2551,用于对待处理视频进行抽帧,得到视频帧集合;并对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量;
所述计算模块2552,用于基于所述特征向量,构造帧间相似度矩阵;所述帧间相似度矩阵表征视频帧之间的相似程度;
所述预测模块2553,用于基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧;
所述分割模块2554,用于基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果。
在一些实施例中,所述提取模块2551,还用于对所述每个视频帧进行至少一种方式的特征提取,得到所述每个视频帧对应的至少一个单特征;对所述至少一个单特征进行特征融合,得到所述每个视频帧对应的特征向量。
在一些实施例中,所述提取模块2551,还用于将至少一个单特征映射到统一的特征维度,得到至少一个映射单特征;对至少一个映射单特征进行特征拼接与平均池化处理,得到平均特征;根据所述平均特征,基于注意力机制计算所述至少一个映射单特征中每个映射单特征对应的融合权重;根据所述每个映射单特征对应的融合权重,对所述至少一个映射单特征进行加权与拼接,得到所述特征向量。
在一些实施例中,所述计算模块2552,还用于分别计算所述每个视频帧与所述视频帧集合中全部视频帧的特征向量之间的距离,得到所述每个视频帧对应的至少一个特征距离;根据所述每个视频帧对应的至少一个特征距离,构造得到特征距离矩阵;对所述特征距离矩阵进行归一化处理,得到所述帧间相似度矩阵。
在一些实施例中,所述预测模块2553,还用于利用场景分割检测网络,对所述帧间相似度矩阵进行卷积处理与分类预测,得到所述每个视频帧对应的场景分割概率;根据所述场景分割概率,确定出所述场景分割帧。
在一些实施例中,所述场景分割检测网络包括:分类模块与至少两个卷积模块;所述预测模块2553,还用于通过所述至少两个卷积模块,对所述帧间相似度矩阵进行多层卷积处理,得到帧嵌入向量;所述帧嵌入向量包含所述每个视频帧对应的上下文信息;通过所述分类模块,基于所述帧嵌入向量进行分类预测,得到所述每个视频帧对应的场景分割概率。
在一些实施例中,所述至少两个卷积模块包括:第一卷积模块与至少一个第二卷积模块,所述第一卷积模块对应的特征维度高于所述第二卷积模块对应的特征维度;所述预测模块2553,还用于通过所述第一卷积模块,对所述帧间相似度矩阵进行卷积处理,得到所述帧间相似度矩阵中每个矩阵元素对应的多维特征向量,从而得到第一特征矩阵;对所述第一特征矩阵进行维度变换,得到第二特征矩阵;通过所述至少一个第二卷积模块,对所述第二特征矩阵进行卷积处理,得到所述帧嵌入向量。
在一些实施例中,所述分割模块2554,还用于获取所述场景分割帧在所述待处理视频中对应的分割时间点;根据包含所述分割时间点的预设时间范围,对所述待处理视频进行抽帧,得到更新视频帧集合;所述更新视频帧集合抽帧频率高于所述视频帧集合的抽帧频率;根据所述更新视频帧集合的每个更新视频帧包含的像素颜色值,从所述更新视频帧集合中确定出所述场景分割帧对应的更新分割帧;根据所述更新分割帧,对所述待处理视频进行场景分割,得到场景分割结果。
在一些实施例中,所述分割模块2554,还用于计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离;根据所述像素颜色距离,从所述更新视频帧集合中确定出所述更新分割帧。
在一些实施例中,所述分割模块2554,还用于所述计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离之前,将所述每个更新视频帧的像素颜色空间转换为直观颜色空间;所述直观颜色空间的空间模型通过色调、饱和度与亮度来表示。
在一些实施例中,所述分割模块2554,还用于对所述像素颜色距离进行均值化处理,作为所述每个视频帧对应的颜色变化度;在所述更新场景视频帧集合中,将最大的颜色变化度对应的更新视频帧,确定为所述更新场景分割帧。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机程序或可执行指令,在计算机程序或可执行指令在电子设备上运行的情况下,电子设备执行如本申请实施例中所述的视频场景分割方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的视频场景分割方法,例如,如图3-7、或图9-11中示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,本申请实施例以帧级粒度进行特征提取,并通过构造帧间相似度矩阵记录各个视频帧之间的相似信息,进而可以基于帧间相似度矩阵进行场景变化预测,得到场景分割帧,实现了将相关技术中基于划分视频片段并聚类进行场景分割问题,转换为场景分割帧的检测问题,从而减少了较差的视频片段质量对场景分割精度的影响,提高了场景分割的准确性;并且,本申请实施例直接针对视频帧进行相似度信息提取与预测处理,减少了生成视频片段的工作量,从而提高了场景分割的效率。并且,通过对视频帧进行至少一种方式的特征提取与融合,可以使得得到的特征向量包含更多的特征信息,从而能够适应实际应用场景中视频的复杂的变化场景,从而可以提高利用特征向量的场景分割检测网络的鲁棒性,以及视频场景分割的准确性。并且,通过计算相邻帧之间像素值的变换,直接在视频帧上直接进行操作,省去了将视频帧输入神经网络,由神经网络参与计算并预测出分割点的过程,从而大大减少了计算量,提高了场景分割的效率。并且,由于计算帧间色彩变化计算量较小,因此可以通过稠密采样,提高更新场景分割帧的精度。进一步的,通过将像素颜色空间从RGB空间转换至HSV空间,可以使得场景分割结果更符合人眼直观的体验效果,从而提高了场景分割的准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种视频场景分割方法,其特征在于,包括:
对待处理视频进行抽帧,得到视频帧集合;并对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量;
基于所述特征向量,构造帧间相似度矩阵;所述帧间相似度矩阵表征视频帧之间的相似程度;
基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧;
基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量,包括:
对所述每个视频帧进行至少一种方式的特征提取,得到所述每个视频帧对应的至少一个单特征;
对所述至少一个单特征进行特征融合,得到所述每个视频帧对应的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少一个单特征进行特征融合,得到所述每个视频帧对应的特征向量,包括:
将至少一个单特征映射到统一的特征维度,得到至少一个映射单特征;
对至少一个映射单特征进行特征拼接与平均池化处理,得到平均特征;
根据所述平均特征,基于注意力机制计算所述至少一个映射单特征中每个映射单特征对应的融合权重;
根据所述每个映射单特征对应的融合权重,对所述至少一个映射单特征进行加权与拼接,得到所述特征向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述特征向量,构造帧间相似度矩阵,包括:
分别计算所述每个视频帧与所述视频帧集合中全部视频帧的特征向量之间的距离,得到所述每个视频帧对应的至少一个特征距离;
根据所述每个视频帧对应的至少一个特征距离,构造得到特征距离矩阵;
对所述特征距离矩阵进行归一化处理,得到所述帧间相似度矩阵。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧,包括:
利用场景分割检测网络,对所述帧间相似度矩阵进行卷积处理与分类预测,得到所述每个视频帧对应的场景分割概率;
根据所述场景分割概率,确定出所述场景分割帧。
6.根据权利要求5所述的方法,其特征在于,所述场景分割检测网络包括:分类模块与至少两个卷积模块;所述利用场景分割检测网络,对所述帧间相似度矩阵进行卷积处理与分类预测,得到所述每个视频帧对应的场景分割概率,包括:
通过所述至少两个卷积模块,对所述帧间相似度矩阵进行多层卷积处理,得到帧嵌入向量;
通过所述分类模块,基于所述帧嵌入向量进行分类预测,得到所述每个视频帧对应的场景分割概率。
7.根据权利要求6所述的方法,其特征在于,所述至少两个卷积模块包括:第一卷积模块与至少一个第二卷积模块,所述第一卷积模块对应的特征维度高于所述第二卷积模块对应的特征维度;所述通过所述至少两个卷积模块,对所述帧间相似度矩阵进行多层卷积处理,得到帧嵌入向量,包括:
通过所述第一卷积模块,对所述帧间相似度矩阵进行卷积处理,得到所述帧间相似度矩阵中每个矩阵元素对应的多维特征向量,从而得到第一特征矩阵;
对所述第一特征矩阵进行维度变换,得到第二特征矩阵;
通过所述至少一个第二卷积模块,对所述第二特征矩阵进行卷积处理,得到所述帧嵌入向量。
8.根据权利要求1、3或7中任一项所述的方法,其特征在于,所述基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果,包括:
获取所述场景分割帧在所述待处理视频中对应的分割时间点;
根据包含所述分割时间点的预设时间范围,对所述待处理视频进行抽帧,得到更新视频帧集合;所述更新视频帧集合抽帧频率高于所述视频帧集合的抽帧频率;
根据所述更新视频帧集合的每个更新视频帧包含的像素颜色值,从所述更新视频帧集合中确定出所述场景分割帧对应的更新分割帧;
根据所述更新分割帧,对所述待处理视频进行场景分割,得到场景分割结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述更新视频帧集合的每个更新视频帧包含的像素颜色值,从所述更新视频帧集合中确定出所述场景分割帧对应的更新分割帧,包括:
根据所述像素颜色值,计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离;
根据所述像素颜色距离,从所述更新视频帧集合中确定出所述更新分割帧。
10.根据权利要求9所述的方法,其特征在于,所述计算所述每个更新视频帧与其对应的两个相邻更新视频帧之间的像素颜色距离之前,所述方法还包括:
将所述每个更新视频帧的像素颜色空间转换为直观颜色空间;所述直观颜色空间的空间模型通过色调、饱和度与亮度来表示。
11.根据权利要求10所述的方法,其特征在于,所述根据所述像素颜色距离,从所述更新视频帧集合中确定出所述更新场景分割帧,包括:
对所述像素颜色距离进行均值化处理,作为所述每个视频帧对应的颜色变化度;
在所述更新场景视频帧集合中,将最大的颜色变化度对应的更新视频帧,确定为所述更新场景分割帧。
12.一种视频场景分割装置,其特征在于,包括:
提取模块,用于对待处理视频进行抽帧,得到视频帧集合;并对所述视频帧集合中的每个视频帧进行特征提取,得到所述每个视频帧对应的特征向量;
计算模块,用于基于所述特征向量,构造帧间相似度矩阵;所述帧间相似度矩阵表征视频帧之间的相似程度;
预测模块,用于基于所述帧间相似度矩阵进行场景变化预测,从所述视频帧集合中确定出场景分割帧;
分割模块,用于基于所述场景分割帧对所述待处理视频进行场景分割,得到场景分割结果。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时,实现权利要求1至11中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至11中任一项所述的方法。
CN202111149863.1A 2021-09-29 2021-09-29 视频场景分割方法、装置、设备及计算机可读存储介质 Pending CN114283351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111149863.1A CN114283351A (zh) 2021-09-29 2021-09-29 视频场景分割方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111149863.1A CN114283351A (zh) 2021-09-29 2021-09-29 视频场景分割方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114283351A true CN114283351A (zh) 2022-04-05

Family

ID=80868610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111149863.1A Pending CN114283351A (zh) 2021-09-29 2021-09-29 视频场景分割方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114283351A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782866A (zh) * 2022-04-20 2022-07-22 山东省计算中心(国家超级计算济南中心) 地理标记视频的相似度确定方法、装置、电子设备及介质
CN116089653A (zh) * 2023-03-20 2023-05-09 山东大学 一种基于场景信息的视频检索模型
CN116546274A (zh) * 2023-07-07 2023-08-04 荣耀终端有限公司 视频切分方法、选取方法、合成方法及相关装置
CN116777914A (zh) * 2023-08-22 2023-09-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质
CN117152669A (zh) * 2023-10-30 2023-12-01 华中科技大学 一种跨模态时域视频定位方法及系统
CN117710777A (zh) * 2024-02-06 2024-03-15 腾讯科技(深圳)有限公司 模型训练方法、关键帧抽取方法及装置
CN117750121A (zh) * 2023-02-22 2024-03-22 书行科技(北京)有限公司 视频处理方法及装置、电子设备及计算机可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782866B (zh) * 2022-04-20 2024-03-08 山东省计算中心(国家超级计算济南中心) 地理标记视频的相似度确定方法、装置、电子设备及介质
CN114782866A (zh) * 2022-04-20 2022-07-22 山东省计算中心(国家超级计算济南中心) 地理标记视频的相似度确定方法、装置、电子设备及介质
CN117750121A (zh) * 2023-02-22 2024-03-22 书行科技(北京)有限公司 视频处理方法及装置、电子设备及计算机可读存储介质
CN116089653A (zh) * 2023-03-20 2023-05-09 山东大学 一种基于场景信息的视频检索模型
CN116089653B (zh) * 2023-03-20 2023-06-27 山东大学 一种基于场景信息的视频检索方法
CN116546274A (zh) * 2023-07-07 2023-08-04 荣耀终端有限公司 视频切分方法、选取方法、合成方法及相关装置
CN116546274B (zh) * 2023-07-07 2023-10-20 荣耀终端有限公司 视频切分方法、选取方法、合成方法及相关装置
CN116777914B (zh) * 2023-08-22 2023-11-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质
CN116777914A (zh) * 2023-08-22 2023-09-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质
CN117152669A (zh) * 2023-10-30 2023-12-01 华中科技大学 一种跨模态时域视频定位方法及系统
CN117152669B (zh) * 2023-10-30 2024-02-06 华中科技大学 一种跨模态时域视频定位方法及系统
CN117710777A (zh) * 2024-02-06 2024-03-15 腾讯科技(深圳)有限公司 模型训练方法、关键帧抽取方法及装置
CN117710777B (zh) * 2024-02-06 2024-06-04 腾讯科技(深圳)有限公司 模型训练方法、关键帧抽取方法及装置

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN114283351A (zh) 视频场景分割方法、装置、设备及计算机可读存储介质
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
US12100192B2 (en) Method, apparatus, and electronic device for training place recognition model
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN111353392B (zh) 换脸检测方法、装置、设备及存储介质
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN113449700B (zh) 视频分类模型的训练、视频分类方法、装置、设备及介质
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN111368943A (zh) 图像中对象的识别方法和装置、存储介质及电子装置
CN112116684A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN115083435A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN114912540A (zh) 迁移学习方法、装置、设备及存储介质
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
Orhei Urban landmark detection using computer vision
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071553

Country of ref document: HK