CN116091966A

CN116091966A - 视频特征提取方法、视频满意度评价方法及相关装置

Info

Publication number: CN116091966A
Application number: CN202211669060.3A
Authority: CN
Inventors: 宋先阳; 狄东林; 崔晟嘉; 王啸; 张钋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-09

Abstract

本公开提供了一种视频特征提取方法、视频满意度评价方法及相关装置，涉及深度学习、对象识别、自然语言处理、大数据等人工智能技术领域。该方法包括：利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；对由超边连接的多个节点进行超图卷积操作，得到更新后节点；对各更新后节点所对应的图像特征进行加权平均，得到更新后子超图；将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。该方法可以提取到更全面、更具代表性的视频特征。

Description

视频特征提取方法、视频满意度评价方法及相关装置

技术领域

本公开涉及图像处理领域，具体涉及深度学习、对象识别、自然语言处理、大数据等人工智能技术领域，尤其涉及一种视频特征提取和视频满意度评价方法，以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

瀑布式视频流将主要是短视频的大量视频以流式的方式不断的推送给用户，使得用户在浏览视频的过程中可以进行关注、点赞、评论、转发、关注等操作。

而使用问卷调查的方式对视频信息流应用进行用户体验评估虽然可以得到用户对应用整体的满意度，而常规的仅基于视频图像特征的方案，因其所能提供的图像特征比较简单，并不能用于更加细致的反映用户对视频流的满意程度。

因此，如何从视频中提取出更具有代表性的特征，是本领域技术人员亟待解决的问题。

发明内容

本公开实施例提出了一种视频特征提取、视频满意度评价方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种视频特征提取方法，包括：利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；对由超边连接的多个节点进行超图卷积操作，得到更新后节点；对各更新后节点所对应的图像特征进行加权平均，得到更新后子超图；将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。

第二方面，本公开实施例提出了一种视频特征提取装置，包括：连续图像帧组封装单元，被配置成利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；初始子超图构建单元，被配置成将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；超图卷积操作单元，被配置成对由超边连接的多个节点进行超图卷积操作，得到更新后节点；子超图更新单元，被配置成对各更新后节点所对应的图像特征进行加权平均，得到更新后子超图；连续图像帧组更新单元，被配置成将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。

第三方面，本公开实施例提出了一种视频满意度评价方法，包括：获取目标视频的包含全局图像特征在内的视频特征，全局图像特征根据如第一方面描述的视频特征提取方法得到；通过预设的视频满意度评价模型，确定与视频特征对应的视频满意度；其中，视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

第四方面，本公开实施例提出了一种视频满意度评价装置，包括：视频特征获取单元，被配置成获取目标视频的包含全局图像特征在内的视频特征；其中，全局图像特征根据如第二方面描述的视频特征提取装置得到；视频满意度确定单元，被配置成通过预设的视频满意度评价模型，确定与视频特征对应的视频满意度；其中，视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

第五方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面描述的视频特征提取方法或如第三方面描述的视频满意度评价方法。

第六方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面描述的视频特征提取方法或如第三方面描述的视频满意度评价方法。

第七方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面描述的视频特征提取方法或如第三方面描述的视频满意度评价方法。

本公开实施例提供的视频特征提取方案，首先通过滑动窗口获取由构成目标视频的不同连续图像帧构成的不同连续图像帧组，然后针对每个连续图像帧组，将每个图像帧均视为节点，并在相似节点之间建立超边连接，接着通过超边框架、超图卷积处理对超边覆盖节点的图像特征进行处理，使得经处理后得到的图像特征能够更好体现相邻视频帧之间的高阶时序关系，使得最终得到的全局图像特征能够更好的代表目标视频。

本公开实施例提供的视频满意度评价方案，针对待评价满意度的目标视频，通过获取该目标视频的包含全局图像特征在内的视频特征，得以能够获取到更全面、更能代表所属视频的视频特征，并借助预设的视频满意度评价模型得以输出更准确的视频满意度评价。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构；

图2为本公开实施例提供的一种视频特征提取方法的流程图；

图3为本公开实施例提供的一种利用滑动窗口获取连续图像帧组的方法的流程图；

图4为本公开实施例提供的一种在相似节点之间建立超边的方法的流程图；

图5为本公开实施例提供的一种超图卷积操作的方法的流程图；

图6为本公开实施例提供的一种对连续图像帧组进行超图卷积操作的流程示意图；

图7为本公开实施例提供的一种拼接全局图像特征和文本特征得到综合视频特征的方法的流程图；

图8为本公开实施例提供的一种基于文本信息提取得到文本特征的示意图；

图9为本公开实施例提供的一种视频满意度评价方法的流程图；

图10为本公开实施例提供的一种基于视频的综合视频特征对相应视频进行满意度评价的方法的流程图；

图11为本公开实施例提供的一种视频特征提取装置的结构框图；

图12为本公开实施例提供的一种视频满意度评价装置的结构框图；

图13为本公开实施例提供的一种适用于执行视频特征提取方法和/或视频满意度评价方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本申请的视频特征提取方法、视频满意度评价方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如视频特征提取类应用、满意度标注类应用、模型训练类应用、满意度评价类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供从目标视频中提取出视频特征的视频特征提取类应用为例，服务器105在运行该视频特征提取类应用时可实现如下效果：首先，通过网络104接收终端101、102、103所指定的目标视频；然后，利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；接下来，将该连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；下一步，对由该超边连接的多个节点进行超图卷积操作，得到更新后节点；继续，对各该更新后节点所对应的图像特征进行加权平均，得到更新后子超图；最后，将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。

进一步的，在服务器105通过上述应用提取出该目标视频的视频特征后，还可以基于提取出的视频特征对目标视频的用户满意度进行评价，例如服务器105在运行满意度评价应用时可实现如下效果：首先，获取目标视频的包含全局图像特征在内的视频特征；然后，通过预设的视频满意度评价模型，确定与该视频特征对应的视频满意度，该视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，该视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

由于为训练得到视频满意度评价模型以及进行视频特征提取需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的视频特征提取方法和视频满意度评价方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，视频特征提取装置和和视频满意度评价装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力和运算资源时，终端设备101、102、103也可以通过其上安装的视频特征提取类应用或视频满意度评价类应用完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。相应的，视频特征提取装置和视频满意度评价装置也可以设置于终端设备101、102、103中。在此种情况下，示例性系统架构100也可以不包括服务器105和网络104。

当然，用于训练得到视频满意度评价模型的服务器可以不同于调用训练好的视频满意度评价模型来使用的服务器。特殊的，经由服务器105训练得到的视频满意度评价模型也可以通过模型蒸馏的方式得到适合置入终端设备101、102、103的轻量级的视频满意度评价模型，即可以根据实际需求的识别准确度灵活选择使用终端设备101、102、103中的轻量级的视频满意度评价模型，还是选择使用服务器105中的较复杂的视频满意度评价模型。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本公开实施例提供的一种视频特征提取方法的流程图，其中流程200包括以下步骤：

步骤201：利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；

本步骤旨在由视频特征提取方法的执行主体(例如图1所示的服务器105)利用滑动窗口技术创建出的滑动窗口以滑动的方式将处于窗口覆盖内的连续图像帧封装为连续图像帧组。

其中，连续图像帧均为构成目标视频的图像帧，假定滑动窗口的窗口覆盖范围为10帧，也就意味着每连续10个图像帧将被封装为1个连续图像帧组，而滑动窗口的滑动通常是从首帧开始，以一个共有100帧的目标视频为例，若每次滑动的距离为1帧，将共能获取到90个不同的连续图像帧组，第1个连续图像帧组为第1帧到第10帧、第90个连续图像帧组为第91帧到第100帧。

需要说明的是，为了不遗漏，滑动窗口的滑动距离通常为1帧，但也不排除在某些场景下滑动窗口采用其它帧数作为滑动距离。

步骤202：将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；

在步骤201的基础上，本步骤旨在将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，以构建得到由超边连接多个具有相似性的节点的初始子超图。

超图是一种泛化的图结构，包含一组节点和超边。不同于简单图一条边包含两个节点，超边可以包含任意数量的节点。与只能建模对级连接关系的图结构相比，超图在建模复杂关系时具有显著优势。比如说，在一张超图中，节点表示研究者，超边表示多个作者共同署名的文章。这样，研究者之间合作关系越紧密，他们之间的超边就越多。

超图学习与图学习紧密相关，因为超图是一种泛化的图结构。类似于图学习，超图上的学习也可以看作在超图结构上的信息传播。从这个角度来说，图学习是超图学习的一个特例。不同于图学习，超图学习模型探索数据中的高阶关系，因此有更好的效果。

超图学习源自近几年流行的图神经网络，利用节点之间的边来进行信息的传递和共享，达到特征增强的效果。但与传统的图神经网络不同的是，超图中每一条边(即超边)可以连接任意多个节点，模型可以通过超边使节点之间共享更多的信息。

本公开正式借助超图的这一特性，将其应用在具有时序关联的连续图像帧组中，以期确定由图像帧充当节点的节点所对应图像帧在图像特征方面的共性，从而更好的提取出包含高阶时序特征的视频图像特征。

步骤203：对由超边连接的多个节点进行超图卷积操作，得到更新后节点；

在步骤202的基础上，本步骤旨在由上述执行主体对由超边连接的多个节点进行超图卷积操作，得到更新后节点。

其中，超图卷积操作是使由同一超边连接的各节点的图像特征聚合到超边形成超边特征，且超边特征会再次分散至每一个节点上来更新节点的原始图像特征，得到拥有更新后节点特征的更新后节点。

步骤204：对各更新后节点所对应的图像特征进行加权平均，得到更新后子超图；

在步骤203的基础上，本步骤旨在由上述执行主体对各更新后节点所对应的图像特征进行加权平均，使得处于一个连续图像帧组中的图像特征进行聚合，得到更新后子超图。

步骤205：将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。

在步骤204的基础上，本步骤旨在由上述执行主体将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，使得处于不同连续图像帧组中的图像特征也进行聚合，从而最终得到目标视频的全局图像特征。

本公开实施例提供的视频特征提取方法，首先通过滑动窗口获取由构成目标视频的不同连续图像帧构成的不同连续图像帧组，然后针对每个连续图像帧组，将每个图像帧均视为节点，并在相似节点之间建立超边连接，接着通过超边框架、超图卷积处理对超边覆盖节点的图像特征进行处理，使得经处理后得到的图像特征能够更好体现相邻视频帧之间的高阶时序关系，使得最终得到的全局图像特征能够更好的代表目标视频。

请参考图3，图3为本公开实施例提供的一种利用滑动窗口获取连续图像帧组的方法的流程图，即针对图2所示的流程200中的步骤201提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤201的方式得到一个新的完整实施例。其中流程300包括以下步骤：

步骤301：确定构成目标视频的连续图像帧集；

步骤302：建立覆盖预设数量的连续图像帧的目标滑动窗口；

在步骤301的基础上，本步骤旨在由上述执行主体建立覆盖预设数量的连续图像帧的目标滑动窗口。其中，该预设数量可以为5帧、10帧等固定值，也可以是根据目标视频的总帧数按一定比例关系换算得到的值，此处不做具体限定。

步骤303：将每次滑动目标滑动窗口所分别覆盖的连续图像帧装成为不同的连续图像帧组。

在步骤302的基础上，本步骤旨在由上述执行主体将每次滑动目标滑动窗口所分别覆盖的连续图像帧装成为不同的连续图像帧组。即将每次滑动后所覆盖的介于首帧和尾帧之间的所有连续图像帧均封装为连续图像帧组，由于每次滑动后的首帧、尾帧均不同，所以每次封装得到的连续图像帧组也必然不同。

本实施例通过步骤301-步骤303具体提供了一种如何通过滑动窗口将目标视频拆分为多个连续图像帧组的实现方案，具有较高的可行性和执行效率。

请参考图4，图4为本公开实施例提供的一种在相似节点之间建立超边的方法的流程图，即针对图2所示的流程200中的步骤202中的超边建立部分提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤202的方式得到一个新的完整实施例。其中流程400包括以下步骤：

步骤401：将连续图像帧组中的各图像帧均作为不同的节点；

步骤402：针对每个节点，采用K近邻算法确定与节点距离最接近的K个相似节点，K为大于1的正整数；

步骤403：在节点和K个相似节点之间建立超边。

本实施例通过步骤401-步骤403提供了一种基于K近邻算法确定相似节点来建立超边连接的实现方案，即通过分别针对每个节点，采用K近邻算法计算与其最接近的K个其它节点，从而将与其接近的这K个节点作为其相似节点，在这些具有相似性的节点之间建立超边连接。区别于其它确定节点相似性的实现方案，K近邻算法具有较低的计算复杂度和较好的使用效果。

请参考图5，图5为本公开实施例提供的一种超图卷积操作的方法的流程图，即针对图2所示的流程200中的步骤203提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤203的方式得到一个新的完整实施例。其中流程500包括以下步骤：

步骤501：将被超边连接的各节点的图像特征聚合至超边，得到超边特征；

步骤502：将超边特征分散至被超边连接的各节点；

步骤503：控制各节点根据分散至自身的超边特征更新自身的图像特征，得到完成图像特征更新的更新后节点。

本公开实施例通过步骤501-步骤503具体提供了一种如何进行超图卷积操作的过程，即首先将使由同一超边连接的各节点的图像特征聚合到超边形成超边特征，再使超边特征再次分散至每一个节点上来更新节点的原始图像特征，最终得到拥有更新后节点特征的更新后节点。

为进一步加深对如何借助超图框架、超边、超图卷积操作来提取得到包含高阶时序特征的全局图像特征的理解，本实施例还结合上述各实施例所提供的方案，提供了如图6所示的结构示意图：

首先将一个完整的目标视频的图像帧分开并抽取每一帧的图像特征，然后设置一个长度为10帧的滑动窗口，通过滑动窗口在每10个帧图像构造一个超图，整个视频便可以建模为多个子超图。接下来，每一个子超图使用超图卷积操作进行特征更新，目的是使由同一超边连接的视频帧特征聚合到超边形成超边特征，超边特征会再次分散至每一个节点上来更新节点特征。最后每一组视频帧之间的特征进行加权平均来生成最后的全局特征。

在本实施例中，将由10个连续图像帧构成的连续图像帧组中的每个图像帧的初始图像特征作为超图中的节点，通过K近邻算法寻找每一个节点在高维空间中距离相近的三个节点，并在三个节点中建立超边。最终通过这种方式，构建出全体数据集所对应的超图。完成超图的构建后，使用模型中的超图卷积层来对节点特征进行更新(即同一超边连接的节点的高阶特征首先聚合到对应的超边上，然后超边再将得到的高阶特征分发到每一个所连接的节点完成特征的更新)最终更新后的节点特征通过聚合，得到与该目标视频对应的全局图像特征。

在上述任意实施例的基础上，除通过利用上述超图框架、超边从图像帧中提取出的全局图像特征外，还可以额外增加包括文本特征在内的其余视频特征，来进一步丰富综合后的视频特征的全面性和对所属目标视频的代表性。

图7为本公开实施例提供的一种拼接全局图像特征和文本特征得到综合视频特征的方法的流程图，其流程700包括如下步骤：

步骤701：响应于目标视频截取自瀑布式视频流，从各图像帧中识别出文本信息；

瀑布式视频流具有能够持续的呈现多样化视频信息的呈现特性，即用户即使不断的切换也仍能够不断的提供给用户可观看的其它视频，也称流式视频或短视频流。

在目标视频截取自瀑布式视频流时，本步骤旨在由上述执行主体从各图像帧中识别出文本信息。

其中，识别出的文本信息包括内嵌在图像帧中的第一文本信息和位于图像帧上层的视频评价参数中的第二文本信息；其中，视频评价参数包括：点赞数、收藏数、评论数、转发数、是否关注和关注数。应当理解的是，第二文本信息是基于瀑布式视频流的特性所由所属视频应用所设置或提供的，专用于呈现视频的观看和反馈信息。

例如可参见图8左侧原呈现画面和右侧呈现的文本信息识别结果。

对于文本信息的识别，可以首先对视频帧进行目标检测，经过训练的yolov5模型(一种用于目标检测的模型)准确的识别其中的文本字段所在的图像区域并记录每一个区域相对应的标签，然后将所有识别到的区域进行裁剪并输入到文字识别模块。文字识别结果与图像区域的标签以键值对的形式输出并保存为JSON(JavaScript Object Notation,JS对象简谱)文件。需要识别的文本字段类型有以下十种：作者名称、挂载、资源类型、视频描述、POI(Point Of Interest，兴趣点)、是否关注、点赞量、收藏量、转发量、评论量。

步骤702：根据文本信息和瀑布式视频流的特性，生成目标视频的文本特征；

在步骤701的基础上，本步骤旨在由上述执行主体根据文本信息和瀑布式视频流的特性，生成目标视频的文本特征。

步骤703：拼接文本特征和全局图像特征，得到目标视频的综合视频特征。

在步骤702的基础上，本步骤旨在由上述执行主体拼接文本特征和全局图像特征，得到目标视频的综合视频特征。

具体的，文本特征和全局图像特征在拼接前，还需要各自经过归一化处理，以使两者在拼接后具有对等的衡量标准，在没有明确要求拼接顺序的情况下，拼接顺序可以自行选取。同时，若对拼接后的综合视频特征的长度有要求，还可以在完成拼接后进行长度压缩或拉长处理。

上述各实施例从各个方面阐述了如何从目标视频提取出具有代表性的视频特征的方案，而在能够从目标视频提取出具有代表性的视频特征的情况下，结合对视频进行满意度评价的实际应用场景，本公开还通过图9具体提供了一种基于目标视频的视频特征来评价该视频的视频满意度的方案，其流程900包括如下步骤：

步骤901：获取目标视频的包含全局图像特征在内的视频特征；

步骤902：通过预设的视频满意度评价模型，确定与视频特征对应的视频满意度。

其中，视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。进一步的，为了尽可能增加得到满意度标注的可解释性，还可以要求训练样本中的满意度标注还包括满意度原因，以从满意度原因中学习到更多的隐含知识。

即本实施例通过步骤901-步骤902提供了一种基于视频特征确定视频满意度的方案，在视频特征仅包含全局图像特征时，相当于仅基于全局图像特征来评判视频满意度，而在视频特征为在全局图像特征基础上还拼接有文本特征的综合视频特征时，相当于基于全局图像特征和文本特征来共同评判视频满意度。

针对待评价满意度的目标视频，通过获取该目标视频的包含全局图像特征在内的视频特征，得以能够获取到更全面、更能代表所属视频的视频特征，并借助预设的视频满意度评价模型得以输出更准确的视频满意度评价。

为加深对本实施例所提供方案的理解，本公开还通过图10提供了一种全流程方案示意图：

在通过超图框架得到全局图像特征的基础上，还通过目标检测和文字识别所提取的视频文本特征。如图8所示，在所有识别到的文本特征中，将挂载、资源类型、POI、是否关注、作者名称、内容/描述进行整合并使用BERT(一种用于处理自然语言的模型)预训练模型进行特征提取，而点赞量、评论量、转发量、收藏量等数值型特征经过归一化与其他通过BERT生成的特征向量进行拼接操作，再与前期的视频全局特征拼接形成最终的视频融合特征。最后，数据集中所有视频的融合特征经过多层感知机输出视频评估得分。

进一步参考图11和图12，作为对上述各图所示方法的实现，本5公开分别提供了一种视频特征提取装置实施例和一种视频满意度评价装置的实施例，视频特征提取装置实施例与图2所示的视频特征提取方法实施例相对应，视频满意度评价装置实施例与图9所示的视频满意度评价方法实施例相对应。上述装置具体可以应用于各种电子设备中。

0如图11所示，本实施例的视频特征提取装置1100可以包括：连

续图像帧组封装单元1101、初始子超图构建单元1102、超图卷积操作单元1103、子超图更新单元1104、连续图像帧组更新单元1105。其中，连续图像帧组封装单元1101，被配置成利用滑动窗口技术将构成目标视频

的连续图像帧封装为连续图像帧组；初始子超图构建单元1102，被配置5成将连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；超图卷积操作单元1103，被配置成对由超边连接的多个节点进行超图卷积操作，得到更新后节点；子超图更新单元1104，被配置成对各更新后节点所对应的图像特征进行

加权平均，得到更新后子超图；连续图像帧组更新单元1105，被配置成0将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到目标视频的全局图像特征。

在本实施例中，视频特征提取装置1100中：连续图像帧组封装单元1101、初始子超图构建单元1102、超图卷积操作单元1103、子超图更

新单元1104、连续图像帧组更新单元1105的具体处理及其所带来的技5术效果可分别参考图2对应实施例中的步骤201-205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，连续图像帧组封装单元1101可以被进一步配置成：

确定构成目标视频的连续图像帧集；

0建立覆盖预设数量的连续图像帧的目标滑动窗口；

将每次滑动目标滑动窗口所分别覆盖的连续图像帧装成为不同的连续图像帧组。

在本实施例的一些可选的实现方式中，初始子超图构建单元1102包括被配置成在具有节点相似性的多个节点之间建立超边的超边构建子单元，超边构建子单元可以被进一步配置成：

针对每个节点，采用K近邻算法确定与节点距离最接近的K个相似节点，K为大于1的正整数；

在节点和K个相似节点之间建立超边。

在本实施例的一些可选的实现方式中，超图卷积操作单元1103可以被进一步配置成：

将被超边连接的各节点的图像特征聚合至超边，得到超边特征；

将超边特征分散至被超边连接的各节点；

控制各节点根据分散至自身的超边特征更新自身的图像特征，得到完成图像特征更新的更新后节点。

在本实施例的一些可选的实现方式中，视频特征提取装置1100中还可以包括：

文本信息识别单元，被配置成响应于目标视频截取自瀑布式视频流，从各图像帧中识别出文本信息；

文本特征生成单元，被配置成根据文本信息和瀑布式视频流的特性，生成目标视频的文本特征；

特征拼接单元，被配置成拼接文本特征和全局图像特征，得到目标视频的综合视频特征。

在本实施例的一些可选的实现方式中，文本信息包括：内嵌在图像帧中的第一文本信息和位于图像帧上层的视频评价参数中的第二文本信息；其中，视频评价参数包括：点赞数、收藏数、评论数、转发数、是否关注和关注数。

如图12所示，本实施例的视频满意度评价装置1200可以包括：视频特征获取单元1201、视频满意度确定单元1202。其中，视频特征获取单元1201，被配置成获取目标视频的包含全局图像特征在内的视频特征；其中，全局图像特征通过视频特征提取装置1100得到；视频满意度确定单元1202，被配置成通过预设的视频满意度评价模型，确定与视频特征对应的视频满意度；其中，视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

在本实施例中，视频满意度评价装置1200中：视频特征获取单元1201、视频满意度确定单元1202的具体处理及其所带来的技术效果可分别对应方法实施例中的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，训练样本中的满意度标注还包括满意度原因。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的视频特征提取装置，首先通过滑动窗口获取由构成目标视频的不同连续图像帧构成的不同连续图像帧组，然后针对每个连续图像帧组，将每个图像帧均视为节点，并在相似节点之间建立超边连接，接着通过超边框架、超图卷积处理对超边覆盖节点的图像特征进行处理，使得经处理后得到的图像特征能够更好体现相邻视频帧之间的高阶时序关系，使得最终得到的全局图像特征能够更好的代表目标视频。

本公开实施例提供的视频满意度评价装置，针对待评价满意度的目标视频，通过获取该目标视频的包含全局图像特征在内的视频特征，得以能够获取到更全面、更能代表所属视频的视频特征，并借助预设的视频满意度评价模型得以输出更准确的视频满意度评价。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任一实施例描述的视频特征提取方法和/或视频满意度评价方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任一实施例描述的视频特征提取方法和/或视频满意度评价方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任一实施例描述的视频特征提取方法和/或视频满意度评价方法。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如视频特征提取方法和/或视频满意度评价方法。例如，在一些实施例中，视频特征提取方法和/或视频满意度评价方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的视频特征提取方法和/或视频满意度评价方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频特征提取方法和/或视频满意度评价方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

本公开实施例的视频特征提取方案，首先通过滑动窗口获取由构成目标视频的不同连续图像帧构成的不同连续图像帧组，然后针对每个连续图像帧组，将每个图像帧均视为节点，并在相似节点之间建立超边连接，接着通过超边框架、超图卷积处理对超边覆盖节点的图像特征进行处理，使得经处理后得到的图像特征能够更好体现相邻视频帧之间的高阶时序关系，使得最终得到的全局图像特征能够更好的代表目标视频。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频特征提取方法，包括：

利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；

将所述连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；

对由所述超边连接的多个节点进行超图卷积操作，得到更新后节点；

对各所述更新后节点所对应的图像特征进行加权平均，得到更新后子超图；

将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到所述目标视频的全局图像特征。

2.根据权利要求1所述的方法，其中，所述利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组，包括：

确定构成所述目标视频的连续图像帧集；

建立覆盖预设数量的连续图像帧的目标滑动窗口；

将每次滑动所述目标滑动窗口所分别覆盖的连续图像帧装成为不同的连续图像帧组。

3.根据权利要求1所述的方法，其中，所述在具有节点相似性的多个节点之间建立超边，包括：

针对每个所述节点，采用K近邻算法确定与所述节点距离最接近的K个相似节点，K为大于1的正整数；

在所述节点和所述K个相似节点之间建立所述超边。

4.根据权利要求1所述的方法，其中，所述对由所述超边连接的多个节点进行超图卷积操作，得到更新后节点，包括：

将被所述超边连接的各节点的图像特征聚合至所述超边，得到超边特征；

将所述超边特征分散至被所述超边连接的各节点；

控制各所述节点根据分散至自身的超边特征更新自身的图像特征，得到完成图像特征更新的更新后节点。

5.根据权利要求1-4任一项所述的方法，还包括：

响应于所述目标视频截取自瀑布式视频流，从各所述图像帧中识别出文本信息；

根据所述文本信息和所述瀑布式视频流的特性，生成所述目标视频的文本特征；

拼接所述文本特征和所述全局图像特征，得到所述目标视频的综合视频特征。

6.根据权利要求5所述的方法，其中，所述文本信息包括：内嵌在所述图像帧中的第一文本信息和位于所述图像帧上层的视频评价参数中的第二文本信息；其中，所述视频评价参数包括：点赞数、收藏数、评论数、转发数、是否关注和关注数。

7.一种视频满意度评价方法，包括：

获取目标视频的包含全局图像特征在内的视频特征；其中，所述全局图像特征通过权利要求1-6任一项所述的视频特征提取方法得到；

通过预设的视频满意度评价模型，确定与所述视频特征对应的视频满意度；其中，所述视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，所述视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

8.根据权利要求7所述的方法，其中，所述训练样本中的满意度标注还包括满意度原因。

9.一种视频特征提取装置，包括：

连续图像帧组封装单元，被配置成利用滑动窗口技术将构成目标视频的连续图像帧封装为连续图像帧组；

初始子超图构建单元，被配置成将所述连续图像帧组中的各图像帧均作为不同的节点，并在具有节点相似性的多个节点之间建立超边，得到初始子超图；

超图卷积操作单元，被配置成对由所述超边连接的多个节点进行超图卷积操作，得到更新后节点；

子超图更新单元，被配置成对各所述更新后节点所对应的图像特征进行加权平均，得到更新后子超图；

连续图像帧组更新单元，被配置成将对应不同的连续图像帧组的更新后子超图的图像特征进行加权平均处理，得到所述目标视频的全局图像特征。

10.根据权利要求9所述的装置，其中，所述利连续图像帧组封装单元被进一步配置成：

确定构成所述目标视频的连续图像帧集；

建立覆盖预设数量的连续图像帧的目标滑动窗口；

11.根据权利要求9所述的装置，其中，所述初始子超图构建单元包括被配置成在具有节点相似性的多个节点之间建立超边的超边构建子单元，所述超边构建子单元被进一步配置成：

在所述节点和所述K个相似节点之间建立所述超边。

12.根据权利要求9所述的装置，其中，所述超图卷积操作单元被进一步配置成：

将所述超边特征分散至被所述超边连接的各节点；

13.根据权利要求9-12任一项所述的装置，还包括：

文本信息识别单元，被配置成响应于所述目标视频截取自瀑布式视频流，从各所述图像帧中识别出文本信息；

文本特征生成单元，被配置成根据所述文本信息和所述瀑布式视频流的特性，生成所述目标视频的文本特征；

特征拼接单元，被配置成拼接所述文本特征和所述全局图像特征，得到所述目标视频的综合视频特征。

14.根据权利要求13所述的装置，其中，所述文本信息包括：内嵌在所述图像帧中的第一文本信息和位于所述图像帧上层的视频评价参数中的第二文本信息；其中，所述视频评价参数包括：点赞数、收藏数、评论数、转发数、是否关注和关注数。

15.一种视频满意度评价装置，包括：

视频特征获取单元，被配置成获取目标视频的包含全局图像特征在内的视频特征；其中，所述全局图像特征通过权利要求9-14任一项所述的视频特征提取装置得到；

视频满意度确定单元，被配置成通过预设的视频满意度评价模型，确定与所述视频特征对应的视频满意度；其中，所述视频满意度评价模型用于表征不同视频特征与不同满意度之间的对应关系，所述视频满意度评价模型基于对样本视频的包含图像在内的视频元素进行的满意度标注构成的训练样本训练得到。

16.根据权利要求15所述的装置，其中，所述训练样本中的满意度标注还包括满意度原因。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的视频特征提取方法和/或权利要求7或8所述的视频满意度评价方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的视频特征提取方法和/或权利要求7或8所述的视频满意度评价方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-6中任一项所述视频特征提取方法的步骤和/或权利要求7或8所述视频满意度评价方法的步骤。