CN114218438A

CN114218438A - 视频数据处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN114218438A
Application number: CN202111592644.0A
Authority: CN
Inventors: 卞东海; 吴雨薇; 盛广智; 郑烨翰; 彭卫华; 徐伟建
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-22
Anticipated expiration: 2041-12-23
Also published as: US20230117255A1; EP4178205A1; CN114218438B

Abstract

本公开提供了视频数据处理方法、装置、电子设备和计算机存储介质，涉及计算机技术领域，尤其涉及NLP、知识图谱、计算机视觉及深度学习等技术领域。具体实现方案为：获取待提取的视频数据的目标片段；获取需要提取的主题信息；根据所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度。本公开实施例能够提高视频片段内容与主题信息关联程度确定结果的准确性。

Description

视频数据处理方法、装置、电子设备和计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及NLP(Natural Language Processing，自然语言处理)、知识图谱、计算机视觉及深度学习等技术领域。

背景技术

随着计算机和网络技术的发展，信息数量越来越多且传输速度加快，传输范围广泛。信息过载问题成为现代社会越来越严重的现象，而视频是增长最快的信息载体，到近些年，视频将占所有互联网流量的80％以上。为了帮助用户在大量的视频中，快速确定自己需要的视频数据，需要对视频和给定内容的关联性进行相关程度的确定。

发明内容

本公开提供了一种视频数据处理方法、装置、电子设备和计算机存储介质。

根据本公开的一方面，提供了一种视频数据处理方法，包括：

获取待提取的视频数据的目标片段；

获取需要提取的主题信息；

根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

根据本公开另一方面，提供了一种视频数据处理装置，包括：

目标片段获取模块，用于获取待提取的视频数据的目标片段；

主题信息获取模块，用于获取需要提取的主题信息；

关联程度确定模块，用于根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，能够确定主题信息和视频数据的目标片段之间的关联程度，从而在目标片段与主题信息高度符合的情况下，可以确定目标片段与主题信息高度关联，从而确定目标片段的主题信息或者从视频数据中确定一段与主题信息符合的目标片段。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的视频数据处理方法示意图；

图2是根据本公开另一实施例的视频数据处理方法示意图；

图3是根据本公开又一实施例的视频数据处理方法示意图；

图4是根据本公开又一实施例的视频数据处理方法示意图；

图5是根据本公开一示例的模型结构示意图；

图6是根据本公开一示例的模型处理多个视频帧示意图；

图7是根据本公开一示例的视频数据处理方法示意图；

图8是根据本公开一实施例的视频数据处理装置示意图；

图9是根据本公开另一实施例的视频数据处理装置示意图；

图10是根据本公开又一实施例的视频数据处理装置示意图；

图11是根据本公开又一实施例的视频数据处理装置示意图；

图12是根据本公开又一实施例的视频数据处理装置示意图；

图13是根据本公开又一实施例的视频数据处理装置示意图；

图14是根据本公开又一实施例的视频数据处理装置示意图；

图15是根据本公开又一实施例的视频数据处理装置示意图；

图16是根据本公开又一实施例的视频数据处理装置示意图；

图17是根据本公开又一实施例的视频数据处理装置示意图；

图18是根据本公开又一实施例的视频数据处理装置示意图；

图19是用来实现本公开实施例的视频数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的实施例，提供了一种视频数据处理方法，图1是根据本公开实施例的视频数据处理方法的流程示意图，该方法可以应用于可利用前端或有段执行指令的电子设备，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行目标片段的获取、主题信息的确定等步骤。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，视频数据处理方法包括：

步骤S11：获取待提取的视频数据的目标片段；

步骤S12：获取需要提取的主题信息；

步骤S13：根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

本实施例中待提取的视频数据，可以是待提取主题信息相关的目标片段的数据。比如，可以是影视视频、不同内容的视频片段的拼接生成的视频数据等。

本实施例中，目标片段可以是视频数据中的一个片段，时长可以小于视频数据的总时长。待提取的视频数据包含目标片段。

需要提取的主题信息可以是期望提取的目标片段的内容相关的主题信息，比如A演员出演片段、打斗片段、辩论片段、分析片段、追捕片段等。或者可以是期望提取的目标片段的类别相关的主题信息，比如动画片段、非动画片段、长镜头片段、插播片段等。

需要提取的主题信息可以是文字信息、图片信息、音频信息，也可以是视频帧信息。通过对需要提取的主题信息的解析，可以确定需要提取的目标片段的内容或类型。

本实施例中，视频数据的片段信息可以包括视频数据的一部分。比如，按照时间间隔，将视频数据进行拆分或者分割，获得视频数据的至少一个片段。视频数据的片段信息进一步可以包括视频数据的一部分，即至少一个片段的起止位置或时间、片段所包括的具体视频帧、片段占据视频数据的总长度百分比等中的至少一种。

在一种可能的实现方式中，视频数据的片段信息可以是，视频数据所包括的片段的信息，具体包括目标片段在内的视频数据的至少一个视频片段的信息，目标片段可以是视频数据的至少一个片段之一。视频数据的片段信息还可以具体包括，除过目标片段之外的视频数据的其它视频片段的信息。

根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度，可以是确定视频的片段信息，目标片段与视频数据的其它片段之间的关联关系，确定目标片段是否与主题信息相符合。

在另一种可能的实现方式中，针对视频数据中的每个片段，可以将片段依次作为目标片段，确定各个片段与主题信息的关联程度，从而可以根据各片段与主题信息的关联程度高低，确定与给定主题信息关联程度最高的片段。

本实施例中，上述步骤S11-S13中的至少一个步骤，可以通过模型执行。

本实施例中，能够确定主题信息和视频数据的目标片段之间的关联程度，从而在目标片段与主题信息高度符合的情况下，可以确定目标片段与主题信息高度关联，从而确定目标片段的主题信息或者从视频数据中确定一段与主题信息符合的目标片段。

在一种实施方式中，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度，如图2所示，包括：

步骤S21：根据主题信息，确定多个主题内容片段；

步骤S22：确定多个主题内容片段之间的关系；

步骤S23：根据多个主题内容片段、多个主题内容片段之间的关系、视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

在一种可能的实现方式中，在主题信息为文字信息的情况下，多个主题内容片段，可以是文字信息的划分形成的文字片段。比如，可以以字或词为单位，将文字信息进行划分。在主题信息的文字信息为“武打片段”的情况下，若按照字为单位，可将文字信息划分为4个文字片段。

多个主题内容片段之间的关系，可以是每个片段与其它所有片段中的每个片段之间的关系。

本实施例中，能够根据主题信息的分析结果和视频数据的分析结果，确定目标片段与主题信息的关联程度，从而能够提高关联程度判定的准确性。

在一种可能的实现方式中，还可根据主题信息的主题内容片段，构建主题信息的图，以片段作为图的节点，以片段之间的关系作为边，从而每个片段都可以与其它片段连接，任意两个不同的片段之间，无论距离的远近，始终能够相连，从而将整个主题信息的全部主题内容片段的关联都予以考虑，使得最终得到的目标片段与主题信息的关联程度更加准确。

在一种可能的实现方式中，根据多个主题内容片段、多个主题内容片段之间的关系、视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度，如图3所示，包括：

步骤S31：对多个主题内容片段、多个主题内容片段之间的关系、视频数据的片段信息、以及目标片段与视频数据之间的关系，进行编码，得到多个主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征和主题内容片段的全局特征；

步骤S32：根据主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征、主题内容片段的全局特征和主题内容片段的位置信息，重复执行编码直至设定的次数，得到视频片段的编码；

步骤S33：根据视频片段的编码，确定视频片段与主题信息的关联程度。

本实施例中，可以根据视频的视频片段，构建关系图，视频片段可以作为关系图的节点，视频片段之间的关系可以作为关系图的边，主题信息也可以用于构建视频片段之间的边。目标片段为多个视频片段中的至少一个。

本实施例中，通过对主题内容片段的特征和视频片段的全局特征进行计算，确定目标判断和主题信息的关联程度，能够提高关联程度计算或确定的准确性。

在一种实施方式中，根据视频片段的编码，确定视频片段与主题信息的关联程度，包括：

将编码进行条件随机场计算，获得计算结果；

根据计算结果，确定视频片段与主题信息的关联程度。

本公开示例中，通过条件随机场计算，能够对编码进行分类，从而确定关联程度。

在一种实施方式中，获取待提取的视频数据的目标片段，包括：

按照设定的间隔，划分待提取的视频数据，得到视频数据的多个视频片段；

将视频数据的多个视频片段中的至少一个，作为目标片段。

在一种可能的实现方式中，可采用变化的间隔划分视频数据，得到多个视频片段。

本公开示例中，按照设定的间隔，划分视频数据可以是比如按照省秒数，划分待提取的视频数据，具体比如每N秒作为一个片段，则第0-N秒为第一个片段，第N+1秒-2N秒为一个片段，第2N+1-3N秒为一个片段，如此类推。

按照设定的间隔，划分视频数据还可以是比如按照帧数，划分视频数据。比如，第0-N帧为第一个片段，第N+1-2N为第二个片段，第2N+1-3N为第三个片段，如此类推。

将视频数据的多个片段中的至少一个，作为目标片段，可以包括：将多个片段依次作为目标片段，执行确定目标片段与主题信息的关联程度的操作。

本实施例中，按照设定的间隔，将视频数据划分为多个片段，从而能够使得视频数据的每个部分都有机会被作为目标片段进行关联程度的判断，从而有助于从视频数据中筛选出更符合主题信息的片段。

在一种实施方式中，片段信息包括视频片段的特征，视频数据处理方法还包括：

将视频片段中的每个视频帧，转换为设定维度的向量，设定维度的向量包括视频帧的内容信息；

根据设定维度的向量，确定视频片段的特征。

本实施例中，可针对视频片段中的所有视频帧，执行上述操作，确定视频片段的特征。

根据设定维度的向量，确定视频片段的特征，可以是将设定维度的向量，作为视频片段的特征。

根据设定维度的向量，确定视频片段的特征，也可以是将设定维度的向量进行进一步计算，将计算结果作为视频片段的特征。

本实施例中，能够将视频帧的内容信息转换为片段的特征，从而能够在关联程度确定过程中，充分利用视频帧的内容信息进行判断，提高关联程度确定的准确性。

在一种实施方式中，根据设定维度的向量，确定视频片段的特征，包括：

将设定维度的向量进行三维卷积计算，得到视频帧的时空信息特征；

根据视频帧的时空信息特征，确定视频片段的特征。

本实施例中，根据视频帧的时空信息特征，确定视频片段的特征，从而能够将视频帧的时间信息、空间信息作为关联程度的确定条件，提高关联程度的准确性。

在一种实施方式中，如图4所示，根据设定维度的向量，确定视频片段的特征包括：

步骤S41：根据视频片段的视频帧之间的切换信息，确定视频片段的光流特征；

步骤S42：根据设定维度的向量和光流特征，确定视频片段的特征。

本实施例中，能够根据视频帧之间的切换信息，确定视频片段的特征，从而在关联程度确定的过程中，融合了视频帧之间的相对关系，使得关联程度的确定结果更加准确。

在一种实施方式中，根据设定维度的向量和光流特征，确定视频片段的特征，包括：

将设定维度的向量、视频帧的时空信息特征和光流特征进行拼接，得到拼接特征；

根据拼接特征，确定视频片段的特征。

本实施例中融合时空信息特征、向量和光流特征，从而在确定关联程度时，充分考虑到片段的视频帧的内容和特点，所得到的关联程度更加准确。

在一种实施方式中，根据拼接特征，确定视频片段的特征，包括：

根据视频片段中每个视频帧的上一视频帧的拼接特征，确定每个视频帧的特征。

本实施例中，将每个视频帧和相邻视频帧进行结合，确定视频帧的特征，从而在确定关联程度时，不仅考虑了视频帧自身的特点，还考虑了视频帧相对于整个视频数据的特点，从而得到的关联程度更加准确。

在一种实施方式中，目标片段与视频数据之间的关系包括目标片段与视频数据中非目标片段部分的关系，以及目标片段的在视频数据中的时序信息。

本实施例中，目标片段和非目标片段可以是相对的，一个片段可以在不同轮次的计算过程中成为目标片段或非目标片段。当前的多个片段中，若选择其中一个为目标片段，采用本公开实施例的视频数据处理方法方法确定目标片段与主题信息的关联程度，则除了目标片段之外的其它片段均为非目标片段。

本实施例将目标片段与视频数据之间的关联关系作为关联程度的确定条件之一，从而能够提高关联程度确定结果的准确性。

在一种实施方式中，视频数据处理方法还包括：

根据关联程度，确定视频数据的视频摘要。

视频摘要旨在通过从长视频中提取关键帧或镜头级别的片段来解决如今视频数量过多，可能导致用户观看量显著增加的问题。视频摘要可以包含了对人们最有用的内容，同时可以大量节省了观众获取信息时间。随着计算机和视频技术的发展，视频摘要已经成为视频编辑的可操作内容之一。

根据关联程度，确定视频数据的视频摘要，可以是在目标片段与主题信息的关联程度高于设定关联程度阈值时，将目标片段选出，将选出的所有视频片段(或目标片段)拼接成为视频摘要。

本实施例中，能够分别将视频数据中的每个片段作为目标片段，根据视频数据的目标片段与给定的主题信息的关联程度，确定视频摘要，从而能够根据某一指定的主题信息确定视频摘要，有助于用户通过视频摘要确定水平的主要内容，实现快速观看期望观看的内容的目的。

本公开示例中，能够将视频中的每个片段(或帧)看作为一个顶点，将片段与片段之间的联系作为边，同时，加入query(查询请求)查询的思想，然后基于图学习(全局最优)算法在上述网络中学习点和边的特征，然后将这些特征输入到CRF(Conditional RandomField，条件随机场)模型，使用类似标签标注的思路来进行预测。

本公开示例中，采用基于图神经网络的结构进行可控性的视频摘要生成，首先需要将视频各个片段转化为图中的节点，同时将查询query也转化为图节点，然后对各个节点使用图学习的方法进行特征的学习，最后将学习到的特征输入到CRF模块进行视频片段的标签分类，然后产出视频摘要。

本示例中，query可以为用户从原始长视频生成视频摘要后，视频摘要包含或可能包含的主题。图神经网络可以为基于图结构的神经网络，该网络包括顶点、边2个主要状态。

本公开示例所提供的视频数据处理方法，可通过本公开示例的神经网络模型执行，如图5所示，包括BERT模型51、Q-S-LSTM52、S-S-LSTM53和CRF54。其中，S-LSTM(sentence-state LSTM)可以指长短期记忆图神经网络。Q-S-LSTM可以指query的图神经网络结构。S-S-LSTM可以指视频片段segment(片段)的图神经网络结构。CRF可以是一种序列化标注算法，接收一个输入序列并且输出目标序列。本公开实施例中，BERT模型，可以为Bidirectional Encoder Representation from Transformers(双向编码表示转换器)模型，可以是一个预训练的语言表征模型。BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的MaskedLanguage Model(MLM，掩膜语言模型)，以致能生成深度的双向语言表征。本公开示例中的VL-BERT(Visual-Linguistic BERT，视觉-语言BERT)可以为多模态预训练模型，其输入信息可以为文本或图像等。

将主题信息转换为向量，在主题信息包括文字的情况下，采用token对应表示每个单位文字(字或词)对应的向量。将主题信息拆分为m个单位文字，对应m个向量，分别对应token1、token2……tokenm。将视频数据分为n个视频片段，分别为segment1、segment2……segmentn。将主题信息对应的m个向量分别输入BERT模型，得到BERT vector(BERT向量)，根据segment1、segment2……segmentn计算得到每个视频片段的CNN(Convolutional NeuralNetworks，卷积神经网络)特征、C3D(CNN3Dimension，三维卷积)特征和Optical Flow(光流)特征。将视频片段的CNN特征、C3D特征和光流特征，以及主题信息的单位文字对应的向量，输入包含S-S-LSTM53和Q-S-LSTM52的图神经网络部分，获得每个视频特征的编码，将编码输入CRF54，得到每个视频片段为主题信息对应的视频摘要的分类结果。分类结果可以包括数字0、1，可采用0表示不属于主题信息对应的视频摘要，可采用1表示属于主题信息对应的视频摘要。

图6为本公开示例所采用S-LSTM处理视频片段的视频帧示意图。其中，h为学习参数，内容可以为隐变量。t为时间。w为输入向量，g为当前视频帧的所有学习参数的全局信息。

本公开示例的视频数据处理方法，包括如图7所示的步骤：

步骤S71：输入数据基本特征提取。

模型输入有两种不同的类型，即文本型数据和视频型数据，文本型数据表示主题信息。对于文本型数据直接使用BERT向量预训练词向量，对于视频型数据(即前述实施例中的视频数据)，首先对其进行切割处理，按照5s(或其它时间段或视频帧数量)作为一个片段，对于一个片段需要获取如下3方面的特征：

帧特征，使用RESNET进行帧特征提取，获取到2048维的特征，然后对一系列帧求平均值。在一种具体实现方式中，可根据每个视频帧的图像画面，计算重点特征。

C3D特征，增加了空间维度的3维CNN(处理三维空间信息的CNN)，可以捕获时空信息。

光流特征(Optical Flow，OF)，可采用Gunner Farneback算法获取视频帧的帧间的Optical Flow特征，光流特征包含了画面之间切换的变化快慢信息。

对获取到的3类特征进行联级(嵌套)作为整个视频片段最终的特征表示。

步骤S72：采用基于query的图神经网络模块进行特征处理。

在本示例中，将基于图神经网络模型的方法用在视频摘要生成的可行性，因为视频数据中每个片段除了有时序关系之外还有很多其他的关系，尤其是将视频数据进行切分后，各个片段之间自然就可以构建边。边的含义可通过训练后的模型获得，本示例中可以使用图结构来建模视频信息，以此希望模型可以学习到片段和片段间的多样性及片段本身的重要性等信息。本实施例中可从图的边里学到，片段整体的多样性。可从顶点和边的关系获得片段本身的重要性。同时本示例提出了基于query的图学习模型，使得在确目标片段定与主题信息的关联程度的基础上，可以按照用户的需求进行特色的视频摘要，该模块的实现可以形式化如下公式：

输入query(主题信息)由q＝q1,q2,...,qm组成，即上式中q表示主题内容片段，Q表示主题内容片段的向量。视频由V＝s1,s2,s3,…,sn组成，即上式中v表示视频片段，V表示视频片段的向量，n表示视频片段数。P表示概率，即关联程度。y表示输出的标签10101数值，在取值1和0中的一个的情况下，可表示符合主题信息，在取值为1和0中的另一个的情况下，可表示不符合主题信息。具体比如，y取值为1表示选中，取值为0时表示不选中，从而最终可将所有取值为1的视频片段进行组合，得到视频摘要。本示例中，上述字母小写时可代表真实输入或输出，大写时可代表向量或特征。

则输入的主题信息的主题内容片段Q的特征为：

Q_v＝BERT(q)。其中，q为主题内容片段。

输入视频数据的各视频片段V的特征为：

V_v＝[CNN(V)|C3D(V)|OF(V)]。其中，CNN表示卷积计算，C3D表示三维卷积计算，OF表示光流特征计算，|表示向量拼接。

步骤S73：基于CRF生成视频摘要。

在步骤S72中，获取到了基于图学习的视频片段特征，步骤S73中可将这些学习到的特征进行序列标注输出，使用CRF算法，如果该片段有大于一半的时间在视频摘要中则其标记为1，否则标记为0，然后使用输入的特征和标记进行模型的训练即可。

步骤S74：模型预测。

按照上面步骤S73进行模型的处理，对步骤S73输入的结果进行统计，如果为1则选择，否则丢弃，最终按照时间顺序将选择的视频片段进行拼接即完成了视频摘要的生成。

在一种实施方式中，联程度采用图神经网络确定。

本公开实施例还提供一种视频数据处理方法，如图8所示，包括：

步骤S81：获取待提取的视频数据的目标片段；

步骤S82：获取需要提取的主题信息；

步骤S83：采用图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

在一种实现方式中，图神经网络包括主题信息图神经网络和视频片段图神经网络；采用图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度，如图9所示，包括：

步骤S91：采用主题信息图神经网络，根据主题信息所包括的主题内容片段，确定主题信息内容片段的全局特征；

步骤S92：采用视频片段图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定视频数据所包括的视频片段的全局特征；

步骤S93：根据主题内容片段的全局特征和视频数据所包括的视频片段的全局特征，确定关联程度。

本公开实施例还提供一种视频数据处理装置，如图10所示，包括：

目标片段获取模块101，用于获取待提取的视频数据的目标片段；

主题信息获取模块102，用于获取需要提取的主题信息；

关联程度确定模块103，用于根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

在一种实施方式中，如图11所示，关联程度确定模块包括：

主题片段单元111，用于根据主题信息，确定多个主题内容片段；

主题关系单元112，用于确定多个主题内容片段之间的关系；

关联程度单元113，用于根据多个主题内容片段、多个主题内容片段之间的关系、视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

在一种实施方式中，关联程度单元还用于：

对多个主题内容片段、多个主题内容片段之间的关系、视频数据的片段信息、以及目标片段与视频数据之间的关系，进行编码，得到多个主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征和主题内容片段的全局特征；

根据主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征、主题内容片段的全局特征和主题内容片段的位置信息，重复执行编码直至设定的次数，得到视频片段的编码；

根据视频片段的编码，确定视频片段与主题信息的关联程度。

在一种实施方式中，关联程度单元还用于：

将编码进行条件随机场计算，获得计算结果；

根据计算结果，确定视频片段与主题信息的关联程度。

在一种实施方式中，如图12所示，目标片段获取模块包括：

划分单元121，用于按照设定的间隔，划分待提取的视频数据，得到视频数据的多个视频片段；

目标确定单元122，用于将视频数据的多个视频片段中的至少一个，作为目标片段。

在一种实施方式中，片段信息包括视频片段的特征，如图13所示，视频数据处理装置还包括：

转换模块131，用于将视频片段中的每个视频帧，转换为设定维度的向量，设定维度的向量包括视频帧的内容信息；

特征确定模块132，用于根据设定维度的向量，确定视频片段的特征。

在一种实施方式中，如图14所示，特征确定模块包括：

时空特征单元141，用于将设定维度的向量进行三维卷积计算，得到视频帧的时空信息特征；

时空特征处理单元142，用于根据视频帧的时空信息特征，确定视频片段的特征。

在一种实施方式中，如图15所示，特征确定模块包括：

光流特征单元151，用于根据视频片段的视频帧之间的切换信息，确定视频片段的光流特征；

光流特征处理单元152，用于根据设定维度的向量和光流特征，确定视频片段的特征。

在一种实施方式中，光流特征处理单元还用于：

根据拼接特征，确定视频片段的特征。

在一种实施方式中，光流特征处理单元还用于：

在一种实施方式中，如图16所示，视频数据处理装置还包括：

视频摘要模块161，用于根据关联程度，确定视频数据的视频摘要。

在一种实施方式中，关联程度确定模块采用图神经网络确定所述关联程度。

在一种实施方式中，图神经网络包括主题信息图神经网络和视频片段图神经网络；关联程度单元还用于：

采用主题信息图神经网络，根据主题信息所包括的主题内容片段，确定主题内容片段的全局特征；

采用视频片段图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定视频数据所包括的视频片段的全局特征；

根据主题信息全局特征和视频数据全局特征，确定关联程度。

本公开实施例还提供一种视频数据处理装置，如图17所示，包括：

目标片段模块171，用于获取待提取的视频数据的目标片段；

主题信息模块172，用于获取需要提取的主题信息；

图神经网络模块173，用于采用图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定目标片段与主题信息的关联程度。

在一种实施方式中，如图18所示，图神经网络模块包括：

主题信息全局特征单元181，用于采用主题信息图神经网络，根据主题信息所包括的主题内容片段，确定主题内容片段的全局特征；

视频数据全局特征单元182，用于采用视频片段图神经网络，根据视频数据的片段信息、以及目标片段与视频数据之间的关系，确定视频数据所包括的视频片段的全局特征；

全局特征处理单元183，用于根据主题信息全局特征和视频数据全局特征，确定关联程度。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图19示出了可以用来实施本公开的实施例的示例电子设备190的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图19所示，设备190包括计算单元191，其可以根据存储在只读存储器(ROM)192中的计算机程序或者从存储单元198加载到随机访问存储器(RAM)193中的计算机程序，来执行各种适当的动作和处理。在RAM 193中，还可存储设备190操作所需的各种程序和数据。计算单元191、ROM 192以及RAM 193通过总线194彼此相连。输入/输出(I/O)接口195也连接至总线194。

设备190中的多个部件连接至I/O接口195，包括：输入单元196，例如键盘、鼠标等；输出单元197，例如各种类型的显示器、扬声器等；存储单元198，例如磁盘、光盘等；以及通信单元199，例如网卡、调制解调器、无线通信收发机等。通信单元199允许设备190通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元191可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元191的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元191执行上文所描述的各个方法和处理，例如视频数据处理方法。例如，在一些实施例中，视频数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元198。在一些实施例中，计算机程序的部分或者全部可以经由ROM 192和/或通信单元199而被载入和/或安装到设备190上。当计算机程序加载到RAM 193并由计算单元191执行时，可以执行上文描述的视频数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元191可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频数据处理方法，包括：

获取待提取的视频数据的目标片段；

获取需要提取的主题信息；

根据所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度。

2.根据权利要求1所述的方法，其中，所述根据所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度，包括：

根据所述主题信息，确定多个主题内容片段；

确定所述多个主题内容片段之间的关系；

根据所述多个主题内容片段、所述多个主题内容片段之间的关系、所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度。

3.根据权利要求2所述的方法，其中，所述根据所述多个主题内容片段、所述多个主题内容片段之间的关系、所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度，包括：

对所述多个主题内容片段、所述多个主题内容片段之间的关系、所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，进行编码，得到所述多个主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征和主题内容片段的全局特征；

根据主题内容片段的片段特征、视频片段的片段特征、视频片段的全局特征、主题内容片段的全局特征和主题内容片段的位置信息，重复执行编码直至设定的次数，得到所述视频片段的编码；

根据所述视频片段的编码，确定所述视频片段与所述主题信息的关联程度。

4.根据权利要求3所述的方法，其中，所述根据所述视频片段的编码，确定所述视频片段与所述主题信息的关联程度，包括：

将所述视频片段的编码进行条件随机场计算，获得计算结果；

根据所述计算结果，确定所述视频片段与主题信息的关联程度。

5.根据权利要求1所述的方法，其中，所述获取待提取的视频数据的目标片段，包括：

按照设定的间隔，划分所述待提取的视频数据，得到所述视频数据的多个视频片段；

将所述视频数据的多个视频片段中的至少一个，作为所述目标片段。

6.根据权利要求1-5中任意一项所述的方法，其中，所述片段信息包括视频片段的特征，所述方法还包括：

将所述视频片段中的每个视频帧，转换为设定维度的向量，所述设定维度的向量包括所述视频帧的内容信息；

根据所述设定维度的向量，确定所述视频片段的特征。

7.根据权利要求6所述的方法，其中，所述根据所述设定维度的向量，确定所述视频片段的特征，包括：

将所述设定维度的向量进行三维卷积计算，得到视频帧的时空信息特征；

根据所述视频帧的时空信息特征，确定所述视频片段的特征。

8.根据权利要求6所述的方法，其中，所述根据所述设定维度的向量，确定所述视频片段的特征，包括：

根据所述视频片段的视频帧之间的切换信息，确定所述视频片段的光流特征；

根据所述设定维度的向量和所述光流特征，确定所述视频片段的特征。

9.根据权利要求8所述的方法，其中，所述根据所述设定维度的向量和所述光流特征，确定所述视频片段的特征，包括：

将所述设定维度的向量、所述视频帧的时空信息特征和所述光流特征进行拼接，得到拼接特征；

根据所述拼接特征，确定所述视频片段的特征。

10.根据权利要求9所述的方法，其中，所述根据所述拼接特征，确定所述视频片段的特征，包括：

根据所述视频片段中每个视频帧的上一视频帧的拼接特征，确定所述每个视频帧的特征。

11.根据权利要求1-10中任意一项所述的方法，其中，所述目标片段与所述视频数据之间的关系包括所述目标片段与所述视频数据中非目标片段部分的关系，以及所述目标片段的在所述视频数据中的时序信息。

12.根据权利要求1所述的方法，其中，所述关联程度采用图神经网络确定。

13.根据权利要求12所述的方法，其中，所述图神经网络包括主题信息图神经网络和视频片段图神经网络；所述关联程度的确定方式包括：

采用所述主题信息图神经网络，根据所述主题信息所包括的主题内容片段，确定所述主题内容片段的全局特征；

采用所述视频片段图神经网络，根据所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述视频数据所包括的视频片段的全局特征；

根据所述主题内容片段的全局特征和所述视频数据所包括的视频片段的全局特征，确定所述关联程度。

14.根据权利要求1-13中任意一项所述的方法，其中，所述方法还包括：

根据所述关联程度，确定所述视频数据的视频摘要。

15.一种视频数据处理装置，包括：

主题信息获取模块，用于获取需要提取的主题信息；

关联程度确定模块，用于根据所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度。

16.根据权利要求15所述的装置，其中，所述关联程度确定模块包括：

主题片段单元，用于根据所述主题信息，确定多个主题内容片段；

主题关系单元，用于确定所述多个主题内容片段之间的关系；

关联程度单元，用于根据所述多个主题内容片段、所述多个主题内容片段之间的关系、所述视频数据的片段信息、以及所述目标片段与所述视频数据之间的关系，确定所述目标片段与所述主题信息的关联程度。

17.根据权利要求16所述的装置，其中，所述关联程度单元还用于：

18.根据权利要求17所述的装置，其中，所述关联程度单元还用于：

19.根据权利要求15所述的装置，其中，所述目标片段获取模块包括：

划分单元，用于按照设定的间隔，划分所述待提取的视频数据，得到所述视频数据的多个视频片段；

目标确定单元，用于将所述视频数据的多个视频片段中的至少一个，作为所述目标片段。

20.根据权利要求15-19中任意一项所述的装置，其中，所述片段信息包括视频片段的特征，所述装置还包括：

转换模块，用于将所述视频片段中的每个视频帧，转换为设定维度的向量，所述设定维度的向量包括所述视频帧的内容信息；

特征确定模块，用于根据所述设定维度的向量，确定所述视频片段的特征。

21.根据权利要求20所述的装置，其中，所述特征确定模块包括：

时空特征单元，用于将所述设定维度的向量进行三维卷积计算，得到视频帧的时空信息特征；

时空特征处理单元，用于根据所述视频帧的时空信息特征，确定所述视频片段的特征。

22.根据权利要求20所述的装置，其中，所述特征确定模块包括：

光流特征单元，用于根据所述视频片段的视频帧之间的切换信息，确定所述视频片段的光流特征；

光流特征处理单元，用于根据所述设定维度的向量和所述光流特征，确定所述视频片段的特征。

23.根据权利要求22所述的装置，其中，所述光流特征处理单元还用于：

根据所述拼接特征，确定所述视频片段的特征。

24.根据权利要求23所述的装置，其中，所述光流特征处理单元还用于：

25.根据权利要求15-24中任意一项所述的装置，其中，所述目标片段与所述视频数据之间的关系包括所述目标片段与所述视频数据中非目标片段部分的关系，以及所述目标片段的在所述视频数据中的时序信息。

26.根据权利要求15所述的装置，其中，所述关联程度确定模块采用图神经网络确定所述关联程度。

27.根据权利要求26所述的方法，其中，所述图神经网络包括主题信息图神经网络和视频片段图神经网络；所述关联程度单元还用于：

根据所述主题信息全局特征和所述视频数据全局特征，确定所述关联程度。

28.根据权利要求15-27中任意一项所述的装置，其中，所述装置还包括：

视频摘要模块，用于根据所述关联程度，确定所述视频数据的视频摘要。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。