CN116975331A

CN116975331A - 媒体全局信息提取方法、装置、计算机设备和存储介质

Info

Publication number: CN116975331A
Application number: CN202310203065.5A
Authority: CN
Inventors: 孔伟杰; 吉雅太; 涂荣成; 蒋杰; 蔡成飞; 赵文哲; 王红法; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-10-31

Abstract

本申请涉及人工智能，具体本申请涉及一种媒体全局信息提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取媒体数据集和媒体数据集初始的全局时空特征；根据初始的全局时空特征，确定与媒体数据集的多个媒体数据对应的多个媒体特征序列；基于多个媒体特征序列确定初始的挖掘特征序列，并基于初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列；根据输出的挖掘特征序列中与媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。采用本方法能够提升媒体全局信息的准确性。

Description

媒体全局信息提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种媒体全局信息提取方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的高速发展，长文本和视频等媒体数据集急剧增长，如何从大量媒体数据集中检索出需要的媒体数据集成为了一个研究热点。

目前，对于多个媒体数据集中的当前媒体数据集，主要是确定当前媒体数据集中的每个媒体数据各自对应的特征表示，并将当前媒体数据集中的每个媒体数据各自对应的特征表示的平均池化结果，作为当前媒体数据集的媒体全局信息。从而基于表征当前媒体数据集的媒体全局信息，来确定当前媒体数据集是否是需要从多个媒体数据集中筛选出目标媒体数据集。

然而，由于媒体数据所对应的特征表示中包含的媒体数据集的信息是有限的，使得基于各媒体数据各自对应的特征表示所确定的媒体全局信息并不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升所提取的媒体全局信息的准确性的媒体全局信息提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种媒体全局信息提取方法，所述方法包括：

获取媒体数据集和所述媒体数据集初始的全局时空特征；所述媒体数据集中的多个媒体数据在时序上具有先后关联关系；所述媒体数据中的多个元素在空间上具有位置关联关系；所述全局时空特征用于记载所述媒体数据集的时序信息和空间信息；

根据所述初始的全局时空特征，确定与所述媒体数据集的多个媒体数据对应的多个媒体特征序列；每个所述媒体特征序列包括所述初始的全局时空特征；

基于所述多个媒体特征序列确定初始的挖掘特征序列，并基于所述初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列；其中，每轮次的挖掘，是基于前个轮次获得的挖掘特征序列中与每个所述媒体数据各自对应的全局时空特征，对所述媒体数据集进行时序信息和空间信息的信息提取；

根据所述输出的挖掘特征序列中与所述媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与所述媒体数据集相对应的媒体全局信息。

第二方面，本申请还提供了一种媒体全局信息提取装置，所述装置包括：

模型输入生成模块，用于获取媒体数据集和所述媒体数据集初始的全局时空特征；根据所述初始的全局时空特征，确定与所述媒体数据集的多个媒体数据对应的多个媒体特征序列；每个所述媒体特征序列包括所述初始的全局时空特征；所述媒体数据集中的多个媒体数据在时序上具有先后关联关系；所述媒体数据中的多个元素在空间上具有位置关联关系；所述全局时空特征用于记载所述媒体数据集的时序信息和空间信息；

模型处理模块，用于基于所述多个媒体特征序列确定初始的挖掘特征序列，并基于所述初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列；其中，每轮次的挖掘，是基于前个轮次获得的挖掘特征序列中与每个所述媒体数据各自对应的全局时空特征，对所述媒体数据集进行时序信息和空间信息的信息提取；

媒体全局信息生成模块，用于根据所述输出的挖掘特征序列中与所述媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与所述媒体数据集相对应的媒体全局信息。

在其中一个实施例中，在所述媒体数据集为视频的情况下，所述媒体数据集中的多个媒体数据为所述视频中的连续的视频帧，所述元素为相应视频帧中的图像块。

在其中一个实施例中，在所述媒体数据集为文本序列的情况下，所述媒体数据集中的多个媒体数据为所述文本序列中的连续的文本句，所述元素为相应文本句中的字符。

在其中一个实施例中，所述模型输入生成模块用于，确定所述媒体数据集中的每个媒体数据各自对应的初始特征序列；根据所述初始的全局时空特征和所述每个媒体数据各自对应的初始特征序列，确定所述媒体数据集中的每个媒体数据各自对应的媒体特征序列。

在其中一个实施例中，所述模型输入生成模块，用于针对所述媒体数据集中的每个媒体数据，对所针对的媒体数据进行划分，得到所述针对的媒体数据所对应的元素集；针对所述元素集中的每个元素，对所针对的元素进行特征映射，得到所述针对的元素所对应的元素特征；综合特征映射得到的所述元素集中的每个元素各自对应的元素特征，得到所针对的媒体数据所对应的初始特征序列。

在其中一个实施例中，所述模型输入生成模块，用于对于所述媒体数据集中的每个媒体数据，在当前媒体数据所对应的初始特征序列中增加所述初始的全局时空特征，得到所述当前媒体数据所对应的中间特征序列；在所述中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到所述当前媒体数据所对应的媒体特征序列。

在其中一个实施例中，所述模型输入生成模块，用于针对所述中间特征序列中的每个元素特征，确定与所述针对的元素特征相对应的元素在所述当前媒体数据中的空间位置，并根据所述空间位置生成所述针对的元素特征所对应的空间位置编码，在所述针对的元素特征中增加生成的所述空间位置编码；确定所述当前媒体数据在所述媒体数据集中的时序位置，并对所述时序位置进行编码的，得到所述针对的元素特征相对应的时序位置编码，在所述针对的元素特征中增加所述时序位置编码。

在其中一个实施例中，所述模型处理模块，用于获取信息挖掘模型，并将所述多个媒体特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型输出的初始的挖掘特征序列；确定当前轮次，将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型在当前轮次输出的挖掘特征序列；将下一轮次作为当前轮次，并返回至将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型在当前轮次输出的挖掘特征序列的步骤继续执行，直至满足停止条件时停止。

在其中一个实施例中，所述模型处理模块，用于将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，通过所述信息挖掘模型，对前一轮次输出的挖掘特征序列进行的全局时空信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征；通过所述信息挖掘模型，对所述前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征序列；分别将对应于相同媒体数据的当前轮次的全局时空特征和当前轮次的空间信息挖掘特征序列进行拼接，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的挖掘特征。

在其中一个实施例中，所述模型处理模块，用于从所述前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征，得到特征提取集合；将所述特征提取集合中的每个所述全局时空特征，与所述前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征。

在其中一个实施例中，所述模型处理模块，用于对所述特征提取集合和所述前一轮次输出的挖掘特征序列进行第一多头注意力处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征；其中，在进行第一注意力处理时，所述特征提取集合作为查询元素；所述前一轮次输出的挖掘特征序列，分别作为键元素和值元素。

在其中一个实施例中，所述模型处理模块，用于针对所述前一轮次输出的挖掘特征序列中每个挖掘特征，提取所针对的挖掘特征中的多个元素特征，得到前一轮次的空间信息挖掘特征序列；将所述前一轮次的空间信息挖掘特征序列与所述针对的挖掘特征进行交互，获得当前轮次的与所述针对的挖掘特征相对应的空间信息挖掘特征序列；将获得的当前轮次的空间信息挖掘特征序列，作为当前轮次的与所述针对的挖掘特征相对应的媒体数据所对应的空间信息挖掘特征序列。

在其中一个实施例中，所述模型处理模块，用于对所述前一轮次的空间信息挖掘特征序列和所述针对的挖掘特征进行第二多头注意力处理，得到当前轮次的与所述针对的挖掘特征相对应的空间信息挖掘特征序列；其中，在第二多头注意力处理中，所述元素特征序列作为查询元素；所述针对的挖掘特征，分别作为键元素和值元素。

在其中一个实施例中，所述媒体数据集为视频，所述媒体全局信息提取装置还包括检索模块，用于获取检索文案，并提取所述检索文案的信息，得到检索文案信息；确定所述媒体数据集的媒体全局信息与所述检索文案信息之间的相似度；当所述相似度大于或等于预设相似度阈值时，将所述媒体数据集作为与所述检索文案相匹配的目标视频。

在其中一个实施例中，所述媒体数据集包括于预设数据库；所述媒体全局信息提取装置还包括相似度确定模块，用于获取所述预设数据库中的每个媒体数据集各自对应的全局信息；根据所述每个媒体数据集各自对应的全局信息，确定所述预设数据库中的每个媒体数据集之间的相似度。

在其中一个实施例中，所述媒体数据集为视频；所述媒体全局信息提取装置还包括推荐信息生成模块，用于获取与所述媒体数据集语义关联的关联文案；提取所述关联文案的信息，得到关联文案信息；获取信息生成模型，通过所述信息生成模型，并根据包括所述文案信息和所述媒体全局信息的多模态信息，生成与所述关联文案和所述媒体数据集相匹配的推荐信息。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的任一种媒体全局信息提取方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种媒体全局信息提取方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的任一种媒体全局信息提取方法中的步骤。

上述媒体全局信息提取方法、装置、计算机设备、存储介质和计算机程序产品，通过获取媒体数据集和初始的全局时空特征，可生成携带有该初始的全局时空特征的媒体特征序列。通过生成多个媒体特征序列，可基于生成的多个媒体特征序列生成初始的挖掘特征序列，并基于初始的挖掘特征序列进行多轮次的时序信息和空间信息的挖掘，以得到输出的挖掘特征序列，如此，便可根据输出的挖掘特征序列中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。通过设置多个全局时空特征，相比于仅设置一个全局时空特征，可通过多个全局时空特征提取更为丰富的时序信息和空间信息。通过多轮次的对媒体数据集进行时序信息和空间信息的挖掘，可使得每个媒体数据各自对应的全局时空特征均能够学习到更为准确、丰富的时序信息和空间信息。由于各全局时空特征均能够学习到更为准确、丰富的时序信息和空间信息的全局时空信息，使得基于全局时空信息得到的媒体全局信息能够更为准确。

附图说明

图1为一个实施例中媒体全局信息提取方法的应用环境图；

图2为一个实施例中媒体全局信息提取方法的流程示意图；

图3为一个实施例中媒体数据集的示意图；

图4为另一个实施例中媒体数据集的示意图；

图5为一个实施例中多轮次挖掘的示意图；

图6为另一个实施例中多轮次挖掘的示意图；

图7为一个实施例中初始特征序列的生成示意图；

图8为一个实施例中媒体特征序列的生成示意图；

图9为一个实施例中目标视频序列的生成示意图；

图10为一个实施例中推荐信息的生成示意图；

图11为一个具体实施例中媒体全局信息提取方法的流程示意图；

图12为一个实施例中信息挖掘模型的结构示意图；

图13为一个实施例中媒体全局信息提取装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的媒体全局信息提取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。终端102和服务器104均可单独用于执行本申请实施例中提供的媒体全局信息提取方法。终端102和服务器104也可协同用于执行本申请实施例中提供的媒体全局信息提取方法。以终端102和服务器104可协同用于执行本申请实施例中提供的媒体全局信息提取方法为例进行说明，用户可通过终端102上传媒体数据集，从而终端102可将用户上传的媒体数据集发送至服务器104，以使服务器104对接收到的媒体数据集进行媒体全局信息的提取，并将提取得到的媒体全局信息返回至终端102。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是本申请涉及人工智能技术，比如，本申请是通过人工智能模型来提取媒体数据集的媒体全局信息。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

需要说明的是，本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”，“多份”指“至少两份”。

在一个实施例中，如图2所示，提供了一种媒体全局信息提取方法，以该方法应用于计算机设备为例进行说明。计算机设备可为图1中终端或者服务器。媒体全局信息提取方法包括以下步骤：

步骤202，获取媒体数据集和媒体数据集初始的全局时空特征；媒体数据集中的多个媒体数据在时序上具有先后关联关系；媒体数据中的多个元素在空间上具有位置关联关系；全局时空特征用于记载媒体数据集的时序信息和空间信息。

其中，媒体数据集是指媒体数据的集合。媒体数据是指用于传递信息的介质，比如，媒体数据具体可为图片、文本句等。全局时空特征是指用于记载媒体数据集的时序信息和空间信息的特征。时序信息是指媒体数据集在时序维度上的信息。空间信息是指媒体数据集在空间维度上的信息。

具体地，当需要提取媒体数据集的媒体全局信息时，计算机设备可获取媒体数据集以及初始的全局时空特征。其中，初始的全局时空特征可为一个自定义的特征。比如，可预先设置全局时空特征的初始化流程，当需要获取初始的全局时空特征时，可按照预先设置的初始化流程进行初始化处理，从而得到初始的全局时空特征。

在其中一个实施例中，媒体数据集具体可为视频，在媒体数据集为视频的情况下，媒体数据集中的多个媒体数据为视频中的连续的视频帧，元素为相应视频帧中的图像块。

比如，参考图3，媒体数据集具体可为视频，从而媒体数据为该视频中的视频帧，元素为视频帧中的图像块。图像块是指对视频帧进行划分后，得到的图片块。图3示出了一个实施例中媒体数据集的示意图。

在其中一个实施例中，媒体数据集具体可为文本序列。在媒体数据集为文本序列的情况下，媒体数据集中的多个媒体数据为文本序列中的连续的文本句，元素为相应文本句中的字符。

比如，参考图4，媒体数据集具体可为文本序列，从而媒体数据为该文本序列中的文本句，元素为文本句中的字符。文本序列是指包括多个文本句的序列，比如，文本序列具体可为长文本。文本句是指语意完整的句子，字符可为中文字符、英文字符等。图4示出了另一个实施例中媒体数据集的示意图。

在其中一个实施例中，媒体数据集中的媒体数据在时序上具有先后关联关系，媒体数据中的多个元素在空间上具有位置关联关系。

其中，在时序上具有先后关联关系，是指媒体数据集中的各媒体数据在时间维度上具有先后顺序。比如，在媒体数据集为视频的时候，当播放视频时，媒体数据集中的媒体数据之间具有先后播放顺序。在媒体数据集为文本序列的时候，文本序列中的多个文本句之间具有阅读先后顺序。

空间位置上具有位置关联关系，是指媒体数据中的各元素在空间维度上具有位置的关联关系。比如，在媒体数据集为视频的时候，对于一帧视频帧，该视频帧中的多个图像块在空间位置上具有关联，示例性地，当对视频帧进行划分，得到图像块A和图像块B时，图像块A可为该视频帧中的第一个图像块，图像块B可为该视频帧中的第二个图像块，相较于图像块B，图像块A位于图像块B的左侧。又比如，在媒体数据集为文本序列的时候，对于一个文本句，该文本句中的多个字符在空间位置上具有关联。示例性地，当文本句包括字符A和字符B时，字符A可为该文本句中的第一个字符，字符B可为该文本句中的第二个字符，相较于字符B，字符A位于字符B的左侧。

步骤204，根据初始的全局时空特征，确定与媒体数据集的多个媒体数据对应的多个媒体特征序列；每个媒体特征序列包括初始的全局时空特征。

具体地，针对媒体数据集中的多个媒体数据，计算机设备分别对每个媒体数据进行映射，得到每个媒体数据各自对应的初始特征序列。计算机设备根据获取的初始的全局时空特征和每个媒体数据各自对应的初始特征序列，得到每个媒体数据各自对应的媒体特征序列。

在其中一个实施例中，针对每个媒体数据各自对应的初始特征序列，计算机设备可将所针对的初始特征序列加上初始的全局时空特征，得到相应的媒体特征序列。也即，计算机设备将每个初始特征序列分别与初始的全局时空特征进行叠加，得到每个媒体数据各自对应的媒体特征序列。

在其中一个实施例中，计算机设备可将每个初始特征序列分别与初始的全局时空特征进行叠加，得到每个媒体数据各自对应的中间特征序列，在基于每个媒体数据各自对应的中间特征序列，确定每个媒体数据各自对应的媒体特征序列。比如，可在每个中间特征序列中加上空间位置编码和时序位置编码，以得到相应的媒体特征序列。其中，空间位置编码是对相应元素在相应媒体数据中的空间位置进行编码得到的。时序位置编码是对相应媒体数据在媒体数据集中的时序进行编码得到的。

通过在每个媒体特征序列中增加初始的全局时空特征，可分别通过每个初始的全局时空特征对媒体数据集中的时序信息和空间信息进行挖掘，从而每个全局时空特征均可学习到媒体数据集中的时序信息和空间信息。

步骤206，基于多个媒体特征序列确定初始的挖掘特征序列，并基于初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列；其中，每轮次的挖掘，是基于前个轮次获得的挖掘特征序列中与每个媒体数据各自对应的全局时空特征，对媒体数据集进行时序信息和空间信息的信息提取。

其中，多个媒体特征序列，可包括媒体数据集中的每个媒体数据各自对应的媒体特征序列。

具体地，计算机设备可获取一个或多个信息挖掘模型，当信息挖掘模型为多个时，多个信息挖掘模型之间相互串联。比如，参考图5，可设置串联的多个信息挖掘模型501。进一步地，计算机设备可将多个媒体特征序列输入至首个信息挖掘模型，首个信息挖掘模型可输出初始的挖掘特征序列，并基于第二个信息挖掘模型至最后一个信息挖掘模型进行多轮次的挖掘，获取输出的挖掘特征序列。比如，串联的多个信息挖掘模型中的第二个信息挖掘模型可进行第二轮次的挖掘，计算机设备将初始的挖掘特征序列输入至第二个信息挖掘模型，以通过第二个信息挖掘模型输出第二轮次的挖掘特征序列，并将输出的第二轮次的挖掘特征序列输入至第三个信息挖掘模型，通过第三个信息挖掘模型输出第三个轮次的挖掘特征序列，依次迭代，直至串联的多个信息挖掘模型中的最后一个信息挖掘模型输出最后一个轮次的挖掘特征序列。图5示出了一个实施例中多轮次挖掘的示意图。

在其中一个实施例中，基于多个媒体特征序列确定初始的挖掘特征序列，包括：获取信息挖掘模型，并将多个媒体特征序列输入至信息挖掘模型，获得信息挖掘模型输出的初始的挖掘特征序列；基于初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列，包括：确定当前轮次，将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列；将下一轮次作为当前轮次，并返回至将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列的步骤继续执行，直至满足停止条件时停止。

具体地，计算机设备可获取一个或多个信息挖掘模型，当信息挖掘模型为1个时，计算机设备可将媒体数据集中的每个媒体数据各自对应的媒体特征序列输入至该信息挖掘模型，以通过信息挖掘模型对输入的每个媒体数据各自对应的媒体特征序列进行处理，得到初始的挖掘特征序列。之后，计算机设备可将初始的挖掘特征序列再次输入至该信息挖掘模型，以通过信息挖掘模型进行多轮次的挖掘，直至满足停止条件时停止，获得输出的挖掘特征序列。其中，停止条件可根据需求自由设置，比如，当到达预设迭代次数后，确定满足停止条件。

其中，在多个轮次的挖掘中，前一轮次获得的挖掘特征序列，为当前轮次的输入。比如，参考图6，在信息挖掘模型输出前一轮次的挖掘特征序列后，可进入当前轮次，计算机设备可将前一轮次的挖掘特征序列再次输入至该信息挖掘模型，以通过该信息挖掘模型对前一轮次的挖掘特征序列进行处理，并输出当前轮次的挖掘特征序列。其中，信息挖掘模型为一个人工智能模型，通过信息挖掘模型可对媒体数据集的时序信息和空间信息进行挖掘。图6示出了另一个实施例中多轮次挖掘的示意图。

在其中一个实施例中，每轮次的挖掘，是基于前个轮次获得的挖掘特征序列中与每个媒体数据各自对应的全局时空特征，对媒体数据集进行时序信息和空间信息的信息提取。由于已在输入至信息挖掘模型的每个媒体特征序列中增加了初始的全局时空特征，因此，基于多个媒体特征序列生成的各挖掘特征序列中也会携带有全局时空特征，并且，在每轮次的挖掘中，每个全局时空特征均会与媒体数据集中的每个媒体数据的特征进行交互，以使得每个全局时空特征能够学习到媒体数据集的时序信息和空间信息。比如，对于首轮次的挖掘而言，每个媒体特征序列中的初始的全局时空特征均会学习媒体数据集的时序信息和空间信息，以得到每个媒体数据的各自对应的首个轮次的全局时空特征，并基于每个媒体数据的各自对应的首个轮次的全局时空特征得到初始的挖掘特征序列。对于第二轮次的挖掘而言，每个媒体数据的各自对应的首个轮次的全局时空特征均会再次学习到媒体数据集的时序信息和空间信息，以得到每个媒体数据的各自对应的第二个轮次的全局时空特征，并基于每个媒体数据的各自对应的第二个轮次的全局时空特征生成得到第二个轮次的挖掘特征序列。

其中，时序信息是指媒体数据集在时序维度上的信息。比如，当媒体数据集为视频时，时序信息可用于指示哪些连续的视频帧会构成“端起杯子”这一动作。空间信息是指媒体数据集在空间维度上的信息，比如，空间信息可用于指示“杯子”这一物件在当前视频帧中出现的位置和在下一视频帧中出现的位置。

通过设置多个全局时空特征，相比于仅设置一个全局时空特征，可通过多个全局时空特征提取更为丰富的时序信息和空间信息。通过多轮次的对媒体数据集进行时序信息和空间信息的信息提取，使得每个媒体数据各自对应的全局时空特征能够学习到更为准确、丰富的时序信息和空间信息。

步骤208，根据输出的挖掘特征序列中与媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。

具体地，获得的输出的挖掘特征序列具体可为最后一个轮次的挖掘特征序列。当得到最后一个轮次的挖掘特征序列后，计算机设备可根据最后一个轮次的挖掘特征序列中的每个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。也即，计算机设备可根据每个媒体数据各自对应的最后一个轮次的全局时空特征，确定媒体全局信息。比如，计算机设备可对每个媒体数据各自对应的最后一个轮次的全局时空特征进行均值处理，得到最后一个轮次的全局时空特征的均值，并将该均值作为媒体数据集相对应的媒体全局信息。或者，当得到均值后，对该均值进行解码，以得到媒体全局信息。

上述媒体全局信息提取方法中，通过获取媒体数据集和初始的全局时空特征，可生成携带有该初始的全局时空特征的媒体特征序列。通过生成多个媒体特征序列，可基于生成的多个媒体特征序列生成初始的挖掘特征序列，并基于初始的挖掘特征序列进行多轮次的时序信息和空间信息的挖掘，以得到输出的挖掘特征序列，如此，便可根据输出的挖掘特征序列中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。通过设置多个全局时空特征，相比于仅设置一个全局时空特征，可通过多个全局时空特征提取更为丰富的时序信息和空间信息。通过多轮次的对媒体数据集进行时序信息和空间信息的挖掘，可使得每个媒体数据各自对应的全局时空特征均能够学习到更为准确、丰富的时序信息和空间信息。由于各全局时空特征均能够学习到更为准确、丰富的时序信息和空间信息的全局时空信息，使得基于全局时空信息得到的媒体全局信息能够更为准确。

在其中一个实施例中，根据初始的全局时空特征，确定与媒体数据集的多个媒体数据对应的多个媒体特征序列包括：确定媒体数据集中的每个媒体数据各自对应的初始特征序列；根据初始的全局时空特征和每个媒体数据各自对应的初始特征序列，确定媒体数据集中的每个媒体数据各自对应的媒体特征序列。

具体地，当获取得到媒体数据集时，计算机设备可确定媒体数据集中的每个媒体数据各自对应的初始特征序列。比如，针对媒体数据集中的每个媒体数据，计算机设备可对各媒体数据进行特征映射，得到媒体数据各自对应的初始特征序列。进一步地，计算机设备分别将每个初始特征序列与初始的全局时空特征进行融合，以得到每个媒体数据各自对应的媒体特征序列。比如，针对每个媒体数据各自对应的初始特征序列，计算机设备均将所针对的初始特征序列与初始的全局时空特征进行叠加，得到所针对的初始特征序列所对应的媒体特征序列，也即，得到与所针对的初始特征序列相对应的媒体数据所对应的媒体特征序列。

本实施例中，将媒体数据转换为初始特征序列，可便于后续基于初始特征序列和初始的全局时空特征得到用于输入至机器学习模型的媒体特征序列。

在其中一个实施例中，确定媒体数据集中的每个媒体数据各自对应的初始特征序列，包括：针对媒体数据集中的每个媒体数据，对所针对的媒体数据进行划分，得到针对的媒体数据所对应的元素集；针对元素集中的每个元素，对所针对的元素进行特征映射，得到针对的元素所对应的元素特征；综合特征映射得到的元素集中的每个元素各自对应的元素特征，得到所针对的媒体数据所对应的初始特征序列。

具体地，针对媒体数据集中的每个媒体数据，计算机设备均对每个媒体数据进行划分，得到每个媒体数据各自对应的元素集。比如，参考图7，在媒体数据集为视频I∈R^M ^×3×H×W的时候，每个元素集即为对相应视频帧进行划分后得到的图像块的集合。示例性的，计算机设备将视频I中的每个视频帧划分为N个图像块。也即，将视频I划分为M×N个图像块X∈R^{M×3×N×P×P}，每个图片块的大小是P×P，且N＝HW/(P×P)。其中，M表示视频I中的视频帧的数量，每一帧视频帧的分辨率为H×W，且通道数为3。

进一步地，对于每个媒体数据各自对应的元素集，计算机设备均生成每个元素集各自对应的初始特征序列，由于元素集是与媒体数据一一对应的，当生成每个元素集各自对应的初始特征序列时，也即生成了每个媒体数据各自对应的初始特征序列。针对每个媒体数据各自对应的元素集，当需要生成与所针对的元素集相对应的初始特征序列时，计算机设备可确定所针对的元素集中的每个元素，并将所确定的每个元素分别映射为元素特征，综合映射得到的各元素特征，得到与所针对的元素集相对应的初始特征序列。也即，初始特征序列中可包括多个元素特征。图7示出了一个实施例中初始特征序列的生成示意图。

在其中一个实施例中，针对所针对的元素集中的每个元素，计算机设备将所针对的元素映射为D维的元素特征。比如，对于视频帧中的图像块，计算机设备可将图像块映射为D维的元素特征。

在其中一个实施例中，对于视频I∈R^M×3×H×W，生成的初始特征序列为v_i∈R^N×D，从而视频I中的多个视频帧所对应的多个初始特征序列为其中，i代表视频中的第i个视频帧，M代表视频帧的总数量，N代表元素集中的图像块的数量，D代表元素特征的维度。

上述实施例中，通过对媒体数据进行划分，可得到元素集，从而使得后续可基于元素集对媒体数据进行更为细致的处理，以基于更为细致的处理得到更能够表征媒体数据的初始特征序列，进而后续可基于更能够表征媒体数据的初始特征序列得到更为准确的媒体全局信息。

在其中一个实施例中，根据初始的全局时空特征和每个媒体数据各自对应的初始特征序列，确定媒体数据集中的每个媒体数据各自对应的媒体特征序列，包括：对于媒体数据集中的每个媒体数据，在当前媒体数据所对应的初始特征序列中增加初始的全局时空特征，得到当前媒体数据所对应的中间特征序列；在中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到当前媒体数据所对应的媒体特征序列。

具体地，当得到每个媒体数据各自对应的初始特征序列时，针对每个媒体数据各自对应的初始特征序列，计算机设备可在当前媒体数据所对应的初始特征序列中增加初始的全局时空特征，得到当前媒体数据所对应的中间特征序列。其中，容易理解地，当前媒体数据可为媒体数据集中的任意一个媒体数据。

进一步地，当得到每个媒体数据各自对应的中间特征序列时，计算机设备可分别在每个中间特征序列中增加空间位置编码和时序位置编码，得到每个媒体数据各自对应的媒体特征序列。比如，参考图8，计算机设备可在初始特征序列中增加初始的全局时空特征、空间位置编码和时序位置编码，以得到媒体特征序列。图8示出了一个实施例中媒体特征序列的生成示意图。

本实施例中，通过在初始特征序列中增加初始的全局时空特征，使得后续可基于增加的全局时空特征对媒体数据集中的时序信息和空间信息进行学习，使得学习后的全局时空特征可具有媒体数据的时序信息和空间信息。通过增加空间位置编码，使得信息挖掘模型可基于空间位置编码得知相应的元素在媒体数据中的位置。通过增加时序位置编码，使得信息挖掘模型可基于时序位置编码得知相应的媒体数据在媒体数据集中的时序顺序，从而基于所得知的空间位置和时序顺序进行更为准确的时序信息和空间信息的提取。

在其中一个实施例中，在中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到当前媒体数据所对应的媒体特征序列，包括：针对中间特征序列中的每个元素特征，确定与针对的元素特征相对应的元素在当前媒体数据中的空间位置，并根据空间位置生成针对的元素特征所对应的空间位置编码，在针对的元素特征中增加生成的空间位置编码；确定当前媒体数据在媒体数据集中的时序位置，并对时序位置进行编码的，得到针对的元素特征相对应的时序位置编码，在针对的元素特征中增加生成的时序位置编码。

其中，中间特征序列中包括初始的全局时空特征和多个元素特征。当在初始特征序列中增加初始的全局时空特征后，初始特征序列即称作中间特征序列。初始特征序列中的元素特征是与元素一一对应的。

具体地，当得到当前媒体数据所对应的中间特征序列时，针对该中间特征序列中的每个元素特征，计算机设备均可在所针对的元素特征中增加相应的空间位置编码和相应的时序位置编码，从而当在该中间特征序列中的每个元素特征中增加了空间位置编码和时序位置编码后，该中间特征序列即为媒体特征序列。

容易理解地，对于媒体数据集中的每个媒体数据各自对应的初始特征序列，计算机设备均可按照上述方式处理，以得到每个媒体数据各自对应的媒体特征序列。

在其中一个实施例中，当需要在所针对的元素特征中增加相应的空间位置编码和相应的时序位置编码时，计算机设备可确定与所针对的元素特征相对应的元素在相应媒体数据中的空间位置。比如，当得到视频帧A所对应的中间特征序列，且视频帧A包括图像块a至d时，中间特征序列即可包括图像块a至d的元素特征。当所针对的元素特征为图像块a时，计算机设备可确定图像块a在视频帧A中的空间位置，比如，确定图像块a为视频帧A中的第一个图像块，并对该空间位置进行编码，得到图像块a所对应的空间位置编码。进一步地，计算机设备将图像块a所对应的空间位置编码增加至图像块a所对应的元素特征中。计算机设备可确定视频帧A在视频中的时序位置，比如，确定视频帧A为视频中的第一个视频帧，并对该时序位置进行编码，得到图像块a所对应的时序位置编码，将该时序位置编码增加至图像块a所对应的元素特征中。容易理解地，图像块a所对应的元素特征，为对图像块a进行特征映射得到的特征。

在其中一个实施例中，不同媒体数据但空间位置相同的元素所对应的元素特征中增加相同的空间位置编码；对于同一媒体数据中的各元素，各元素各自对应的元素特征中均增加相同的时序位置编码。比如，在媒体数据集为视频时，不同视频帧但位置相同的图像块的元素特征加上相同的空间位置编码，同一视频帧内的所有图片块所对应的元素特征加上相同的时序位置编码。

在其中一个实施例中，当媒体数据为视频帧时，可通过下述公式在元素特征中增加空间位置编码和时序位置编码：

其中，i代表第i个视频帧，j为第j个图像块，v_ij代表第i个视频帧中的第j个图像块所对应的元素特征。代表各视频帧中的第j个图像块的空间位置编码，/>代表第j个视频帧中的每个图像块各自对应的时序位置编码。其中，空间位置编码E^s∈R^(×N)×D，时序位置编码E^t∈R^M×D。M代表视频帧的数量，D代表元素特征的维度，N代表视频帧中的图像块的数量。

上述实施例中，通过增加空间位置编码，使得信息挖掘模型可基于空间位置编码得知相应的元素在媒体数据中的位置。通过增加时序位置编码，使得信息挖掘模型可基于时序位置编码得知相应媒体数据在媒体数据集中的时序顺序，从而基于得知的空间位置和时序顺序进行更为准确的时序信息和空间信息的提取。

在其中一个实施例中，基于多个媒体特征序列确定初始的挖掘特征序列，包括：获取信息挖掘模型，并将多个媒体特征序列输入至信息挖掘模型，获得信息挖掘模型输出的初始的挖掘特征序列；基于初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列，包括：确定当前轮次，将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列；将下一轮次作为当前轮次，并返回至从首轮之后的第二轮次起的当前轮次中，将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列的步骤继续执行，直至满足停止条件时停止。

具体地，计算机设备可将生成的多个媒体特征序列作为信息挖掘模型的输入。比如，当得到多个媒体特征序列时，计算机设备可将输入至信息挖掘模型，以得到输出的挖掘特征序列。其中，为第i个媒体数据所对应的媒体特征序列。M代表媒体数据的总数量，N代表媒体数据中的元素的数量，D代表元素特征的维度。

在其中一个实施例中，对于首轮次而言，当信息挖掘模型接收到每个媒体数据各自对应的媒体特征序列时，信息挖掘模型可输出每个媒体特征序列各自对应的初始的挖掘特征，由于媒体数据与媒体特征序列是一一对应的，因此，得到的也是每个媒体数据各自对应的初始的挖掘特征。综合每个媒体数据各自对应的初始的挖掘特征，即可得到初始的挖掘特征序列。后续，信息挖掘模型可基于每个媒体数据各自对应的初始的挖掘特征，生成每个媒体数据各自对应的第二轮次的挖掘特征，并基于每个媒体数据各自对应的第二轮次的挖掘特征，生成每个媒体数据各自对应的第三轮次的挖掘特征，依次类推，直至最终轮次。

在其中一个实施例中，对于首轮次而言，当信息挖掘模型接收到多个媒体特征序列时，信息挖掘模型可提取多个媒体特征序列中的全部初始的全局时空特征，并将提取的初始的全局时空特征作组合成的初始的全局时空特征序列。信息挖掘模型将初始的全局时空特征序列与多个媒体特征序列进行多头注意力处理，以得到每个媒体数据各自对应的首个轮次的全局时空特征，综合每个媒体数据各自对应的首个轮次的全局时空特征，得到首个轮次的全局时空特征序列。

对于多个媒体特征序列中的每个媒体特征序列，信息挖掘模型提取当前媒体特征序列中的除初始的全局时空特征之外的其余媒体特征，得到其余媒体特征序列，并将其余媒体特征序列与当前媒体特征序列进行多头注意力处理，得到当前媒体特征序列所对应的首个轮次的空间信息挖掘特征序列。由于媒体特征序列是与媒体数据一一对应的，因此，当得到当前媒体特征序列所对应的首个轮次的空间信息挖掘特征序列时，在当前媒体特征序列与当前媒体数据相对应时，也即得到了首个轮次的与当前媒体数据相对应的空间信息挖掘特征序列。

当得到首个轮次的全局时空特征序列和每个媒体特征序列各自对应的首个轮次的空间信息挖掘特征序列时，计算机设备基于首个轮次的全局时空特征序列和每个媒体特征序列各自对应的首个轮次的空间信息挖掘特征序列，得到初始的挖掘特征序列，也即，得到首个轮次的挖掘特征序列，从而后续可基于该初始的挖掘特征序列进行多轮次的挖掘，得到最后一个轮次的挖掘特征序列。

容易理解地，由于各媒体特征序列可认为是对媒体数据集进行映射得到的序列，因此，对各媒体特征序列以及基于各媒体特征序列所生成的挖掘特征序列进行时序信息和空间信息的挖掘，即可认为是对媒体数据集中的时序信息和空间信息进行挖掘。

在其中一个实施例中，挖掘特征序列包括媒体数据集中的每个媒体数据各自对应的挖掘特征；将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，通过信息挖掘模型，对前一轮次输出的挖掘特征序列进行的全局时空信息挖掘处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征；通过信息挖掘模型，对前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征序列；分别将对应于相同媒体数据的当前轮次的全局时空特征和当前轮次的空间信息挖掘特征序列进行拼接，得到媒体数据集中的每个媒体数据在当前轮次各自对应的挖掘特征。

具体地，当得到初始的挖掘特征序列时，计算机设备将初始的挖掘特征序列输入至信息挖掘模型，以通过信息挖掘模型进行多轮次的挖掘。其中，在每个轮次中，信息挖掘模型可对前一次输出的挖掘特征序列进行全局信息挖掘处理，也即，进行时序信息和空间信息的挖掘处理，以得到媒体数据集中的每个媒体数据在当前轮次各自对应的全局时空特征。由于此时得到的全局时空特征中携带的空间信息是有限的，因此，信息挖掘模型还可进一步地对前一轮次输出的挖掘特征序列进行空间信息进行挖掘处理，以得到每个媒体数据在当前轮次各自对应的空间信息挖掘特征。

当得到当前轮次的每个媒体数据各自对应的全局时空特征和空间信息特征序列时，信息挖掘模型可将对应于相同媒体数据的全局时空特征和空间信息特征序列进行拼接，从而得到当前轮次的每个媒体数据各自对应的挖掘特征，综合每个媒体数据各自对应的挖掘特征，得到当前轮次输出的挖掘特征序列。

本实施例中，通过将全局时空特征与空间信息特征进行拼接，使得拼接得到的挖掘特征中可即包括丰富的时序信息又包括丰富的空间信息。

在其中一个实施例中，从前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征，得到特征提取集合；将特征提取集合中的每个全局时空特征，与前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征。

具体地，当得到前一轮次的挖掘特征序列时，由于每个媒体特征序列中均包括相应媒体数据所对应的全局时空特征，因此，前一轮次输出的挖掘特征序列中的每个挖掘特征中也具有全局时空特征。从而，针对前一轮次输出的挖掘特征序列中的每个挖掘特征，信息挖掘模型均提取所针对的挖掘特征中的全局时空特征，综合提取出的各全局时空特征，得到特征提取集合。

进一步地，信息挖掘模型将特征提取集合中的每个全局时空特征，均与前一轮次输出的挖掘特征序列进行交互，也即，将每个全局时空特征与前一轮次输出的每个挖掘特征进行交互，以得到媒体数据集中的每个媒体数据各自对应的当前轮次的全局时空特征。

在其中一个实施例中，全局时空信息与各挖掘特征进行交互的过程，即可认为是全局时空特征学习该挖掘特征中的时序信息和空间信息的过程，因此，当全局时空特征与每个挖掘特征进行交互后，即可学习到每个挖掘特征所蕴含的时序信息和空间信息。而当每个全局时空特征与每个挖掘特征进行交互后，每个全局时空特征均能学习到每个挖掘特征所蕴含的时序信息和空间信息。

在其中一个实施例中，全局时空特征与挖掘特征进行交互，可为全局时空特征与挖掘特征进行卷积处理，点积运算等等。

上述实施例中，通过将各全局时空特征与前一轮次的挖掘特征序列进行交互，可使得各全局时空特征能够学习到媒体数据集的时间信息和空间信息，从而使得各全局时空特征所蕴含的时间信息和空间信息能够更为丰富。

在其中一个实施例中，将特征提取集合中的每个全局时空特征，与前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征，包括：对特征提取集合和前一轮次输出的挖掘特征序列进行第一多头注意力处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征；在进行第一注意力处理时，特征提取集合作为查询元素；前一轮次输出的挖掘特征序列，分别作为键元素和值元素。

具体地，当需要将特征提取集合中的每个全局时空特征，与前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互时，信息挖掘模型可对特征提取集合和前一轮次输出的挖掘特征序列进行多头注意力处理，为了描述方便，下述将对特征提取集合和前一轮次输出的挖掘特征序列进行的多头注意力处理称作第一多头注意力处理。其中，特征提取集合为查询向量；前一轮次输出的挖掘特征序列，分别为键向量和值向量。自注意力模型可以看作为在一个线性投影空间中建立输入向量中不同形式之间的交互关系。多头注意力就是在多个不同的投影空间中建立不同的投影信息。在进行第一多头注意力处理时，特征提取集合可作为第一多头注意力处理中的查询元素(Query)；前一轮次输出的挖掘特征序列，即可作为第一多头注意力处理中的键元素(Key)，又可作为值元素(Value)。

在其中一个实施例中，可通过下述公式来进行第一注意力处理：

C^l＝Multi_head(C^l-1,G^l-1,G^l-1)

其中，G^l-1为第(l-1)轮次输出的挖掘特征序列；C^l-1为基于第(l-1)轮次输出的挖掘特征序列所确定的特征提取集合；l为第l轮；Multi_head代表多头注意力处理。其中，代表第(l-1)轮次输出的、与第i个媒体数据相对应的挖掘特征；M为媒体数据集中的媒体数据的总数量。

表示/>中的全局时空特征。

在其中一个实施例中，由于第一多头注意力处理更多的是使得全局时空特征能够学习到时序信息，因此，第一多头注意力处理又可认为是时序注意力运算，时序注意力运算是一个在时序维度的多头注意力机制。

上述实施例中，通过将特征提取集合与挖掘特征序列进行多头注意力处理，可使得特征提取集合中的全局时空特征能够学习到时序信息和空间信息。

在其中一个实施例中，对前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征，包括：针对前一轮次输出的挖掘特征序列中每个挖掘特征，提取所针对的挖掘特征中的多个元素特征，得到前一轮次的空间信息挖掘特征序列；将前一轮次的空间信息挖掘特征序列与针对的挖掘特征进行交互，获得当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列；将获得的当前轮次的空间信息挖掘特征序列，作为当前轮次的与针对的挖掘特征相对应的媒体数据所对应的空间信息挖掘特征序列。

具体地，对于前一轮次输出的挖掘特征序列中的每个挖掘特征，信息挖掘模型确定所针对的挖掘特征中除全局时空特征之外的其余特征，得到前一轮次的空间信息挖掘特征序列。也即，信息挖掘模型提取所针对的挖掘特征序列中的全部元素特征，得到所针对的挖掘特征所对应的前一轮次的空间信息挖掘特征序列。进一步地，信息挖掘模型将所针对的挖掘特征所对应的前一轮次的空间信息挖掘特征序列，与所针对的挖掘特征进行交互，得到当前轮次的与所针对的挖掘特征相对应的空间信息挖掘特征序列。由于挖掘特征是与媒体数据一一对应的，因此，得到的空间信息挖掘特征序列，也即为当前轮次的与相应媒体数据相对应的空间信息挖掘特征序列。

在其中一个实施例中，由于媒体特征序列是基于相应媒体数据中的每个元素各自对应的元素特征生成得到的，因此，基于媒体特征序列所生成的挖掘特征，也可包括有相应媒体数据中的每个元素各自对应的元素特征。对于不同轮次的挖掘特征而言，每个轮次中挖掘特征中的元素特征可进行更新。

在其中一个实施例中，将前一轮次输出的挖掘特征序列中的所针对的挖掘特征，减去所针对的挖掘特征中的全局时空特征，剩余的即是前一轮次的空间信息挖掘特征序列。对于与所针对的挖掘特征相对应的媒体数据，且该元素特征序列中包括在前一轮次获得的该媒体数据中的各元素各自对应的元素特征。比如，在前一轮次输出的挖掘特征序列中的所针对的挖掘特征为挖掘特征A，且挖掘特征A与媒体数据a相对应，从挖掘特征A中提取出的元素特征，为前一轮次获得的媒体数据a中的相应元素的元素特征。

在其中一个实施例中，由于针对的挖掘特征中可包括相应媒体数据中的各元素各自对应的元素特征，因此，将前一轮次的空间信息挖掘特征序列与针对的挖掘特征进行交互，可认为是，所针对的挖掘特征序列中的每个元素特征，均会与除自身之外的其余元素进行交互，如此，每个元素特征即可学习到相应媒体数据中的空间信息。比如，在上述举例中，媒体数据a包括元素b、c、d，所针对的挖掘特征A中包括与元素b相对应的元素特征B、与元素c相对应的元素特征C和与元素d相对应的元素特征D，此时，前一轮次输出的元素特征B会与前一轮次输出的元素特征C和前一轮次输出的元素特征D进行交互，相应的，前一轮次输出的元素特征C会与前一轮次输出的元素特征B和前一轮次输出的元素特征D进行交互，依次类推，从而前一轮次输出的元素特征B、C和D均能够学习到媒体数据a中的空间信息，得到当前轮次输出的元素特征B、C和D。当前轮次输出的元素特征B、C和D，即可组成当前轮次的与媒体数据a相对应的空间信息挖掘特征序列。

上述实施例中，通过对每个挖掘特征中的空间信息均进行挖掘，可使得充分提取出媒体数据集中的每个媒体数据的空间信息，得到包含丰富空间信息的控件信息挖掘特征。

在其中一个实施例中，将元素特征序列与针对的挖掘特征进行交互，得到当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列，包括：对前一轮次的空间信息挖掘特征序列和针对的挖掘特征进行第二多头注意力处理，得到当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列；其中，在第二多头注意力处理中，元素特征序列作为查询元素；针对的挖掘特征，分别作为键元素和值元素。

具体地，信息挖掘模型可将前一轮次的空间信息挖掘特征序列与针对的挖掘特征进行多头注意力处理，以得到当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列。为了描述方便，下述可将空间信息挖掘特征序列与针对的挖掘特征进行的多头注意力处理，称作第二多头注意力处理。其中，元素特征序列作为查询元素(Query)；针对的挖掘特征，即作为键元素(Key)，又作为值元素(Value)。

在其中一个实施例中，可通过下述公式执行第二多头注意力处理：

其中，为第l-1轮次的空间信息挖掘特征序列，N为媒体数据中的元素的总数量，j为第j个元素，i为第i个媒体数据，/>为第l-1轮输出的与第i个媒体数据中第j个元素对应的元素特征；/>为第l轮次的空间信息挖掘特征序列；/>为与第l-1轮输出的与第i个媒体数据相对应的挖掘特征。

上述实施例中，通过对空间信息挖掘特征序列与挖掘特征进行多头注意力处理，可使得输出的空间信息挖掘特征序列能够蕴含丰富的空间信息。

在其中一个实施例中，当得到当前轮次的全局时空特征序列和当前轮次的多个空间信息挖掘特征序列时，信息挖掘模型可对当前轮次的对应于相同媒体数据的全局时空特征和空间信息挖掘特征序列进行拼接，得到当前轮次的挖掘特征序列其中，其中，/>为第l轮次输出的对应于第i个媒体数据的全局时空特征；/>为第l轮次输出的对应于第i个媒体数据的空间信息挖掘特征序列；M为媒体数据集中的媒体数据的总数量。

在其中一个实施例中，当得到最后轮次的挖掘特征序列时，计算机设备可提取最后轮次的挖掘特征序列G中的全部的全局时空特征，也即，提取最后轮次的挖掘特征序列G中的每个媒体数据各自对应的全局时空特征，得到目标全局时空特征序列计算机设备对目标全局时空特征序列/>进行均值池化处理，得到媒体数据集所对应的媒体全局信息。

上述实施例中，由于各全局时空特征经过多个轮次的时序信息和空间信息的学习后，目标全局时空特征序列中的各全局时空特征均能够学习到媒体数据集中的丰富的时序信息和空间信息，因此，通过将目标全局时空特征序列的均值池化结果作为媒体全局信息，可使得该媒体全局信息能记载有整个媒体数据集的丰富的时序信息和空间信息。此外，即使在媒体数据集中包括大量的媒体数据时，由于本申请设置有多个全局时空特征，因此，本申请依旧可以通过多个全局时空特征来提取出媒体数据集中的时序信息和空间信息。

在其中一个实施例中，媒体数据集为视频；上述方法还包括：获取检索文案，并提取检索文案的信息，得到检索文案信息；确定媒体数据集的媒体全局信息与检索文案信息之间的相似度；当相似度大于或等于预设相似度阈值时，将媒体数据集作为与检索文案相匹配的目标视频。

具体地，可通过上述的媒体全局信息提取方法来进行视频的检索。当获取得到检索文案，且需要从视频库中检索出与该检索文案相匹配的目标视频时，计算机设备可按照上述的媒体全局信息提取方法来提取视频库中的各视频各自对应的媒体全局信息。并分别将各媒体全局信息与检索文案的文案信息进行相似度对比，将相似度大于或等于第一预设相似度阈值的视频作为与该检索文案相匹配的目标视频。进一步地，当获取得到多个目标视频时，还可对多个目标视频进行排序，得到目标视频序列，并将目标视频序列推荐至目标对象，容易理解的，该目标视频序列可为计算机设备创作的与检索文案相匹配的视频序列。

在其中一个实施例中，参考图9，可按照各目标视频的点击率、热度、相似度等，对多个目标视频进行排序，得到目标视频序列。图9示出了一个实施例中目标视频序列的生成示意图。

上述实施例中，通过基于上述的媒体全局信息提取方法来从视频库中检索出目标视频，可提升检索出的目标视频与检索文案之间的匹配度，从而基于匹配度提升的目标视频创作出与检索文案更为匹配的目标视频序列。

在其中一个实施例中，媒体数据集包括于预设数据库；上述方法还包括：获取预设数据库中的每个媒体数据集各自对应的全局信息；根据每个媒体数据集各自对应的全局信息，确定预设数据库中的每个媒体数据集之间的相似度。

具体地，预设数据库中可包括多个媒体数据集，可通过上述的媒体全局信息提取方法来确定预设数据库中的每个媒体数据集各自对应的媒体全局信息。计算机设备可确定各媒体全局信息之间的相似度，并根据各媒体全局信息之间的相似度对预设数据库中的媒体数据集进行聚类处理，得到至少一个聚类簇。其中，每个聚类簇包括具有大于或等于第二预设相似度阈值的媒体全局信息的媒体数据集。也即，每个聚类簇中包括相似的媒体数据集。如此，便可确定预设数据库中的相似的媒体数据集。

进一步地，计算机设备可召回预设数据库中的相似的媒体数据集，并生成召回的媒体数据集的标识，基于生成的标识确定待推荐至目标对象的目标媒体数据集。比如，广告中存在大量重复、相似的创意，对于广告预估一致性、用户新鲜度带来很多负面影响。通过本申请提出的媒体全局信息提取方法，能够更好的召回相似广告，生成广告指纹，以提升广告预估一致性及用户新鲜度。

在其中一个实施例中，媒体数据集为视频；上述方法还包括：获取与媒体数据集语义关联的关联文案；提取关联文案的信息，得到关联文案信息；获取信息生成模型，通过信息生成模型，并根据包括文案信息和媒体全局信息的多模态信息，生成与关联文案和媒体数据集相匹配的推荐信息。

具体地，计算机设备还可基于上述的媒体全局信息提取方法，来进行信息推荐。计算机设备可获取与媒体数据集语义关联的关联文案，并通过语义特征提取模型提取关联文案中的文案信息，得到关联文案信息，以及通过上述的媒体全局信息提取方法来提取媒体数据集中的媒体全局信息。将关联文案信息和媒体全局信息作为多模态信息，并将该多模态信息输入至信息生成模型，以通过信息生成模型生成与关联文案和媒体数据集相匹配的推荐信息。

在其中一个实施例中，得到包括一个或多个信息挖掘模型的视频编码器后，在训练跨模态模型的时候，还可以一起联合训练一个文本编码器BERT，在训练时使用的是对比损失：

其中，t_i表示由文本编码器生成的文案i特征，关联文案i和视频i是一对相似文案视频对，视频i和文案j(j≠i)是不相似的文本视频对。通过一起联合训练文本编码器，可使得视频编码器和文本编码器，能够针对一对视频文案，输出相匹配的媒体全局信息和关联文案信息。

在其中一个实施例中，参考图10，可获取与信息挖掘模型同步训练的语义挖掘模型，并同过文本编码器来提取出关联文案中的文案信息，得到关联文案信息。通过信息挖掘模型来提取出媒体数据集中的媒体全局信息，并将关联文案信息和媒体全局信息输入至信息生成模型，通过信息生成模型输出推荐信息。比如，对于一条广告视频创意，通常包含关联文案和视频素材，该发明中所提出的文本编码器和包括信息挖掘模型的视频编码器，可对一条广告视频创意生成语义关联的关联文案信息和媒体全局信息，该关联文案信息和媒体全局信息能够更好的表征一条广告创意内容，也能够更好的用于广告推荐模型(也即，信息生成模型)中，帮助广告推荐模型更好地理解广告视频创意的内容，提升生成的推荐广告(也即，推荐信息)与广告视频创意之间的匹配性。图10示出了一个实施例中推荐信息的生成示意图。

在其中一个具体实施例中，参考图11，提供一个媒体全局信息提取方法，包括：

步骤1102，计算机设备获取媒体数据集和媒体数据集初始的全局时空特征。

步骤1104，针对媒体数据集中的每个媒体数据，计算机设备对所针对的媒体数据进行划分，得到针对的媒体数据所对应的元素集；针对元素集中的每个元素，对所针对的元素进行特征映射，得到针对的元素所对应的元素特征；综合元素集中的每个元素各自对应的元素特征，得到所针对的媒体数据所对应的初始特征序列。

步骤1106，对于媒体数据集中的每个媒体数据，计算机设备在当前媒体数据所对应的初始特征序列中增加初始的全局时空特征，得到当前媒体数据所对应的中间特征序列。

步骤1108，针对中间特征序列中的每个元素特征，计算机设备确定与针对的元素特征相对应的元素在当前媒体数据中的空间位置，并根据空间位置生成针对的元素特征所对应的空间位置编码，在针对的元素特征中增加生成的空间位置编码。

步骤1110，计算机设备确定当前媒体数据在媒体数据集中的时序位置，并对时序位置进行编码的，得到针对的元素特征相对应的时序位置编码，在针对的元素特征中增加生成的时序位置编码，得到当前媒体数据所对应的媒体特征序列。

步骤1112，计算机设备获取信息挖掘模型，并将多个媒体特征序列输入至信息挖掘模型，获得信息挖掘模型输出的初始的挖掘特征序列。

步骤1114，确定当前轮次，计算机设备通过信息挖掘模型，从前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征，得到特征提取集合；并对特征提取集合和前一轮次输出的挖掘特征序列进行第一多头注意力处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征。

步骤1116，针对前一轮次输出的挖掘特征序列中每个挖掘特征，计算机设备通过信息挖掘模型，提取所针对的挖掘特征中的多个元素特征，得到前一轮次的空间信息挖掘特征序列，并对前一轮次的空间信息挖掘特征序列和针对的挖掘特征进行第二多头注意力处理，得到当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列。

步骤1118，计算机设备通过信息挖掘模型，分别将对应于相同媒体数据的当前轮次的全局时空特征和当前轮次的空间信息挖掘特征序列进行拼接，得到当前轮次的媒体数据集中的每个媒体数据各自对应的挖掘特征，并综合当前轮次的媒体数据集中的每个媒体数据各自对应的挖掘特征，得到当前轮次输出的挖掘特征序列。

步骤1120，计算机设备将下一轮次作为当前轮次，并返回至计算机设备通过信息挖掘模型，从前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征的步骤继续执行，直至满足停止条件时停止。

步骤1122，根据停止时输出的挖掘特征序列中与媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的媒体全局信息提取方法。具体地，该媒体全局信息提取方法在该应用场景的应用如下：

媒体数据集具体为视频。输入的视频为I∈R^M×3×H×W，其中M表示视频的帧数，每一帧是一张分辨率为H×W通道数为3的图片。将视频I分成M×N个图片块X∈R^{M×3×N×P×P}每个图片块的大小是P×P，且N＝HW/(P×P)。而后，我们将每个图片块映射成D维的元素特征，以此得到M个初始特征序列v_i∈R^N×D表示第i帧视频帧的所有图片块所映射成的初始特征序列。接着，给每个初始特征序列分别加上一个可学习的全局时空特征([CLS]token)，得到M个新的初始特征序列/>给这些新的初始特征序列V分别加上空间位置编码E^s∈R^(1×N)×D和时序位置编码E^t∈R^M×D，媒体特征序列集合，也即得到视频编码器网络的输入/>

对于预处理好的媒体特征序列集合G⁰，可将其输入到视频编码器中，该视频编码器是由一系列信息挖掘模型串联而成，第l个信息挖掘模型的输入为G^l-1，输出为G^l。每个信息挖掘模型的结构图如图12所示，其对输入的挖掘特征序列进行空间注意力以及时序注意力运算，来挖掘视频中的时序以及空间维度的信息。具体地，对于第l个信息挖掘模型，其输入为时序注意力运算是一个在时序维度的一个多头注意力机制，它将每个挖掘特征/>中的全局时空特征([CLS]token)组合成全局时空特征序列并将全局时空特征序列作为多头注意力机制中的查询向量(Query)，其中/>表示/>中的全局时空特征([CLS]token)，并将挖掘特征序列/>作为多头注意力机制中的键元素(Key)和值元素(Value)，以此的到包含媒体全局信息的当前轮次的全局时空特征序列C^l。

空间注意力运算是一个在视频帧内部进行的多头注意力机制，它将中除全局时空特征([CLS]token)之外的特征/>作为查询向量(Query)，将/>作为键元素(Key)和值元素(Value)，以进行多头注意力计算，得到包含空间信息的空间信息挖掘特征序列/>

而后将C^l中的每个全局时空特征与其对应的空间信息挖掘特征序列/>拼接起来，得到第l个信息挖掘模型对输出的与第i帧视频帧对应的挖掘特征最终，第l个信息挖掘模型的输出为/>将最后一个信息挖掘模型的输出记为/>并且每个视频帧的全局时空特征([CLS]token)所组成的序列记为/>可以发现经过多个信息挖掘模型后，全局时空特征[CLS]token)所组成的序列C将能保留视频中丰富的时序以及空间信息。因此可用C中所有全局时空特征的平均池化结果，作为视频的媒体全局信息。其中，c_i表示第i个视频中全局时空特征([CLS]token)。图12示出了一个实施例中信息挖掘模型的结构示意图。

本申请还另外提供一种应用场景，该应用场景应用上述的媒体全局信息提取方法。具体地，该媒体全局信息提取方法在该应用场景的应用如下：

媒体数据集具体可为文本序列，可通过信息挖掘模型提取文本序列中的时序信息和空间信息进行多轮次的提取，以得到文本序列的媒体全局信息。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的媒体全局信息提取方法的应用不局限于上述场景。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的媒体全局信息提取方法的媒体全局信息提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个媒体全局信息提取装置实施例中的具体限定可以参见上文中对于媒体全局信息提取方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种媒体全局信息提取装置1300，包括：模型输入生成模块1302、模型处理模块1304和媒体全局信息生成模块1306，其中：

模型输入生成模块1302，用于获取媒体数据集和媒体数据集初始的全局时空特征；根据初始的全局时空特征，确定与媒体数据集的多个媒体数据对应的多个媒体特征序列；每个媒体特征序列包括初始的全局时空特征；媒体数据集中的多个媒体数据在时序上具有先后关联关系；媒体数据中的多个元素在空间上具有位置关联关系；全局时空特征用于记载媒体数据集的时序信息和空间信息。

模型处理模块1304，用于基于多个媒体特征序列确定初始的挖掘特征序列，并基于初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列；其中，每轮次的挖掘，是基于前个轮次获得的挖掘特征序列中与每个媒体数据各自对应的全局时空特征，对媒体数据集进行时序信息和空间信息的信息提取。

媒体全局信息生成模块1306，用于根据输出的挖掘特征序列中与媒体数据集中的多个媒体数据各自对应的全局时空特征，确定与媒体数据集相对应的媒体全局信息。

在其中一个实施例中，在媒体数据集为视频的情况下，媒体数据集中的多个媒体数据为视频中的连续的视频帧，元素为相应视频帧中的图像块。

在其中一个实施例中，在媒体数据集为文本序列的情况下，媒体数据集中的多个媒体数据为文本序列中的连续的文本句，元素为相应文本句中的字符。

在其中一个实施例中，模型输入生成模块1302，用于确定媒体数据集中的每个媒体数据各自对应的初始特征序列；根据初始的全局时空特征和每个媒体数据各自对应的初始特征序列，确定媒体数据集中的每个媒体数据各自对应的媒体特征序列。

在其中一个实施例中，模型输入生成模块1302，用于针对媒体数据集中的每个媒体数据，对所针对的媒体数据进行划分，得到针对的媒体数据所对应的元素集；针对元素集中的每个元素，对所针对的元素进行特征映射，得到针对的元素所对应的元素特征；综合特征映射得到的元素集中的每个元素各自对应的元素特征，得到所针对的媒体数据所对应的初始特征序列。

在其中一个实施例中，模型输入生成模块1302，用于对于媒体数据集中的每个媒体数据，在当前媒体数据所对应的初始特征序列中增加初始的全局时空特征，得到当前媒体数据所对应的中间特征序列；在中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到当前媒体数据所对应的媒体特征序列。

在其中一个实施例中，模型输入生成模块1302，用于针对中间特征序列中的每个元素特征，确定与针对的元素特征相对应的元素在当前媒体数据中的空间位置，并根据空间位置生成针对的元素特征所对应的空间位置编码，在针对的元素特征中增加生成的空间位置编码；确定当前媒体数据在媒体数据集中的时序位置，并对时序位置进行编码的，得到针对的元素特征相对应的时序位置编码，在针对的元素特征中增加时序位置编码。

在其中一个实施例中，模型处理模块1304，用于,获取信息挖掘模型，并将多个媒体特征序列输入至信息挖掘模型，获得信息挖掘模型输出的初始的挖掘特征序列；确定当前轮次，将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列；将下一轮次作为当前轮次，并返回至将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，获得信息挖掘模型在当前轮次输出的挖掘特征序列的步骤继续执行，直至满足停止条件时停止。

在其中一个实施例中，模型处理模块1304，用于将信息挖掘模型在前一轮次输出的挖掘特征序列输入至信息挖掘模型，通过信息挖掘模型，对前一轮次输出的挖掘特征序列进行的全局时空信息挖掘处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征；通过信息挖掘模型，对前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征序列；分别将对应于相同媒体数据的当前轮次的全局时空特征和当前轮次的空间信息挖掘特征序列进行拼接，得到当前轮次的媒体数据集中的每个媒体数据各自对应的挖掘特征。

在其中一个实施例中，模型处理模块1304，用于从前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征，得到特征提取集合；将特征提取集合中的每个全局时空特征，与前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征。

在其中一个实施例中，模型处理模块1304，用于对特征提取集合和前一轮次输出的挖掘特征序列进行第一多头注意力处理，得到当前轮次的媒体数据集中的每个媒体数据各自对应的全局时空特征；其中，在进行第一注意力处理时，特征提取集合作为查询元素；前一轮次输出的挖掘特征序列，分别作为键元素和值元素。

在其中一个实施例中，模型处理模块1304，用于针对前一轮次输出的挖掘特征序列中每个挖掘特征，提取所针对的挖掘特征中的多个元素特征，得到前一轮次的空间信息挖掘特征序列；将前一轮次的空间信息挖掘特征序列与针对的挖掘特征进行交互，获得当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列；将获得的当前轮次的空间信息挖掘特征序列，作为当前轮次的与针对的挖掘特征相对应的媒体数据所对应的空间信息挖掘特征序列。

在其中一个实施例中，模型处理模块1304，用于对前一轮次的空间信息挖掘特征序列和针对的挖掘特征进行第二多头注意力处理，得到当前轮次的与针对的挖掘特征相对应的空间信息挖掘特征序列；其中，在第二多头注意力处理中，元素特征序列作为查询元素；针对的挖掘特征，分别作为键元素和值元素。

在其中一个实施例中，媒体数据集为视频，媒体全局信息提取装置1300还包括检索模块，用于获取检索文案，并提取检索文案的信息，得到检索文案信息；确定媒体数据集的媒体全局信息与检索文案信息之间的相似度；当相似度大于或等于预设相似度阈值时，将媒体数据集作为与检索文案相匹配的目标视频。

在其中一个实施例中，媒体数据集包括于预设数据库；媒体全局信息提取装置1300还包括相似度确定模块，用于获取预设数据库中的每个媒体数据集各自对应的全局信息；根据每个媒体数据集各自对应的全局信息，确定预设数据库中的每个媒体数据集之间的相似度。

在其中一个实施例中，媒体数据集为视频；媒体全局信息提取装置1300还包括推荐信息生成模块，用于获取与媒体数据集语义关联的关联文案；提取关联文案的信息，得到关联文案信息；获取信息生成模型，通过信息生成模型，并根据包括文案信息和媒体全局信息的多模态信息，生成与关联文案和媒体数据集相匹配的推荐信息。

上述媒体全局信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储媒体全局信息提取装置数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种媒体全局信息提取装置方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种媒体全局信息提取装置方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14至图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种媒体全局信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述媒体数据集为视频的情况下，所述媒体数据集中的多个媒体数据为所述视频中的连续的视频帧，所述元素为相应视频帧中的图像块。

3.根据权利要求1所述的方法，其特征在于，在所述媒体数据集为文本序列的情况下，所述媒体数据集中的多个媒体数据为所述文本序列中的连续的文本句，所述元素为相应文本句中的字符。

4.根据权利要求1所述的方法，其特征在于，所述根据所述初始的全局时空特征，确定与所述媒体数据集的多个媒体数据对应的多个媒体特征序列包括：

确定所述媒体数据集中的每个媒体数据各自对应的初始特征序列；

根据所述初始的全局时空特征和所述每个媒体数据各自对应的初始特征序列，确定所述媒体数据集中的每个媒体数据各自对应的媒体特征序列。

5.根据权利要求4所述的方法，其特征在于，所述确定所述媒体数据集中的每个媒体数据各自对应的初始特征序列，包括：

针对所述媒体数据集中的每个媒体数据，对所针对的媒体数据进行划分，得到所述针对的媒体数据所对应的元素集；

针对所述元素集中的每个元素，对所针对的元素进行特征映射，得到所述针对的元素所对应的元素特征；

综合特征映射得到的所述元素集中的每个元素各自对应的元素特征，得到所针对的媒体数据所对应的初始特征序列。

6.根据权利要求4所述的方法，其特征在于，所述根据所述初始的全局时空特征和所述每个媒体数据各自对应的初始特征序列，确定所述媒体数据集中的每个媒体数据各自对应的媒体特征序列，包括：

对于所述媒体数据集中的每个媒体数据，在当前媒体数据所对应的初始特征序列中增加所述初始的全局时空特征，得到所述当前媒体数据所对应的中间特征序列；

在所述中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到所述当前媒体数据所对应的媒体特征序列。

7.根据权利要求6所述的方法，其特征在于，所述在所述中间特征序列中的每个元素特征中分别增加空间位置编码和时序位置编码，得到所述当前媒体数据所对应的媒体特征序列，包括：

针对所述中间特征序列中的每个元素特征，确定与所述针对的元素特征相对应的元素在所述当前媒体数据中的空间位置，并根据所述空间位置生成所述针对的元素特征所对应的空间位置编码，在所述针对的元素特征中增加生成的所述空间位置编码；

确定所述当前媒体数据在所述媒体数据集中的时序位置，并对所述时序位置进行编码的，得到所述针对的元素特征相对应的时序位置编码，在所述针对的元素特征中增加所述时序位置编码。

8.根据权利要求1所述的方法，其特征在于，所述基于所述多个媒体特征序列确定初始的挖掘特征序列，包括：

获取信息挖掘模型，并将所述多个媒体特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型输出的初始的挖掘特征序列；

所述基于所述初始的挖掘特征序列进行多轮次的挖掘，获得输出的挖掘特征序列，包括：

确定当前轮次，将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型在当前轮次输出的挖掘特征序列；

将下一轮次作为当前轮次，并返回至将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型在当前轮次输出的挖掘特征序列的步骤继续执行，直至满足停止条件时停止。

9.根据权利要求8所述的方法，其特征在于，所述挖掘特征序列包括所述媒体数据集中的每个媒体数据各自对应的挖掘特征；

所述将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，获得所述信息挖掘模型在当前轮次输出的挖掘特征序列，包括：

将所述信息挖掘模型在前一轮次输出的挖掘特征序列输入至所述信息挖掘模型，通过所述信息挖掘模型，对前一轮次输出的挖掘特征序列进行的全局时空信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征；

通过所述信息挖掘模型，对所述前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征序列；

分别将对应于相同媒体数据的当前轮次的全局时空特征和当前轮次的空间信息挖掘特征序列进行拼接，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的挖掘特征。

10.根据权利要求9所述的方法，其特征在于，所述前一轮次输出的挖掘特征序列进行的全局时空信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征，包括：

从所述前一轮次输出的挖掘特征序列中的每个挖掘特征中提取出全局时空特征，得到特征提取集合；

将所述特征提取集合中的每个所述全局时空特征，与所述前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征。

11.根据权利要求10所述的方法，其特征在于，所述将所述特征提取集合中的每个所述全局时空特征，与所述前一轮次输出的挖掘特征序列中的每个挖掘特征进行交互，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征，包括：

对所述特征提取集合和所述前一轮次输出的挖掘特征序列进行第一多头注意力处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的全局时空特征；

其中，在进行第一注意力处理时，所述特征提取集合作为查询元素；所述前一轮次输出的挖掘特征序列，分别作为键元素和值元素。

12.根据权利要求9所述的方法，其特征在于，所述对所述前一轮次输出的挖掘特征序列进行空间信息挖掘处理，得到当前轮次的所述媒体数据集中的每个媒体数据各自对应的空间信息挖掘特征，包括：

针对所述前一轮次输出的挖掘特征序列中每个挖掘特征，提取所针对的挖掘特征中的多个元素特征，得到前一轮次的空间信息挖掘特征序列；

将所述前一轮次的空间信息挖掘特征序列与所述针对的挖掘特征进行交互，获得当前轮次的与所述针对的挖掘特征相对应的空间信息挖掘特征序列；

将获得的当前轮次的空间信息挖掘特征序列，作为当前轮次的与所述针对的挖掘特征相对应的媒体数据所对应的空间信息挖掘特征序列。

13.根据权利要求12所述的方法，其特征在于，所述将所述前一轮次的空间信息挖掘特征序列与所述针对的挖掘特征进行交互，获得当前轮次的与所述针对的挖掘特征相对应的空间信息挖掘特征序列，包括：

对所述前一轮次的空间信息挖掘特征序列和所述针对的挖掘特征进行第二多头注意力处理，得到当前轮次的与所述针对的挖掘特征相对应的空间信息挖掘特征序列；

其中，在第二多头注意力处理中，所述元素特征序列作为查询元素；所述针对的挖掘特征，分别作为键元素和值元素。

14.根据权利要求1所述的方法，其特征在于，所述媒体数据集为视频；所述方法还包括：

获取检索文案，并提取所述检索文案的信息，得到检索文案信息；

确定所述媒体数据集的媒体全局信息与所述检索文案信息之间的相似度；

当所述相似度大于或等于预设相似度阈值时，将所述媒体数据集作为与所述检索文案相匹配的目标视频。

15.根据权利要求1所述的方法，其特征在于，所述媒体数据集包括于预设数据库；所述方法还包括：

获取所述预设数据库中的每个媒体数据集各自对应的全局信息；

根据所述每个媒体数据集各自对应的全局信息，确定所述预设数据库中的每个媒体数据集之间的相似度。

16.根据权利要求1所述的方法，其特征在于，所述媒体数据集为视频；所述方法还包括：

获取与所述媒体数据集语义关联的关联文案；

提取所述关联文案的信息，得到关联文案信息；

获取信息生成模型，通过所述信息生成模型，并根据包括所述文案信息和所述媒体全局信息的多模态信息，生成与所述关联文案和所述媒体数据集相匹配的推荐信息。

17.一种媒体全局信息提取装置，其特征在于，所述装置包括：

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。

20.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。