CN117765362A

CN117765362A - 一种大型运动场馆视频融合方法及系统

Info

Publication number: CN117765362A
Application number: CN202311855475.4A
Authority: CN
Inventors: 李敬堂; 马江南; 马龙飞
Original assignee: Zhejiang Weixing Electronic System Software Co ltd
Current assignee: Zhejiang Weixing Electronic System Software Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-26

Abstract

本发明公开了一种大型运动场馆视频融合方法及系统，其通过采集终端上传的源视频，并在后端引入数据处理和分析算法来进行该源视频的语义特征分析和提取，同时基于源视频语义特征的描述符来自动选择合适的目标推送模板，并将其融合到源视频中，从而提高视频的制作效率和质量，实现更好的信息交互效果。这样，能够提高大型运动场馆视频制作的灵活性和适应性，使得视频内容能够更好地适应智能大型运动场馆中的信息交互需求。

Description

一种大型运动场馆视频融合方法及系统

技术领域

本发明涉及智能化视频融合技术领域，尤其涉及一种大型运动场馆视频融合方法及系统。

背景技术

随着智能大型运动场馆的发展，视频内容的制作和推送成为了场馆信息交互的重要手段。传统的视频制作方法往往只能基于用户自身的灵感和内容进行制作，这样使得视频的内容受到用户自身的水平限制，无法很好地适应当前智能大型运动场馆中信息交互的需求。

因此，期望一种优化的大型运动场馆视频融合方案。

发明内容

本发明实施例提供一种大型运动场馆视频融合方法及系统，其通过采集终端上传的源视频，并在后端引入数据处理和分析算法来进行该源视频的语义特征分析和提取，同时基于源视频语义特征的描述符来自动选择合适的目标推送模板，并将其融合到源视频中，从而提高视频的制作效率和质量，实现更好的信息交互效果。这样，能够提高大型运动场馆视频制作的灵活性和适应性，使得视频内容能够更好地适应智能大型运动场馆中的信息交互需求。

本发明实施例还提供了一种大型运动场馆视频融合方法，其包括：

获取终端上传的源视频；

对所述源视频进行视频特征提取以得到源视频语义特征描述符；

基于所述源视频语义特征描述符，确定目标推送模板；以及

将所述目标推送模板融合至所述源视频中以得到融合视频。

本发明实施例还提供了一种大型运动场馆视频融合系统，其包括：

源视频获取模块，用于获取终端上传的源视频；

视频特征提取模块，用于对所述源视频进行视频特征提取以得到源视频语义特征描述符；

目标推送模板确定模块，用于基于所述源视频语义特征描述符，确定目标推送模板；以及

融合视频生成模块，用于将所述目标推送模板融合至所述源视频中以得到融合视频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种大型运动场馆视频融合方法的流程图。

图2为本发明实施例中提供的一种大型运动场馆视频融合方法的系统架构的示意图。

图3为本发明实施例中提供的一种大型运动场馆视频融合系统的框图。

图4为本发明实施例中提供的一种大型运动场馆视频融合方法的应用场景图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在本申请实施例记载中，需要说明的是，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。

随着智能大型运动场馆的发展，视频内容的制作和推送变得越来越重要，成为场馆信息交互的重要手段之一。传统的视频制作方法通常只能依赖用户自身的灵感和内容进行制作，这限制了视频内容的创造力和适应性，无法很好地满足当前智能大型运动场馆中信息交互的需求。

在智能大型运动场馆中，视频内容的制作和推送需要考虑以下几个方面：

1. 互动性：智能大型运动场馆通常具有丰富的互动功能，如触摸屏、传感器和虚拟现实技术等，视频内容制作需要与这些互动功能相结合，使观众能够参与其中，提升观赏体验。例如，可以制作交互式的视频游戏或互动投影，让观众能够与视频内容进行互动。

2. 多媒体融合：智能大型运动场馆通常具备多种媒体展示技术，如LED大屏幕、投影等，视频内容制作可以将不同的媒体元素融合在一起，创造出更加丰富多样的视听效果。例如，可以将视频内容与音乐、灯光和特殊效果相结合，打造出独特的视听盛宴。

3. 实时性：智能大型运动场馆通常会有大量的实时信息需要传达，如比赛结果、赛事统计等，视频内容制作需要考虑实时数据的获取和展示，使观众能够及时了解最新的信息。例如，可以制作实时的比赛回放和统计分析，让观众能够在观看比赛的同时获取相关信息。

4. 个性化推送：智能大型运动场馆通常会有大量的观众，每个观众的兴趣和需求可能不同，视频内容制作可以根据观众的个性化需求进行推送，提供更加精准和个性化的观看体验。例如，可以根据观众的喜好推荐相关的视频内容，或者提供定制化的视频服务。

为了实现以上需求，传统的视频制作方法已经逐渐演变为更加智能化和自动化的方式。例如，利用人工智能技术可以实现视频内容的自动生成和智能推送，根据观众的兴趣和场馆的实时情况生成适应性强的视频内容。同时，利用大数据和机器学习等技术可以对观众的行为和反馈进行分析，进一步优化视频内容的制作和推送。

在本发明的一个实施例中，图1为本发明实施例中提供的一种大型运动场馆视频融合方法的流程图。图2为本发明实施例中提供的一种大型运动场馆视频融合方法的系统架构的示意图。如图1和图2所示，根据本发明实施例的大型运动场馆视频融合方法，包括：110，获取终端上传的源视频；120，对所述源视频进行视频特征提取以得到源视频语义特征描述符；130，基于所述源视频语义特征描述符，确定目标推送模板；以及，140，将所述目标推送模板融合至所述源视频中以得到融合视频。

在所述步骤110中，关键是确保能够有效地获取终端上传的源视频。需要确保终端上传视频的数据传输通道稳定可靠，以避免数据丢失或损坏；确定源视频的数据格式和编解码方式，以便后续的视频处理和特征提取；采取必要的安全措施，确保上传的视频数据不被篡改或泄露。这样，可以获取高质量的源视频，以便后续的视频处理和推送，确保源视频的完整性，以避免在后续处理过程中丢失重要内容，保护上传的视频数据的安全性和隐私。

在所述步骤120中，需要对源视频进行特征提取，以获取源视频的语义特征描述符。选择适合的视频特征提取方法，如基于帧的特征提取、基于区域的特征提取等，以获取能够准确描述视频内容的特征。确定特征的表示方式，如使用向量、矩阵等形式表示视频特征，以便后续的特征匹配和融合。确保提取的视频特征在不同场景、光照条件和视频质量下具有一定的稳定性和鲁棒性。其中，通过视频特征提取，得到能够描述源视频语义内容的特征描述符，为后续的目标推送模板确定和融合提供基础；通过比较不同视频的特征描述符，可以实现视频内容的相似性匹配和推荐。

在所述步骤130中，根据源视频的语义特征描述符，确定适合的目标推送模板。根据源视频的特征描述符，选择与之相匹配的目标推送模板，以保证推送内容与源视频内容的一致性和相关性；根据观众的个性化需求和场馆的实时情况，对目标推送模板进行个性化定制，以提供更加精准和个性化的观看体验；根据场馆的需求和观众的反馈，定期更新和优化目标推送模板，以保持内容的新鲜和吸引力。这样，通过确定目标推送模板，可以确保推送内容与源视频内容的一致性，提升观众的观看体验。根据观众的个性化需求，将目标推送模板进行定制化，提供更加个性化和符合观众兴趣的内容。

在所述步骤140中，将目标推送模板融合到源视频中，生成融合视频。确定融合目标推送模板和源视频的方式，如叠加、混合等，以保持融合视频的视觉效果和一致性；确保融合视频的质量和流畅度，以提供良好的观看体验；确保融合视频中的目标推送模板与源视频内容的时间同步，使得推送内容与视频内容相互呼应。这样，通过将目标推送模板融合到源视频中，可以增强视频的视觉效果，提升观众的观看体验。融合视频可以同时传递源视频的内容和目标推送模板的信息，使观众能够更加全面地了解和参与其中。

以上步骤描述了一种视频内容制作流程，通过获取源视频、特征提取、目标推送模板确定和融合等步骤，可以实现智能大型运动场馆中视频内容的个性化、多样化和智能化推送，提升观众的观赏体验和参与度。

针对上述技术问题，本申请的技术构思为通过采集终端上传的源视频，并在后端引入数据处理和分析算法来进行该源视频的语义特征分析和提取，同时基于源视频语义特征的描述符来自动选择合适的目标推送模板，并将其融合到源视频中，从而提高视频的制作效率和质量，实现更好的信息交互效果。这样，能够提高大型运动场馆视频制作的灵活性和适应性，使得视频内容能够更好地适应智能大型运动场馆中的信息交互需求。

具体地，在本申请的技术方案中，首先，获取终端上传的源视频，并对所述源视频进行视频特征提取，以此来提取出所述源视频中的关键信息和内容语义特征，并将其转化为源视频语义特征描述符，这样，就能够基于所述源视频语义特征描述符确定目标推送模板，以便于将所述目标推送模板融合至所述源视频中以得到融合视频。

特别地，在对所述源视频进行视频特征提取以得到源视频语义特征描述符的步骤中，考虑到由于所述源视频通常包含有大量的语义信息，并且在不同的视频片段中，所述源视频中会表现不同的视频内容语义特征，因此，若对于整个源视频进行语义理解可能会导致视频语义信息的混杂和模糊。基于此，在本申请的技术方案中，需要对所述源视频进行视频片段切分以得到源视频片段的序列。这样，能够将长时间的所述源视频分解为多个短时间的源视频片段，这样可以有利于更好地捕捉到源视频中的细节和变化，从而更精细地分析视频的内容和特征，而不会因为整个视频的长度而导致信息的混杂和模糊，以利于为后续的处理步骤提供更准确的输入。

在本申请的一个具体实施例中，对所述源视频进行视频特征提取以得到源视频语义特征描述符，包括：对所述源视频进行视频片段切分以得到源视频片段的序列；通过基于深度神经网络模型的视频多维度特征提取器对所述源视频片段的序列进行特征提取以得到源视频片段多维度特征图的序列；计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量；对所述源视频片段多维度特征图的序列进行全局语义关联编码以得到源视频全局语义上下文特征向量；融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符。

其中，所述深度神经网络模型为三维卷积神经网络模型。

首先，将源视频切分为多个片段，可以更好地捕捉视频中的不同场景和内容。可以根据具体需求选择感兴趣的视频片段进行后续处理，提高处理效率和准确性。然后，通过深度神经网络模型提取视频片段的多维度特征，可以捕捉到视频的视觉、语义、动态等方面的信息。提取的特征可以以向量或矩阵等形式表示，为后续的特征分析和处理提供基础。接着，通过计算相邻特征图之间的差异度量系数，可以量化视频片段之间的语义差异。语义差异度量系数可以用于分析视频片段之间的特征变化情况，进一步理解视频内容的演变和转换。然后，通过全局语义关联编码，可以捕捉到整个视频片段序列的全局语义信息，提供更全面的视频语义上下文。全局语义关联编码可以将不同视频片段的特征进行融合，得到整体的语义特征表示。最后，通过融合源视频的语义波动特征向量和全局语义上下文特征向量，可以得到多尺度、多维度的视频语义特征。融合后的特征向量可以更全面地描述视频的语义信息，提供更准确和丰富的视频特征表示。

通过对源视频进行视频片段切分、特征提取、语义差异度量、全局语义关联编码和特征融合等步骤，可以得到源视频的多尺度、多维度的语义特征向量作为源视频的语义特征描述符。这样，可以捕捉视频内容的多样性、提取丰富的视频特征、量化语义差异、获得全局语义上下文和提供准确的语义特征表示。

然后，将所述源视频片段的序列通过基于三维卷积神经网络模型的视频多维度特征提取器中进行特征挖掘，以分别提取出所述各个源视频片段中的视频片段语义特征信息，从而得到源视频片段多维度特征图的序列。

在源视频中，不同的源视频片段可能包含不同的场景、动作或对象，这些差异可以通过计算源视频片段多维度特征图之间的差异来量化，以便于更为充分和准确地对于所述源视频整体语义进行分析和特征捕捉。因此，在本申请的技术方案中，进一步计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量。特别地，这里，所述视频语义差异度量系数用于衡量源视频片段语义特征之间的语义差异程度，这些差异度量系数可以反映视频内容的变化和转换，从而提供了关于视频语义波动的特征信息，即视频内容在语义上的变化和波动程度，有利于为后续的处理和融合提供基础。

在本申请的一个具体实施例中，计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量，包括：以如下语义差异公式计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的所述源视频语义波动特征向量；其中，所述语义差异公式为：其中，/>和/>分别是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图中各个位置的特征值，/>是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的宽度， />是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的高度，且/>是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的通道数，/>是所述源视频语义波动特征向量中的各个视频语义差异度量系数。

进一步地，还考虑到在源视频中，不同的片段之间存在着语义上的关联和上下文信息。因此，为了能够利用所述源视频中的各个视频片段语义之间的全局关联特征来进一步增强对于该源视频语义理解的充分度和精准度，在本申请的技术方案中，进一步将所述源视频片段多维度特征图的序列通过基于转换器模块的视频语义上下文关联编码器中进行编码，以提取出所述各个源视频片段语义特征之间基于全局的上下文语义关联特征信息，从而得到源视频全局语义上下文特征向量。通过将所述源视频片段多维度特征图的序列输入到基于转换器模块的视频语义上下文关联编码器中，可以利用模型学习源视频片段之间的语义关联和上下文信息，从而能够更全面地表示源视频的整体语义特征和内容。

在本申请的一个具体实施例中，对所述源视频片段多维度特征图的序列进行全局语义关联编码以得到源视频全局语义上下文特征向量，包括：将所述源视频片段多维度特征图的序列通过基于转换器模块的视频语义上下文关联编码器以得到所述源视频全局语义上下文特征向量。

通过转换器模块的视频语义上下文关联编码器，可以在整个视频序列范围内捕捉到全局的语义信息，这有助于理解视频中的整体语义结构和内容，提供更全面和准确的语义特征表示。语义上下文关联编码器可以对源视频片段多维度特征图的序列进行编码，将不同片段之间的语义关联进行建模，这样可以捕捉到视频片段之间的语义转换和演变，提供更丰富和连贯的语义上下文信息。

通过全局语义上下文关联编码，可以保持视频语义的连续性和一致性，有助于提升视频内容的流畅度和观看体验，使观众能够更好地理解和跟随视频的语义变化。在全局语义上下文关联编码过程中，可以对多维度特征进行融合和降维，以得到更紧凑和表达能力强的全局语义特征向量，有助于减少特征的维度，提高特征的表达效率和计算效率。通过获得源视频的全局语义上下文特征向量，可以更好地理解视频的内容和语义，为视频内容分析、检索、推荐和其他相关应用提供基础，有助于提高视频处理和应用的准确性、效率和用户体验。

通过基于转换器模块的视频语义上下文关联编码器，将源视频片段多维度特征图的序列进行编码，可以获得源视频的全局语义上下文特征向量。这样，可以捕捉全局语义信息、建模语义关联、保持语义连续性、特征融合和降维，以及提高视频内容理解和应用的能力。

应可以理解，所述源视频语义波动特征向量反映了源视频片段之间的语义特征差异和波动程度，而所述源视频全局语义上下文特征向量则捕捉了整个源视频的语义上下文特征信息，这两个特征向量分别从不同的角度描述了所述源视频的语义特征。因此，为了能够更全面且更综合地进行源视频语义的特征表示，在本申请的技术方案中，融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符。通过融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量，可以将它们的信息相互补充和结合，从而得到更全面、更丰富的所述源视频语义特征描述符。这样的描述符能够更全面地表示源视频的语义特征信息，为视频分析和目标推送的推送提供更准确的基础。

在本申请的一个具体实施例中，融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符，包括：融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到初始源视频多尺度多维度语义特征向量；对所述初始源视频多尺度多维度语义特征向量进行特征分布优化以得到所述源视频多尺度多维度语义特征向量。

融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量，可以将不同尺度和维度的特征信息结合起来，这样做可以提供更全面、丰富的视频语义特征表示。融合后的特征向量作为初始源视频多尺度多维度语义特征向量，包含了源视频的语义波动和全局语义上下文信息，提供了对源视频内容的全局把握和细粒度描述。

对初始源视频多尺度多维度语义特征向量进行特征分布优化，可以进一步提升特征的表达能力和区分度，通过优化特征分布，可以使得相似的视频片段在特征空间中更加接近，而不相似的视频片段则更加分散。这有助于提高视频内容的相似度度量和检索准确性。

源视频多尺度多维度语义特征向量具有更全面、丰富的语义信息，并经过优化以提高特征的表达能力和区分度，符可用于视频内容分析、检索、推荐和其他相关应用，提供更准确和丰富的视频特征表示。

具体地，在本申请的一个实施例中，对所述初始源视频多尺度多维度语义特征向量进行特征分布优化以得到所述源视频多尺度多维度语义特征向量，包括：对所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量进行校正以得到校正特征向量；将所述校正特征向量与所述初始源视频多尺度多维度语义特征向量进行融合处理以得到所述源视频多尺度多维度语义特征向量。

特别地，在上述技术方案中，所述源视频片段多维度特征图的序列表达所述源视频在全局时域经由视频片段切分确定的局部时域下的局部时域内时序关联的图像语义特征，由此，所述源视频语义波动特征向量表达全局时域下的局部时域间图像语义波动特征，而所述源视频全局语义上下文特征向量表达全局时域下的局部时域图像语义上下文关联特征，这样，在融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量时，考虑到所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量在全局时域下的基于局部时域的不同特征分布模式导致图像语义特征对应稀疏性，会影响所述源视频多尺度多维度语义特征向量的表达效果，因此期望基于所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量各自的特征表达的时序显著性和时序关键性来进行特征对应性优化，从而提升所述源视频多尺度多维度语义特征向量的表达效果。

基于此，本申请的申请人对于所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量进行校正，具体表示为：以如下优化公式对所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量进行校正以得到校正特征向量；其中，所述优化公式为：其中，/>是所述源视频语义波动特征向量，且/>是所述源视频全局语义上下文特征向量，/>表示特征向量的逐位置开方，/>和/>分别是特征向量/>和/>最大特征值的倒数，/>和/>是权重超参数，/>是所述校正特征向量，/>表示按位置减法，/>表示按位置点乘；将所述校正特征向量与所述初始源视频多尺度多维度语义特征向量进行融合处理以得到所述源视频多尺度多维度语义特征向量。

这里，通过所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量/>的各个特征值的开方值来获得特征值集合的预分割的局部组，并从其中回归所述源视频语义波动特征向量/>和所述源视频全局语义上下文特征向量/>的关键最大值特征，这样，可以基于最远点采样的思想来提升特征值的按位置显著性分布，从而通过具有显著分布的关键特征来进行特征向量间的稀疏交互控制，以实现校正特征向量/>对于所述源视频语义波动特征向量/>和所述源视频全局语义上下文特征向量/>的原始流形几何的还原。这样，再将所述校正特征向量/>与所述源视频多尺度多维度语义特征向量融合，就可以提升所述源视频多尺度多维度语义特征向量的表达效果，从而提升确定的目标推送模板的准确性。这样，能够基于源视频的语义来自动选择合适的目标推送模板，并将其融合到源视频中，从而提高视频的制作效率和质量，实现更好的信息交互效果，通过这样的方式，能够提高大型运动场馆视频制作的灵活性和适应性，使得视频内容能够更好地适应智能大型运动场馆中的信息交互需求。

综上，基于本发明实施例的大型运动场馆视频融合方法被阐明，其通过采集终端上传的源视频，并在后端引入数据处理和分析算法来进行该源视频的语义特征分析和提取，同时基于源视频语义特征的描述符来自动选择合适的目标推送模板，并将其融合到源视频中，从而提高视频的制作效率和质量，实现更好的信息交互效果。这样，能够提高大型运动场馆视频制作的灵活性和适应性，使得视频内容能够更好地适应智能大型运动场馆中的信息交互需求。

图3为本发明实施例中提供的一种大型运动场馆视频融合系统的框图。如图3所示，所述大型运动场馆视频融合系统200，包括：源视频获取模块210，用于获取终端上传的源视频；视频特征提取模块220，用于对所述源视频进行视频特征提取以得到源视频语义特征描述符；目标推送模板确定模块230，用于基于所述源视频语义特征描述符，确定目标推送模板；以及，融合视频生成模块240，用于将所述目标推送模板融合至所述源视频中以得到融合视频。

本领域技术人员可以理解，上述大型运动场馆视频融合系统中的各个步骤的具体操作已经在上面参考图1到图2的大型运动场馆视频融合方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本发明实施例的大型运动场馆视频融合系统200可以实现在各种终端设备中，例如用于大型运动场馆视频融合的服务器等。在一个示例中，根据本发明实施例的大型运动场馆视频融合系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该大型运动场馆视频融合系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该大型运动场馆视频融合系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该大型运动场馆视频融合系统统200与该终端设备也可以是分立的设备，并且该大型运动场馆视频融合系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

图4为本发明实施例中提供的一种大型运动场馆视频融合方法的应用场景图。如图4所示，在该应用场景中，首先，获取终端上传的源视频（例如，如图4中所示意的C）；然后，将获取的源视频输入至部署有大型运动场馆视频融合算法的服务器（例如，如图4中所示意的S）中，其中所述服务器能够基于大型运动场馆视频融合算法对所述源视频进行处理，以确定目标推送模板；以及，将所述目标推送模板融合至所述源视频中以得到融合视频。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大型运动场馆视频融合方法，其特征在于，包括：

获取终端上传的源视频；

基于所述源视频语义特征描述符，确定目标推送模板；以及

将所述目标推送模板融合至所述源视频中以得到融合视频。

2.根据权利要求1所述的大型运动场馆视频融合方法，其特征在于，对所述源视频进行视频特征提取以得到源视频语义特征描述符，包括：

对所述源视频进行视频片段切分以得到源视频片段的序列；

通过基于深度神经网络模型的视频多维度特征提取器对所述源视频片段的序列进行特征提取以得到源视频片段多维度特征图的序列；

计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量；

对所述源视频片段多维度特征图的序列进行全局语义关联编码以得到源视频全局语义上下文特征向量；

融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符。

3.根据权利要求2所述的大型运动场馆视频融合方法，其特征在于，所述深度神经网络模型为三维卷积神经网络模型。

4.根据权利要求3所述的大型运动场馆视频融合方法，其特征在于，计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量，包括：以如下语义差异公式计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的所述源视频语义波动特征向量；

其中，所述语义差异公式为：其中，/>和/>分别是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图中各个位置的特征值，/>是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的宽度， />是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的高度，且/>是所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图的通道数，/>是所述源视频语义波动特征向量中的各个视频语义差异度量系数。

5.根据权利要求4所述的大型运动场馆视频融合方法，其特征在于，对所述源视频片段多维度特征图的序列进行全局语义关联编码以得到源视频全局语义上下文特征向量，包括：将所述源视频片段多维度特征图的序列通过基于转换器模块的视频语义上下文关联编码器以得到所述源视频全局语义上下文特征向量。

6.根据权利要求5所述的大型运动场馆视频融合方法，其特征在于，融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符，包括：

融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到初始源视频多尺度多维度语义特征向量；

对所述初始源视频多尺度多维度语义特征向量进行特征分布优化以得到所述源视频多尺度多维度语义特征向量。

7.根据权利要求6所述的大型运动场馆视频融合方法，其特征在于，对所述初始源视频多尺度多维度语义特征向量进行特征分布优化以得到所述源视频多尺度多维度语义特征向量，包括：

对所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量进行校正以得到校正特征向量；

将所述校正特征向量与所述初始源视频多尺度多维度语义特征向量进行融合处理以得到所述源视频多尺度多维度语义特征向量。

8.一种大型运动场馆视频融合系统，其特征在于，包括：

源视频获取模块，用于获取终端上传的源视频；

9.根据权利要求8所述的大型运动场馆视频融合系统，其特征在于，所述视频特征提取模块，包括：

视频片段切分单元，用于对所述源视频进行视频片段切分以得到源视频片段的序列；

特征提取单元，用于通过基于深度神经网络模型的视频多维度特征提取器对所述源视频片段的序列进行特征提取以得到源视频片段多维度特征图的序列；

语义差异度量系数计算单元，用于计算所述源视频片段多维度特征图的序列中每相邻两个源视频片段多维度特征图之间的视频语义差异度量系数以得到由视频语义差异度量系数组成的源视频语义波动特征向量；

全局语义关联编码单元，用于对所述源视频片段多维度特征图的序列进行全局语义关联编码以得到源视频全局语义上下文特征向量；

向量融合单元，用于融合所述源视频语义波动特征向量和所述源视频全局语义上下文特征向量以得到源视频多尺度多维度语义特征向量作为所述源视频语义特征描述符。

10.根据权利要求9所述的大型运动场馆视频融合系统，其特征在于，所述深度神经网络模型为三维卷积神经网络模型。