CN115695852B

CN115695852B - 一种基于多模态信息融合的视频镜头自动挑选组合方法

Info

Publication number: CN115695852B
Application number: CN202211718926.5A
Authority: CN
Inventors: 唐学怡; 余军; 刘盾; 程煜; 袁渊; 刘婷婷; 何翔宇
Original assignee: Chengdu Chinamcloud Technology Co ltd
Current assignee: Chengdu Chinamcloud Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-03-28
Anticipated expiration: 2042-12-30
Also published as: CN115695852A

Abstract

本发明涉及一种基于多模态信息融合的视频镜头自动挑选组合方法，属于音视频处理技术领域，首先对多机位多视频流的多模态信息进行实时的识别标记，其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选，最终通过对应策略模型的特技图文渲染来自动完成视频的生成。本发明，可以实现多机位多流的实时自动化视频生产，对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合，可以极大的提升视频内容生产效率以及减少人力资源的投入。

Description

一种基于多模态信息融合的视频镜头自动挑选组合方法

技术领域

本发明涉及音视频处理技术领域，尤其涉及一种基于多模态信息融合的视频镜头自动挑选组合方法。

背景技术

目前对视频智能集锦生成的相关技术主要从以下几个方面体现：1、通过硬件设备引入来提升人脸和人体的检测（如：自动生成集锦视频的方法与集锦视频自动生成系统），此类专利的核心重点主要是通过引入硬件设备或者感应装置，解决人脸因角度、光线、他人或设备遮挡、高速运动等场景下，无法准备获取到目标人物的问题。2、以人脸识别为基础的视频集锦生成（如个性化视频集锦生成方法）：在展馆、博物馆、旅游景点、游乐场等公共场所部署摄像头等视频采集设备，通过视频采集设备以视频方式采集用户活动,当某个用户上传包含人脸照片获取个性化视频集锦时，系统识别该用户人脸信息，与所采集视频中所有信息进行匹配，找到包含该用户的所有视频画面及声音信息，将包含用户的视频画面及声音与系统中预置的模板视频及声音进行合并,生成个性化视频集锦后供用户观看、下载以及分享。这类专利主要是基于人脸识别的结果进行视频画面的简单拼装和模板包装。3、以景别为基础的视频集锦生成（如：一种视频生成方法及其装置）：根据景别条件,确定视频拼接模板；根据所述视频拼接模板，从多个原始视频中确定用于视频拼接的多个视频片段。这类专利主要是提出了一种以景别为挑选视频片段的理念，定义了什么是景别以及如何对视频片段进行景别归类。4、对直播进行内容截取和内容叠加（如：直播流处理方法、装置、设备及存储介质）：该类型专利，主要原理是主播从正在直播的直播流中实时截取候选视频片段作为第一图层，主播选择的内容作为第二图层，对两部分内容进行渲染叠加，使得中途进入该直播间的用户不仅可以看到主播当前正在讲解的内容，同时还可以观看到进入该直播间之前的精华片段,从而避免用户错过较为重要或精彩的直播内容。此类专利主要是针对主播带货单直播流直播场景进行处理，内容的生成和控制主要是由主播来预置完成。

因此，目前视频智能集锦生成相关技术大多针对于多个视频文件或者单个流的场景，且现有智能集锦生成模式单一，通常都是仅仅基于某一个方面的信息来进行集锦生成，如人脸或者基于景别来作为集锦的片段挑选来源，这种单一模式单一场景有很大的局限性。

需要说明的是，在上述背景技术部分公开的信息只用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于多模态信息融合的视频镜头自动挑选组合方法，解决了现有技术的不足。

本发明的目的通过以下技术方案来实现：一种基于多模态信息融合的视频镜头自动挑选组合方法，所述自动挑选组合方法包括：

步骤S1、多机位直播流注册到任务管理引擎，在注册时定义多机位直播流的多模态信息，并对多机位直播流的多模态信息进行实时识别标记；

步骤S2、任务管理引擎根据每个机位直播流驱动对应的实时流录制服务，实时流录制服务将对应的直播流视频以ts分片的方式进行存储，同时生成对应的文件来记录每一个分片的GMT时间信息；

步骤S3、任务管理引擎分别驱动各个模态信息分析服务，对存储的ts分片视音频文件进行分析，并将分析结果绑定上对应机位直播流的ID和GMT时间后存储到数据库中；

步骤S4、当任务管理引擎接收任务时，将任务以及选择的意境模型提交给多模态信息融合策略模型管理服务，多模态信息融合策略模型管理服务中多模态信息融合策略模型通过不同意境下的策略挑选方法从数据库中选择出匹配度最高的视频分片和模型对应的特技和图文生成时间线；

步骤S5、多模态信息融合策略模型管理服务将时间线提交给特技图文渲染合成服务生成成品的视频文件。

所述步骤S1中定义多机位直播流的多模态信息包括：

位置维度模态信息：通过主视角机位、背视角机位、俯视视角机位和全景视角机位来确定多机位直播流在空间位置中的布局关系；

时间维度模态信息：表示多机位直播流在实时处理过程中记录下每个视频分片的GMT时间；

人物模态信息：通过调用人脸检测服务来进行含有或无人物、人脸大小的检测以及具体的人物，并通过获取到的坐标信息确定人脸在视频画面中的位置与人物方位；

表情模态信息：基于人物表示识别服务获取表情识别的结果，并对特定表情进行标记；

文字模态信息：基于文字识别服务实现对于视频画面中的文字进行识别；

动作模态信息：基于动作识别服务对直播流中的人物特定动作进行识别；

语音模态信息：基于语音识别服务实现对直播流中的语音进行识别。

所述对多机位直播流的多模态信息进行实时识别标记包括：

对多机位直播流的多模态信息的待选视频片段单位进行设置：设置n秒视频片段为一个标准片段单位，两个标准片段单位组合为一个中片段单位，3n秒以上视频片段和三个相邻的标准片段单位组合为一个长片段单位；

对每个待选视频片段单位的每秒视频抽一帧进行智能识别，按照投票规则进行判断，以满足3/5比例匹配模态信息特征的方式判断某视频片段满足对应的模态特征来识别待选视频片段。

所述满足3/5比例匹配模态信息特征的方式包括：

从一个标准片段单位中以每秒抽一帧的方式抽出n张视频画面；

对n张视频画面依次进行位置维度模态信息、时间维度模态信息、人物模态信息、表情模态信息、文字模态信息、动作模态信息和语音模态信息的识别，当n张视频画面中至少有3/5比例以上的画面出现了相应模态信息，则判断该标准片段满足对应的模态特征。

所述多模态信息融合策略模型的策略挑选方法包括：事件中心法、人物中心法、时间叙事法、空间叙事法和关键词核心法。

所述事件中心法包括：由1个长片段+3个标准片段组成，长片段1以人物近景为主，突出事件，3个标准片段按照人物由近及远进行选择，4个视频片段采用硬切的方式进行拼接；

表示为：Slice1_3n（F7∩G9∩H14∩I16）+ Slice2_n（F5∩I17）+Slice3_n（F6∩I17）+Slice4_n（F8∩I17），其中，Slice1_3n表示时间3n秒的长片段，Slice2_n、Slice3_n和Slice4_n表示3个n秒的标准片段，F7表示近景、G9表示中心位置，H14表示中轴线范围内、I16表示人物正脸，∩表示交集，即选择的长片段Slice1_3n同时必须满足近景、中心位置、中轴线范围内和人物正脸的特征；F5表示人物大特写，I17表示人物侧脸，即选择的标准片段Slice2_n必须同时满足人物大特写和人物侧脸的特征；F6表示人物特写，即选择的标准片段Slice3_n必须同时满足人物特写和人物侧脸的特征；F8表示人物全景，及选择的标准Slice4_n必须同时满足人物全景和人物侧脸的特征。

所述人物中心法包括：由1个长片段+3个标准片段组成，长片段2以主视角机位的人物特写为主，突出目标人物本身，3个标准片段按照背视角机位、俯视视角机位和全景视角机位取同一GMT时间的画面，4个视频片段采用硬切的方式进行拼接；

表示为：Slice1_3n（C_主∩T_同∩G9∩H14∩I16∪L19∪L20）+ Slice2_n（C_背∩T_同∩H14）+Slice3_n（C_俯∩T_同∩H14）+Slice4_n（C_全∩T_同∩H14），其中，Slice1_3n表示时间3n秒的长片段，Slice2_n、Slice3_n和Slice4_n表示3个n秒的标准片段，C_主表示主视角机位，C_背表示背视角机位，C_俯表示俯视视角机位，C_全表示全景视角机位，T_同表示当前人物中心法从其它机位挑选视频片段与跟主视角机位的视频片段处于同一时间，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∪表示并集，L19表示开心表情，L20表示惊讶表情。

所述时间叙事法包括：由1个标准片段+1个中片段+1个中片段+1个标准片段组成，第一个标准片段选择全景视角机位，2个中片段从主视角机位挑选人物的不同左右方位，最后一个标准片段选择全景视角机位，同时对最后一个标准片段的n秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序；

表示为：Slice1_n（C_全∩T₁∩G9∩H14∩I16∪L19∪L20）+ Slice2_2n（C_主∩T₂∩H14）+Slice3_2n（C_俯∩T₃∩H14）+Slice4_n（C_全∩T₄∩H14），其中，Slice2_2n和Slice3_2n表示两个时间2n秒的中片段，Slice1_n和Slice4_n表示2个n秒的标准片段，C_主表示主视角机位，C_俯表示俯视视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集，L19表示开心表情，L20表示惊讶表情，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序。

所述空间叙事法：由1个标准片段+1个标准片段+1个长片段+1个标准片段组成，第一个标准片段选择全景视角机位的空画面，第二个标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，第一个标准片段和第二个标准片段之间通过淡入特技进行衔接，长片段选择主视角挑选，最后一个标准片段选择俯视视角机位，同时对最后一个标准片段的n秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序；

表示为：Slice1_n（C_全∩T₁∩G9∩H14∩I16∪L19∪L20）+ Slice2_n（C_全-2∩T₂∩H14）+Slice3_3n（C_主∩T₃∩H14）+Slice4_n（C_俯∩T₄∩H14∪19∪17），其中，Slice1_n、Slice2_n和Slice4_n表示3个时间n秒的标准片段，Slice3_3n表示1个3n秒的标准片段，C_全表示全景视角机位，C_主表示主视角机位，C_俯表示俯视视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集，L19表示开心表情，L20表示惊讶表情，C_全-2表示选取的是标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序。

所述关键词核心法包括：由6个标准片段按照时间先后顺序组成，6个标准片段选择结合时间模态、文字模态和语音模态特征中出现的某一核心关键词内容；

表示为：Slice1_n（T₁∩M21∪O28）+ Slice2_n（T₂∩M21∪O28）+Slice3_n（T₃∩M21∪O28）+Slice4_n（T₄∩M21∪O28）+ Slice1_n（T₅∩M21∪O28）+ Slice2_n（T₆∩M21∪O28），Slice1_n、Slice2_n、Slice3_n、Slice4_n、Slice5_n和Slice1_n表示6个时间n秒的标准片段，M21表示文字信息，O28表示语音信息，∩表示交集，∪表示并集，T₁、T₂、T₃、T₄、T₅和T₆分别表示各自对应片段的排列时间顺序。

本发明具有以下优点：一种基于多模态信息融合的视频镜头自动挑选组合方法，可以实现多机位多流的实时自动化视频生产，对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合，可以极大的提升视频内容生产效率以及减少人力资源的投入，同时此方法还可以应用到政企拜访、实践记录等多个应用场景，产生更大更广的社会经济价值。

附图说明

图1为本发明的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明具体涉及一种基于多模态信息融合的多机位直播流视频镜头自动挑选组合方法，首先对多机位多视频流的多模态信息进行实时的识别标记，其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选，最终通过对应策略模型的特技图文渲染来自动完成视频的生成；具体包括以下内容：

A、多机位直播流注册到任务管理引擎，在注册时定义多机位直播流的多模态信息，并对多机位直播流的多模态信息进行实时识别标记；

B、任务管理引擎根据每个机位直播流驱动对应的实时流录制服务，实时流录制服务将对应的直播流视频以ts分片的方式进行存储，每个分片长度5秒，同时生成对应的shift.nsi文件来记录每一个分片的GMT时间信息；

C、任务管理引擎分别驱动各个模态信息分析服务，对存储的ts分片视音频文件进行分析，并将分析结果绑定上对应机位直播流的ID和GMT时间后存储到数据库中；

以文字模态信息服务为例，文字模态信息收到任务管理引擎的任务后，会对存储上的ts分片进行逐秒抽帧并对抽帧的图片进行文字识别，将识别到的文字的结果以及对应GMT时间记录到数据库中。

D、当任务管理引擎接收任务时，将任务以及选择的意境模型提交给多模态信息融合策略模型管理服务，多模态信息融合策略模型管理服务中多模态信息融合策略模型通过不同意境下的策略挑选方法从数据库中选择出匹配度最高的视频分片和模型对应的特技和图文生成时间线；

E、多模态信息融合策略模型管理服务将时间线提交给特技图文渲染合成服务生成成品的视频文件。

每一种信息的来源或者形式都可以称之为一种模态，多个直播流之间的时间维度信息、位置维度信息；每一个直播流里面的视频信息、语音信息；直播流视频信息中人物信息、表情信息、位置信息、文字信息、特定的动作信息；以上每一种均可以称之为一种模态。

因此，步骤A中定义多机位直播流的多模态信息包括：

人物模态信息：通过调用人脸检测服务来进行含有或无人物、人脸大小的检测，并通过获取到的坐标信息确定人脸在视频画面中的位置与人物方位；

进一步地，对多机位直播流的多模态信息进行实时识别标记包括：

对多机位直播流的多模态信息的待选视频片段单位进行设置：设置5秒视频片段为一个标准片段单位，两个标准片段单位组合为一个中片段单位，15秒以上视频片段和三个相邻的标准片段单位组合为一个长片段单位；

所述满足3/5比例匹配模态信息特征的方式包括：

从一个标准片段单位中以每秒抽一帧的方式抽出5张视频画面；

对5张视频画面依次进行位置维度模态信息、时间维度模态信息、人物模态信息、表情模态信息、文字模态信息、动作模态信息和语音模态信息的识别，当5张视频画面中至少有3/5比例以上的画面出现了相应模态信息，则判断该标准片段满足对应的模态特征。

以上投票规则主要有2个目的，目的1是为了避免运动画面导致有些帧未识别到而漏判定；目的2是设置3/5是保障视频画面信息能够有足够的时长传达给客户。

进一步地，多模态信息融合策略模型的策略挑选方法包括：事件中心法、人物中心法、时间叙事法、空间叙事法和关键词核心法。

其中，事件中心法包括：由1个长片段+3个标准片段组成，长片段1以人物近景为主，突出事件，3个标准片段按照人物由近及远进行选择，4个视频片段采用硬切的方式进行拼接；

表示为：Slice1₁₅（F7∩G9∩H14∩I16）+ Slice2₅（F5∩I17）+Slice3₅（F6∩I17）+Slice4₅（F8∩I17），其中，Slice1₁₅表示时间15秒的长片段，Slice2₅、Slice3₅和Slice4₅表示3个5秒的标准片段，F7表示近景、G9表示中心位置，H14表示中轴线范围内、I16表示人物正脸，∩表示交集，即选择的长片段Slice1₁₅同时必须满足近景、中心位置、中轴线范围内和人物正脸的特征；F5表示人物大特写，I17表示人物侧脸，即选择的标准片段Slice2₅必须同时满足人物大特写和人物侧脸的特征；F6表示人物特写，即选择的标准片段Slice3₅必须同时满足人物特写和人物侧脸的特征；F8表示人物全景，及选择的标准Slice4₅必须同时满足人物全景和人物侧脸的特征。

表示为：Slice1₁₅（C_主∩T_同∩G9∩H14∩I16∪L19∪L20）+ Slice2₅（C_背∩T_同∩H14）+Slice3₅（C_俯∩T_同∩H14）+Slice4₅（C_全∩T_同∩H14），其中，Slice1₁₅表示时间15秒的长片段，Slice2₅、Slice3₅和Slice4₅表示3个5秒的标准片段，C_主表示主视角机位，C_背表示背视角机位，C_俯表示俯视视角机位，C_全表示全景视角机位，T_同表示当前人物中心法从其它机位挑选视频片段与跟主视角机位的视频片段处于同一时间，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∪表示并集，L19表示开心表情，L20表示惊讶表情。

所述时间叙事法包括：由1个标准片段+1个中片段+1个中片段+1个标准片段组成，第一个标准片段选择全景视角机位，2个中片段从主视角机位挑选人物的不同左右方位，最后一个标准片段选择全景视角机位，同时对最后一个标准片段的5秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序；

表示为：Slice1₅（C_全∩T₁∩G9∩H14∩I16∪L19∪L20）+ Slice2₁₀（C_主∩T₂∩H14）+Slice3₁₀（C_俯∩T₃∩H14）+Slice4₅（C_全∩T₄∩H14），其中，Slice2₁₀和Slice3₁₀表示两个时间10秒的中片段，Slice1₅和Slice4₅表示2个5秒的标准片段，C_主表示主视角机位，C_俯表示俯视视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集。

空间叙事法：由1个标准片段+1个标准片段+1个长片段+1个标准片段组成，第一个标准片段选择全景视角机位的空画面，第二个标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，第一个标准片段和第二个标准片段之间通过淡入特技进行衔接，长片段选择主视角挑选，最后一个标准片段选择俯视视角机位，同时对最后一个标准片段的n秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序，L19表示开心表情，L20表示惊讶表情，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序；

表示为：Slice1₅（C_全∩T₁∩G9∩H14∩I16∪L19∪L20）+ Slice2₅（C_全-2∩T₂∩H14）+Slice3₁₅（C_主∩T₃∩H14）+Slice4₅（C_俯∩T₄∩H14∪19∪17），其中，Slice1₅、Slice2₅和Slice4₅表示3个时间5秒的标准片段，Slice3₁₅表示1个15秒的标准片段，C_全表示全景视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集，L19表示开心表情，L20表示惊讶表情，C_全-2表示选取的是标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序。

关键词核心法包括：由6个标准片段按照时间先后顺序组成，6个标准片段选择结合时间模态、文字模态和语音模态特征中出现的某一核心关键词内容，常用在某些特定节日或者特定事件的突出，（如春节到了，多个机位有多人同时做新春快乐的祝福语）。

表示为：Slice1₅（T₁∩M21∪O28）+ Slice2₅（T₂∩M21∪O28）+Slice3₅（T₃∩M21∪O28）+Slice4₅（T₄∩M21∪O28）+ Slice1₅（T₅∩M21∪O28）+ Slice2₅（T₆∩M21∪O28），Slice1₅、Slice2₅、Slice3₅、Slice4₅、Slice5₅和Slice1_n表示6个时间5秒的标准片段，M21表示文字信息，O28表示语音信息，∩表示交集，∪表示并集，T₁、T₂、T₃、T₄、T₅和T₆分别表示各自对应片段的排列时间顺序。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述自动挑选组合方法包括：

步骤S5、多模态信息融合策略模型管理服务将时间线提交给特技图文渲染合成服务生成成品的视频文件；

所述步骤S1中定义多机位直播流的多模态信息包括：

表情模态信息：基于人物表示识别服务获取表情识别的结果，并对特定表情进行标记，将开心和惊讶两种表情作为特定表情进行标记；

语音模态信息：基于语音识别服务实现对直播流中的语音进行识别；

所述对多机位直播流的多模态信息进行实时识别标记包括：

2.根据权利要求1所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述满足3/5比例匹配模态信息特征的方式包括：

3.根据权利要求1所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述多模态信息融合策略模型的策略挑选方法包括：事件中心法、人物中心法、时间叙事法、空间叙事法和关键词核心法。

4.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述事件中心法包括：由1个长片段+3个标准片段组成，长片段1以人物近景为主，突出事件，3个标准片段按照人物由近及远进行选择，4个视频片段采用硬切的方式进行拼接；

表示为：Slice1_3n(F7∩G9∩H14∩I16)+Slice2_n(F5∩I17)+Slice3_n(F6∩I17)+Slice4_n(F8∩I17)，其中，Slice1_3n表示时间3n秒的长片段，Slice2_n、Slice3_n和Slice4_n表示3个n秒的标准片段，F7表示近景、G9表示中心位置，H14表示中轴线范围内、I16表示人物正脸，∩表示交集，即选择的长片段Slice1_3n同时必须满足近景、中心位置、中轴线范围内和人物正脸的特征；F5表示人物大特写，I17表示人物侧脸，即选择的标准片段Slice2_n必须同时满足人物大特写和人物侧脸的特征；F6表示人物特写，即选择的标准片段Slice3_n必须同时满足人物特写和人物侧脸的特征；F8表示人物全景，及选择的标准Slice4_n必须同时满足人物全景和人物侧脸的特征。

5.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述人物中心法包括：由1个长片段+3个标准片段组成，长片段2以主视角机位的人物特写为主，突出目标人物本身，3个标准片段按照背视角机位、俯视视角机位和全景视角机位取同一GMT时间的画面，4个视频片段采用硬切的方式进行拼接；

表示为：Slice1_3n(C_主∩T_同∩G9∩H14∩I16∪L19∪L20)+Slice2_n(C_背∩T_同∩H14)+Slice3_n(C_俯∩T_同∩H14)+Slice4_n(C_全∩T_同∩H14)，其中，Slice1_3n表示时间3n秒的长片段，Slice2_n、Slice3_n和Slice4_n表示3个n秒的标准片段，C_主表示主视角机位，C_背表示背视角机位，C_俯表示俯视视角机位，C_全表示全景视角机位，T_同表示当前人物中心法从其它机位挑选视频片段与跟主视角机位的视频片段处于同一时间，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∪表示并集，L19表示开心表情，L20表示惊讶表情。

6.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述时间叙事法包括：由1个标准片段+1个中片段+1个中片段+1个标准片段组成，第一个标准片段选择全景视角机位，2个中片段从主视角机位挑选人物的不同左右方位，最后一个标准片段选择全景视角机位，同时对最后一个标准片段的n秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序；

表示为：Slice1_n(C_全∩T₁∩G9∩H14∩I16∪L19∪L20)+Slice2_2n(C_主∩T₂∩H14)+Slice3_2n(C_俯∩T₃∩H14)+Slice4_n(C_全∩T₄∩H14)，其中，Slice2_2n和Slice3_2n表示两个时间2n秒的中片段，Slice1_n和Slice4_n表示2个n秒的标准片段，C_主表示主视角机位，C_俯表示俯视视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集，L19表示开心表情，L20表示惊讶表情，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序。

7.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述空间叙事法：由1个标准片段+1个标准片段+1个长片段+1个标准片段组成，第一个标准片段选择全景视角机位的空画面，第二个标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，第一个标准片段和第二个标准片段之间通过淡入特技进行衔接，长片段选择主视角挑选，最后一个标准片段选择俯视视角机位，同时对最后一个标准片段的n秒内做逐步拉进特技效果叠加逐渐失焦特技，且四个片段在时间维度上满足时间先后顺序；

表示为：Slice1_n(C_全∩T₁∩G9∩H14∩I16∪L19∪L20)+Slice2_n(C_全-2∩T₂∩H14)+Slice3_3n(C_主∩T₃∩H14)+Slice4_n(C_俯∩T₄∩H14∪19∪17)，其中，Slice1_n、Slice2_n和Slice4_n表示3个时间n秒的标准片段，Slice3_3n表示1个3n秒的标准片段，C_全表示全景视角机位，C_主表示主视角机位，C_俯表示俯视视角机位，G9表示中心位置，H14表示人物方位，I16表示人物正脸，∩表示交集，∪表示并集，L19表示开心表情，L20表示惊讶表情，C_全-2表示选取的是标准片段选择全景视角机位第一次检测出人物并反推2秒的片段，T₁、T₂、T₃、T₄分别表示各自对应片段的排列时间顺序。

8.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述关键词核心法包括：由6个标准片段按照时间先后顺序组成，6个标准片段选择结合时间模态、文字模态和语音模态特征中出现的某一核心关键词内容；

表示为：Slice1_n(T₁∩M21∪O28)+Slice2_n(T₂∩M21∪O28)+Slice3_n(T₃∩M21∪O28)+Slice4_n(T₄∩M21∪O28)+Slice1_n(T₅∩M21∪O28)+Slice2_n(T₆∩M21∪O28)，Slice1_n、Slice2_n、Slice3_n、Slice4_n、Slice5_n和Slice1_n表示6个时间n秒的标准片段，M21表示文字信息，O28表示语音信息，∩表示交集，∪表示并集，T₁、T₂、T₃、T₄、T₅和T₆分别表示各自对应片段的排列时间顺序。