CN112818906B

CN112818906B - 一种基于多模态信息融合理解的全媒体新闻智能编目方法

Info

Publication number: CN112818906B
Application number: CN202110198428.1A
Authority: CN
Inventors: 张随雨; 俞定国; 方莉萍; 钱永江; 王亚奇; 马小雨
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-07-11
Anticipated expiration: 2041-02-22
Also published as: US11776267B2; US20220270369A1; CN112818906A

Abstract

本发明公开了一种基于多模态信息融合的全媒体新闻智能编目方法，对全媒体新闻中的视频信息、语音信息、字幕条信息、人物信息进行统一表征与融合理解来获得多模态融合特征，使用多模态融合特征实现新闻的自动切片、自动编目描述、自动场景分类。本发明的有益效果在于：实现了面向全媒体新闻的自动化综合编目的完整流程，通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物，提高了编目方法的准确率与泛化性，并大幅减少人工编目时间。

Description

一种基于多模态信息融合理解的全媒体新闻智能编目方法

技术领域

本发明涉及智能媒体领域，具体涉及一种基于多模态信息融合理解的全媒体新闻智能编目方法。

背景技术

随着智能移动设备的普及以及数字媒体内容的发展，包含图像、视频、语音、文本等全媒体新闻内容被高频生产并快速传播，海量资源与高人力成本的问题使得传媒行业越来越迫切的寻求在分类、编目、检索等资源管理流程中的智能化方法。

全媒体新闻是典型的多模态内容载体，它包含了新闻现场或演播室影像、新闻字幕文本、新闻播报语音等多模态信息，这使得面向单模态处理的智能技术无法有效替代编目任务中的人工流程。相比于单模态，多模态之间的互补性、关联性提供了求解每种模态潜在解释因素的监督信息，对多模态信息进行表征、转化、融合等综合的处理更接近于人类智能对自然界的感知与理解模式。因此，如何融合新闻内容中多种模态信息，实现资源的自动化编目流程，是媒体行业广泛存在的需求和挑战。

目前，不论是以电视台为代表的传统广电单位，还是以今日头条为代表的新兴自媒体社区，人工编目仍然是媒体内容分类入库的普遍方法，其一般步骤是：编目人员先将新闻视频按场景或镜头进行切片(拆条)标注，然后对各个片段的内容进行文本描述、关键词描述、广电分类描述、关键人物描述等，最后提交入库。高质量的新闻编目可以提供优质的资源检索、资源点播、资源推荐等服务，是全媒体时代重要的基础业务流程。尽管近年来有云媒资系统、深度学习等新框架或新技术的辅助，增加了新闻编目流程的自动化程度，但它们常限于对资源的云端管理，或是对单模态内容的单任务处理，无法覆盖编目所需的完整流程以实现全面的智能化流水线。我们将当前已有的编目方法归纳如下：

1.传统编目管理系统：采用手动的方式进行新闻资源的切片、描述、分类等，全部操作取决于编目人员的主观判断。该方法普遍用于传媒行业的传统媒资管理系统，管理人员首先登录系统，然后对待编资源进行相应操作，最后提交系统完成入库。

2.具有智能拆条辅助的编目系统：采用基于镜头转换的分割方法，将新闻资源拆分为独立片段(即自动标注拆条的起止时间)，编目人员对切片效果进行确认，然后手动完成片段描述、分类等后续工作。

3.具有智能场景分类的编目系统：采用深度学习等技术对视频场景进行智能分类，自动为视频标注“综艺”、“体育”、“动画”等场景标签，编目人员对分类标签进行确认，然后手动完成拆条、片段描述、分类等后续工作。

4.综合智能编目系统：包含上述1、2、3条中若干功能的综合系统，但系统中的各个功能都是相对独立的，即针对同一资源分别运行对应的算法以生成基于单模态信息的结果。

上述编目方法存在两点主要缺陷。第一，系统中涉及到的智能算法均是面向单模态内容的提取、分析和生成方法，即使计算机视觉、自然语言处理、语音识别等人工智能技术在单模态信息的处理任务上已经达到了接近或超越人脑的能力，但单模态的信息往往难以提供场景或现象中的完整知识；在全媒体新闻编目流程中，由于缺少对新闻内容包含的多模态信息的统一表征(融合)与综合分析(理解)的有效方法，大量的分类、标注、描述、审核工作仍然需要投入较多的人工成本来完成。第二，智能编目系统中的视频镜头分割、视频语义描述等方法是从已有的机器学习任务场景移植来的，这些方法在面向新闻报道场景时存在兼容问题：基于镜头转换的分割仅考虑前后帧的变化，常用于关键帧提取的前置步骤，但它没有考虑同一场景中事件的连续性，如同一事件中远景与中景的镜头的切换在新闻编目中一般认为是一个片段，不需要加以分割；视频语义描述常分析场景中的动作及事件的描述，但它没有聚焦核心人物的行为事件，这与编目中的片段内容描述需求不符。

发明内容

本发明针对现有编目过程中新闻内容单模态处理模式所导致的效果瓶颈与人工依赖问题，以及面向新闻报道内容的编目算法兼容性问题，提出一种基于多模态信息融合理解的全媒体新闻智能编目方法，该方法提升了从新闻报道中获取编目所需知识的完整性、有效性和兼容性，从而实现更高准确度与自动化程度的智能编目流程。

一种基于多模态信息融合理解的全媒体新闻智能编目方法，包括以下步骤：

1)获取原始新闻视频，分割镜头片段并定位场景关键帧；

2)从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段，生成多个切片片段；

3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本；

4)对步骤2)获得的切片片段进行语音识别获得语音文本；

5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本；

6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配，得到人物信息文本；

7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本，输入到多模态融合的生成模型处理，生成新闻关键词及综合编目描述，经过整理和组装后输出，完成新闻智能编目。

步骤1)中，获取原始新闻视频，分割镜头片段并定位场景关键帧，具体包括：

将原始新闻视频处理为成静态图像帧集合，计算每一帧与其上一帧图像之间的直方图差异值，设置窗口范围与窗口移动步长，将窗口内的拥有最大差异值的帧作为镜头边界帧，将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为D_i，i为从1开始的片段序号)，抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段D_i中的场景关键帧记为k_i)。

步骤2)中，从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段，生成多个切片片段，具体包括：

A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧k_i的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签(预设的新闻场景分类标签包含“演播室”、“会议现场”、“户外连线”等新闻报道中的常见场景)；

B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理；

C)：将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记，将相邻镜头边界标记之间的帧序列作为一个切片片段，生成多个切片片段。

步骤B)中，具体包括：若k_i的场景分类标签与k_i-1的场景分类标签重合率大于预设的阈值(本发明中设置为0.5)，则删除片段D_i与D_i-1间的镜头边界标记，取两者的场景分类标签并集作为合并后片段的新分类标签。

步骤3)中，基于步骤2)的切片片段，通过已训练的新闻视频编目描述模型生成各个片段的视频描述，具体方法是：通过卷积神经网络模块提取片段的视觉特征，然后将这些视觉特征传入长短期记忆网络模块，生成描述新闻内容的自然语言文本，该文本是符合新闻编目任务所需的描述语言风格(结构)的。

步骤4)中，基于步骤2)的切片片段的音频流，通过语音识别技术对音频特征进行提取和转换，生成语音文本。

步骤5)中，从步骤2)的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧)，然后基于抽取到的图像帧，通过已训练的用于图像中文字识别的卷积神经网络来提取字幕条文本，最后对提取到的文本进行比对去重，输出最终的字幕识别文本。

步骤6)中，基于步骤2)的切片片段，通过已经经过人脸识别任务训练的卷积神经网络，对片段中的人脸特征进行提取，将提取的人脸特征与新闻人物库中的人脸特征进行匹配，若相似度达到预设的阈值(本发明设置为0.72)，则获取该人物的信息文本。

步骤7)中，步骤3)得到的新闻描述文本作为主要特征，步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征，输入到多模态融合的生成模型中。

多模态融合的生成模型处理，具体包括：

将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中，使文本转化为语义特征向量，然后将这些向量通过统一映射层分别映射到统一的语义空间中，接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征，最后将新闻融合特征通过已训练的文本解码层来生成综合编目描述以及新闻关键词的关键度(即该词作为新闻关键词的推荐程度)。

所述的多模态融合的生成模型采用以下公式：

文本嵌入：V_x＝x₁v₁+x₂v₂+…+x_nv_n

式中：x为被嵌入文本基于嵌入字典的One-hot编码，n为嵌入字典的维度；若x_i为x的非0位，则v_i为该文本对应嵌入字典中的向量行；V_x为该文本嵌入后的向量；

统一映射：

式中：A，b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数；k为输入向量x的维度，m为映射后的统一域的向量维度；a_i,j即为矩阵A中第i行第j列的权重系数，b_i即为向量b中排序为i的向量系数。

语义融合：

式中：x_i为模态i在统一语义空间中的向量，w_i为x_i对应的新闻语义权重系数；A，b和f(·)分别表示融合层的末层的权重矩阵、偏置向量和激活函数；

文本解码：该过程由多个长短期记忆网络(Long Short-Term Memory,LSTM)堆叠实现：

L₁＝LSTM₁(R)

L_i+1＝LSTM_i+1(L_i)

C(L_i)＝f(L_i；W,b)

Output_text＝[O_L1,O_L2,O_L3,…]

Output_criticality＝[C(L₁),C(L₂),C(L₃),…]

式中：R为融合后的特征向量；LSTM_i(·)为第i个长短期记忆网络的函数表示，它的特征输出为L_i，文本输出为O_Li；f(·；W,b)为关键度运算的函数表示，其中W，b分别为承担该运算的层的权重矩阵与偏置向量，基于L_i运算获得的关键度表示为

Output_text为最终生成的完整文本描述，它是各个长短期记忆网络的文本输出所组成的队列；Output_criticality为文本描述中各个词对应的关键率所组成的队列。

经过整理和组装后输出的结构包括：“原视频id”,“片段序列id”,“片段起止时间”,“自动描述文本”,“自动识别人物”,“自动场景分类”,“字幕识别文本”,“语音识别文本”，“自动新闻关键词”。

具体地，一种面向全媒体新闻报道的多模态信息智能编目的自动化流程，包括以下步骤：

第1步：对原始新闻视频进行预处理，并搜索镜头边界帧以及镜头内场景关键帧，具体过程包括：将完整视频处理为成静态图像帧集合，计算每一帧与其上一帧图像之间的直方图差异值，设置窗口范围与窗口移动步长，将窗口内的拥有最大差异值的帧作为镜头边界帧，将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为D_i，i为从1开始的片段序号)，抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段D_i中的场景关键帧记为k_i)。

第2步：通过已训练的用于新闻场景分类任务的残差网络来提取第1步中各个场景关键帧k_i的视觉特征并推理获得最高匹配度的面向新闻场景的分类标签(预设的新闻场景分类标签包含“演播室”、“会议现场”、“户外连线”等新闻报道中的常见场景)。

第3步：基于第2步中获得的各个片段的场景分类标签进行相邻同场景合并处理，具体流程是：若k_i的场景分类标签与k_i-1的场景分类标签重合率大于预设的阈值(本发明中设置为0.5)，则删除片段D_i与D_i-1间的镜头边界标记，取两者的场景分类标签并集作为合并后片段的新分类标签。

第4步：将第3步处理后仍保留的镜头边界标记作为新闻视频的切片标记，将相邻镜头边界标记之间的帧序列作为一个切片片段。

第5步：基于第4步的切片片段，通过已训练的新闻视频编目描述模型生成各个片段的视频描述，具体方法是：通过卷积神经网络模块提取片段的视觉特征，然后将这些视觉特征传入长短期记忆网络模块，生成描述新闻内容的自然语言文本，该文本是符合新闻编目任务所需的描述语言风格(结构)的。

第6步：基于第4步的切片片段的音频流，通过语音识别技术对音频特征进行提取和转换，生成语音文本。

第7步：从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧)，然后基于抽取到的图像帧，通过已训练的用于图像中文字识别的卷积神经网络来提取字幕条文本，最后对提取到的文本进行比对去重，输出最终的字幕识别文本。

第8步：基于第4步的切片片段，通过已经经过人脸识别任务训练的卷积神经网络，对片段中的人脸特征进行提取，将提取的人脸特征与新闻人物库中的人脸特征进行匹配，若相似度达到预设的阈值(本发明设置为0.72)，则获取该人物的信息文本。

第9步：以第5步中获得的描述文本为主要特征，以第2步中获取的新闻场景分类标签、第6步中获取的语音文本、第7步中获取的字幕文本、第8步中获取的人物信息文本为辅助特征，通过如图2所示的新闻内容多模态融合的生成模型来消除冗余信息，生成若干有效且唯一的新闻关键词及综合编目描述，具体方法是：将不同模态获得的文本特征输入到已通过新闻语料文本训练的嵌入层中，使文本转化为语义特征向量，然后将这些向量通过统一映射层分别映射到统一的语义空间中，接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征，最后将融合特征通过已训练的文本解码层来生成综合编目描述文本以及本文中各个词的关键度(即该词作为新闻关键词的推荐程度)。上述的模型中的处理过程可以用如下公式进行表示：

文本嵌入：V_x＝x₁v₁+x₂v₂+…+x_nv_n

式中：x为被嵌入文本基于嵌入字典的One-hot编码，n为嵌入字典的维度；若x_i为x的非0位，则v_i为该文本对应嵌入字典中的向量行；V_x为该文本嵌入后的向量

统一映射：

语义融合：

式中：x_i为模态i在统一语义空间中的向量，w_i为x_i对应的新闻语义权重系数；A，b和f(·)分别表示融合层的末层的权重矩阵、偏置向量和激活函数。

L₁＝LSTM₁(R)

L_i+1＝LSTM_i+1(L_i)

C(L_i)＝f(L_i；W,b)

Output_text＝[O_L1,O_L2,O_L3,…]

Output_criticality＝[C(L₁),C(L₂),C(L₃),…]

式中：R为融合后的特征向量；LSTM_i(·)为第i个长短期记忆网络的函数表示，它的特征输出为L_i，文本输出为

f(·；W,b)为关键度运算的函数表示，其中W，b分别为承担该运算的层的权重矩阵与偏置向量，基于L_i运算获得的关键度表示为/>

第10步：对第1-9步中涉及编目知识的信息进行组装，输出为结构包括{“原视频id”,“片段序列id”,“片段起止时间”,“自动描述文本”,“自动识别人物”,“自动场景分类”,“字幕识别文本”,“语音识别文本”，“自动新闻关键词”}的数据并存入数据库。步骤1-10完整实现了新闻视频智能编目的自动化流程。

与现有技术相比，本发明具有如下优点：

本发明实现视频切片和场景分类任务的一种面向新闻场景的视频快速切片与分类方法，与已有方法的区别在于：(1)直接面向新闻报道视频的镜头切分需求：已有的基础镜头分割方法仅依靠搜索镜头边界帧将视频分割为多个镜头片段，而没有考虑通过多个镜头表现的同一场景内容，这与新闻编目切片的需求不符，本发明提出的方法对相邻镜头的相似场景进行合并，避免了镜头切分粒度过细的情况；(2)低复杂度的新闻场景判定：已有基于视觉特征的视频分类方法通过目标检测、视频流特征提取分析来获得视频分类标签，效果较好但复杂度很高，本发明提出的方法在镜头切分的过程中同步对场景进行分类，并且只对片段中的一帧图像进行视觉特征提取和分析，在保证新闻场景分类可靠的前提下尽量降低复杂度。

本发明针对全媒体新闻内容的编目需求，提出了一种基于多模态信息融合理解的智能编目方法，可以实现新闻视频、播报语音、新闻字幕条、新闻人物的统一表征与融合理解，自动化的生成综合编目信息。本发明方法实现了面向全媒体新闻的自动化综合编目的完整流程，通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物，提高了编目方法的准确率与泛化性，并大幅减少人工编目时间。

附图说明

图1为本发明基于多模态信息融合理解的全媒体新闻智能编目方法的流程示意图；

图2为本发明新闻智能编目流程示意图；

图3为本发明新闻内容多模态融合的生成模型的示意图；

图4为本发明面向新闻场景的视频快速切片与分类方法的流程示意图。

具体实施方式

一种基于多模态信息融合的全媒体新闻智能编目方法，包括：面向全媒体新闻报道的多模态信息智能编目的自动化流程；将多模态新闻信息进行融合并生成新闻关键词及综合编目描述的方法。面向全媒体新闻报道的多模态信息智能编目的自动化流程，包括：面向新闻场景的视频快速切片与分类方法；将切分片段进行面向新闻报道的自动视频描述、新闻报道语音识别、新闻字幕条识别、新闻人物匹配；将多模态新闻信息进行融合后生成综合编目信息。

将多模态新闻信息进行融合并生成新闻关键词及综合编目描述的方法，包括：将新闻片段图像信息、新闻片段语音信息、新闻片段字幕条信息、新闻片段人物信息作为输入；将新闻内容中的多模态特征转换为语义文本，并映射到统一的语义空间中进行融合；基于统一空间中的新闻特征生成新闻关键词及新闻综合编目描述。

面向新闻场景的视频快速切片与分类方法，包括：通过帧间差异快速定位镜头分界帧及新闻场景关键帧；基于新闻场景关键帧图像提取视觉特征，进行快速的场景分类标签判定；对场景分类标签重合率高的相邻镜头片段进行合并，获取符合新闻编目需求的视频切片(拆条)片段。

如图1和图2所示，一种基于多模态信息融合的全媒体新闻智能编目方法，包括以下步骤：

第1步：将完整视频处理为成静态图像帧集合，计算每一帧与其上一帧图像之间的直方图差异值，设置窗口范围与窗口移动步长，设置一个镜头边界的可能帧的队列N，初始为空集。以10帧为窗口范围，以8帧为步长，从视频的初始帧开始，循环以下过程：搜索当前窗口内差异值最大的帧，判断该帧与最后加入队列N的帧的步长距离，若距离大于预设的最小镜头长度，则将该帧加入队列N。将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为D_i，i为从1开始的片段序号)，抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段D_i中的场景关键帧记为k_i)。

第2步：构建新闻场景分类图片数据集，为图片设置“演播室”、“会议现场”、“户外连线”等新闻报道中的常见的场景标签，对面向新闻场景分类任务的残差网络进行训练。通过训练后的残差网络来提取第1步中各个场景关键帧k_i的视觉特征并推理获得最高匹配度的面向新闻场景的分类标签。

第5步：基于第4步的切片片段，通过已训练的新闻视频编目描述模型生成各个片段的视频描述。新闻视频编目描述模型训练的具体方法是：通过人工对新闻视频切片为单一场景的片段，并对片段进行人工编目描述，将片段作为输入特征，将片段对应的描述文本作为目标输出，以减少模型实际输出与目标输出的差异为任务目标对模型进行迭代训练。新闻视频编目描述模型推理的具体方法是：将片段输入模型，通过模型中的卷积神经网络模块提取片段的视觉特征，然后将这些视觉特征传入模型的长短期记忆网络模块，生成描述新闻内容的自然语言文本。

第7步：从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧)，然后基于抽取到的图像帧，通过已训练的用于图像中文字识别任务的卷积神经网络来提取字幕条文本，最后对提取到的文本进行比对去重，输出最终的字幕识别文本。

第8步：从第4步的切片片段中以一秒所产生的帧数为间隔抽取图像帧(即间隔1秒抽取一帧)，然后基于抽取到的图像帧，通过已训练的用于图像中人脸识别任务的卷积神经网络来提取图像中的人脸特征，接着将提取到的人脸特征与新闻人物库中的人脸特征进行匹配，若相似度达到预设的阈值(本发明设置为0.72)，则设置该人物为匹配成功人物，最后输出不重复的若干匹配成功人物的信息文本。

第9步：以第5步中获得的描述文本为主要特征，以第2步中获取的新闻场景分类标签、第6步中获取的语音文本、第7步中获取的字幕文本、第8步中获取的人物信息文本为辅助特征，通过如图3所示的新闻内容多模态融合的生成模型来消除冗余信息，生成若干有效且唯一的新闻关键词及综合编目描述，具体方法是：将不同模态获得的文本特征输入到已通过新闻语料文本训练的嵌入层中，使文本转化为语义特征向量，然后将这些向量通过统一映射层分别映射到统一的语义空间中，接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征，最后将融合特征通过已训练的文本解码层来生成综合编目描述文本以及本文中各个词的关键度(即该词作为新闻关键词的推荐程度)。上述的模型中的处理过程可以用如下公式进行表示：

文本嵌入：V_x＝x₁v₁+x₂v₂+…+x_nv_n

统一映射：

语义融合：

式中：x_i为模态i在统一语义空间中的向量，w_i为x_i对应的新闻语义权重系数；A，b和f(·)分别表示融合层末层的权重矩阵、偏置向量和激活函数。

文本解码：该过程由多个长短期记忆网络(Long Short-Term Memory,LSTM,)堆叠实现：

L₁＝LSTM₁(R)

L_i+1＝LSTM_i+1(L_i)

C(L_i)＝f(L_i；W,b)

Output_text＝[O_L1,O_L2,O_L3,…]

Output_criticality＝[C(L₁),C(L₂),C(L₃),…]

如图4所示，本发明包括第1-4步中实现视频切片和场景分类任务的一种面向新闻场景的视频快速切片与分类方法，该方法首先通过帧间直方图差异值快速定位镜头边界帧，然后仅选择镜头内的中间帧作为关键帧图像输入到已训练的新闻场景分类模型中，再从预设的“演播室”、“会议现场”、“户外连线”等新闻场景分类标签中快速推理获得匹配度高的标签，最后将标签重合率高的相邻镜头片段进行合并，输出切片与场景分类结果。

Claims

1.一种基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，包括以下步骤：

1)获取原始新闻视频，分割镜头片段并定位场景关键帧；

2)生成多个切片片段，具体包括：

A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签；

C)：将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记，将相邻镜头边界标记之间的帧序列作为一个切片片段，生成多个切片片段；

4)对步骤2)获得的切片片段进行语音识别获得语音文本；

5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本；

7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本，输入到多模态融合的生成模型处理，生成新闻关键词及综合编目描述，经过整理和组装后输出，完成新闻智能编目；

多模态融合的生成模型处理，具体包括：

将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中，使文本转化为语义特征向量，然后将这些向量通过统一映射层分别映射到统一的语义空间中，接着将统一语义空间中的向量传入新闻语义融合层进行融合理解以获得消除了冗余信息的新闻融合特征，最后将新闻融合特征通过已训练的文本解码层来生成综合编目描述以及新闻关键词的关键度；

所述的多模态融合的生成模型采用以下公式：

文本嵌入：V_x＝x₁v₁+x₂v₂+…+x_nv_n；

式中：x_i为被嵌入文本基于嵌入字典的One-hot编码的第i位，n为嵌入字典的维度；v_i为该文本对应嵌入字典中的向量行；V_x为该文本嵌入后的向量；

统一映射：

式中：A，b和f(·)分别表示映射层权重矩阵、偏置向量和激活函数；k为输入向量x的维度；m为映射后的统一域的向量维度；

语义融合：

文本解码：该过程由多个长短期记忆网络堆叠实现：

L₁＝LSTM₁(R)

L_i+1＝LSTM_i+1(L_i)

C(L_i)＝f(L_i；W,b)

Output_text＝[O_L1,O_L2,O_L3,…]

Output_criticality＝[C(L₁),C(L₂),C(L₃),…]

式中：R为融合后的特征向量；LSTM_i+1(·)为第i+1个长短期记忆网络的函数表示，它的特征输出为L_i+1，文本输出为O_Li+1；f(·；W,b)为关键度运算的函数表示，其中W，b分别为承担该运算的层的权重矩阵与偏置向量，基于L_i运算获得的关键度表示为C(L_i)；Output_text为最终生成的完整文本描述，它是各个长短期记忆网络的文本输出所组成的队列；Output_criticality为文本描述中各个词对应的关键度所组成的队列。

2.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤1)中，获取原始新闻视频，分割镜头片段并定位场景关键帧，具体包括：

将原始新闻视频处理为成静态图像帧集合，计算每一帧与其上一帧图像之间的直方图差异值，设置窗口范围与窗口移动步长，将窗口内的拥有最大差异值的帧作为镜头边界帧，将两个镜头边界帧间的所有帧作为一个镜头片段，抽取各个镜头片段的中间帧作为该片段的场景关键帧。

3.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤7)中，步骤3)得到的新闻描述文本作为主要特征，步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征，输入到多模态融合的生成模型中。