CN113255461A

CN113255461A - 基于双模深度网络的视频事件检测与语义标注方法及装置

Info

Publication number: CN113255461A
Application number: CN202110476192.3A
Authority: CN
Inventors: 王赠凯; 李攀攀
Original assignee: Jiaxing University
Current assignee: Jiaxing University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-13
Anticipated expiration: 2041-04-29
Also published as: CN113255461B

Abstract

本发明公开一种基于双模深度网络的视频事件检测与语义标注方法及装置，包括：对输入的体育视频进行解码，分别得到音频数据流和图像数据流；对于音频数据流，首先进行音频分帧处理，然后利用深度神经网络模型提取音频特征；对于图像数据流，进行镜头边界检测，根据镜头类型分析事件转换模式，确定感兴趣视频事件边界，利用深度神经网络提取感兴趣事件片段视觉特征；将音频特征和视觉特征进行融合分类，获取感兴趣事件检测和语义标注结果。本发明方法利用音视频双模特征和深度神经网络模型有效确定体育视频中的精彩事件边界，并对其进行分类识别实现事件语义标注，为基于内容的体育视频摘要和检索打下坚实基础。

Description

基于双模深度网络的视频事件检测与语义标注方法及装置

技术领域

本发明属于体育视频分析领域，具体涉及一种基于双模深度网络的视频事件检测与语义标注方法及装置。

背景技术

近年来，多媒体内容的生产有了极大的增长。每天都会产生数以百万计的图像和视频序列，可以说，在任何数字支持(计算机、存储卡、云等)中存储的数据总量几乎是难以估计的。因此，越来越需要提供先进的工具来自动化和方便其管理。由于互联网视频传输的快速发展和数字广播应用的需求，对体育内容分析的研究兴趣大幅增加。体育节目巨大的商业吸引力已成为娱乐领域的主导焦点。大数据分析的研究已经引起了机器学习和人工智能技术的广泛关注。因此，体育媒体数据的内容分析在近十年来受到了各种研究的关注。体育数据分析正走向规模化、多样化、共享化。当前最紧迫的问题是如何在短时间内获取最重要的信息。由于对体育视频广播的巨大需求，彭博、SAP、Vizart等许多企业都采用了体育内容分析。利用大数据进行内容分析已成为一个重要的新兴产业。在离线服务中，历史记录可以通过机器学习来分析视频内容。在在线服务中，发现的潜在知识可以用于实时的策略推荐。

然而，体育赛事的视频序列往往很长，一旦主要的现场赛事结束，人们通常只对其中最重要的部分感兴趣。这就是为什么自动生成精彩视频摘要一直是过去20年研究的主要领域之一。视频摘要技术通常通过提供完整长度的摘要视频来解决这个问题。人们越来越需要有效的视频总结技术，能够以简洁的方式向消费者提供所有重要的事件。视频摘要应用领域广泛，包括体育、监控、医疗、家庭视频、新闻、娱乐等。每天的体育转播都会产生大量的视频内容，其中大部分是冗余的赛事，极少数是重要的赛事。视频摘要用于从一个完整长度的视频中提取重要(或关键)事件。在体育广播或流媒体的背景下，自动生成和识别比赛精彩视频的系统可能在生产链的总成本中发挥关键作用。许多电视台需要有体育赛事的视频摘要，以便在比赛结束后进行转播。通常情况下，序列是由记者手工分析和总结的，这是一项费时费力的工作。由于大量的可用序列和在这一过程中所需的时间，有必要提供工具，以加快这一总和化过程。此外，由于足球在许多国家非常流行，它是体育视频序列摘要应用的最重要的领域之一。人们提出了多种方法。多年来，低级描述符一直是用于足球视频序列总结和视频分析的唯一方法。这些低级描述符包括统计时刻、形状、颜色、纹理和运动等。然而，人们已经认识到，这些信息不足以在不同的视觉内容之间进行独特的区分。为了获得有意义的结果，需要使用先进的信息。

发明内容

为克服相关技术中存在的问题，本公开的目的是提供基于双模深度网络的视频事件检测与语义标注方法及装置。

为了实现上述目的，根据本公开实施例的第一方面，提供一种基于双模深度网络的视频事件检测与语义标注方法，所述方法包括：

对输入的视频数据进行解码，获取音频数据流和图像数据流，所述视频数据为体育视频数据；

将所述图像数据流输入预先训练好的的视觉深度卷积网络模型，以根据所述视觉深度卷积网络模型的输出获取视觉空域特征；

根据所述视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行所述图像数据流的镜头边界检测；

提取镜头关键帧，根据预先训练好的卷积神经网络模型和所述镜头关键帧对所述镜头的类别进行识别，其中，所述镜头的类别包括：远镜头、中镜头、特写镜头和观众镜头；

通过体育视频事件转换模式确定所述体育视频数据中视频事件的边界，其中，所述体育视频事件转换模式包括所述体育视频中的比赛模式和暂停模式，所述远镜头与所述比赛模式对应，所述特写镜头和观众镜头与所述暂停模式对应；

对所述视频事件片段中的图像帧进行均匀采样，获取采样图像帧；

将所述采样图像帧输入预先训练好的长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取所述视频事件片段对应的视觉时空深度特征；

对所述音频数据流进行分帧处理；

通过预先训练好的音频卷积神经网络提取所述视频事件对应的音频空域特征；

将所述音频空域特征输入所述长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定所述音频帧空域特征向量之间的时域依赖关系，以获取与视频事件对应的音频时空深度特征；

将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，所述体育视频事件的语义标注的标注结果包括进球、射门、红/黄牌和非精彩。

可选的，所述根据所述视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行所述图像数据流的镜头边界检测，包括：

将解码得到的图像帧序列I＝(I₁,I₂,…,I_n)输入预训练卷积神经网络模型VGG19，提取其全连接层输出，得到对应的输出特征向量即图像帧视觉空域特征FV＝(fv₁,fv₂,…,fv_n)，其中f_i为1×k维特征向量，k是全连接层输出向量的维度；

通过归一化公式对提取的图像帧视觉空域特征进行归一化处理，其中，所述归一化公式为：

通过欧式距离计算公式确定相邻帧间的欧式距离，其中，所述欧式距离计算公式为：

若相邻帧之间的差值大于预设阈值τ确定所述镜头发生镜头突变，与镜头突变对应的图像帧为镜头边界。

可选的，用于识别所述镜头的类别的卷积神经网络模型共有7层，包括5个卷积层和2个全连接层，每个卷积核的大小分别为7×7×96、5×5×256、3×3×384、3×3×384、3×3×256，步长分别为2，2，1，1，1，每个全连接层有512个神经元。

可选的，所述将所述采样图像帧输入预先训练好的长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取所述视频事件片段对应的视觉时空深度特征，包括：

根据视频事件的长度从视频事件片段中均匀采样N个视频帧；

将N个采样帧对应的视觉空域特征输入到双层双向长短时记忆网络，对采样帧之间的时域依赖关系进行双向建模，得到视频事件对应的视觉时空深度特征V。可选的，所述对所述音频数据流进行分帧处理，包括：

提取每秒的音频数据流作为一个音频分帧。

可选的，所述通过预先训练好的音频卷积神经网络提取所述视频事件对应的音频空域特征，包括：

将音频帧输入预训练音频深度神经网络VGGish提取128维的音频帧空域特征FA＝(fa₁,fa₂,…,fa_n)；

将音频帧空域特征输入双层双向长短时记忆网络，得到音频信号对应的音频时空深度特征A。

可选的，所述将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，包括：

将视觉时空深度特征向量V和音频时空深度特征向量A通过融合公式进行连接，获取音视频特征融合向量，其中，所述融合公式为：

Z＝cat(V,A)。

可选的，所述事件分类网络模型为两层全连接网络，每层网络的神经元个数分别为1024和512。

根据本公开实施例的第二方面，提供一种基于双模深度网络的视频事件检测与语义标注装置，所述装置包括：

解码模块，对输入的视频数据进行解码，获取音频数据流和图像数据流，所述视频数据为体育视频数据；

视觉空域特征提取模块，与所述解码模块相连，将所述图像数据流输入预先训练好的的视觉深度卷积网络模型，以根据所述视觉深度卷积网络模型的输出获取视觉空域特征；

边界检测模块，与所述视觉空域特征提取模块相连，根据所述视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行所述图像数据流的镜头边界检测；

镜头识别模块，与所述边界检测模块相连，提取镜头关键帧，根据预先训练好的卷积神经网络模型和所述镜头关键帧对所述镜头的类别进行识别，其中，所述镜头的类别包括：远镜头、中镜头、特写镜头和观众镜头；

事件边界确定模块，与所述镜头识别模块相连，通过体育视频事件转换模式确定所述体育视频数据中视频事件的边界，其中，所述体育视频事件转换模式包括所述体育视频中的比赛模式和暂停模式，所述远镜头与所述比赛模式对应，所述特写镜头和观众镜头与所述暂停模式对应；

采样模块，与所述事件边界确定模块相连，对所述视频事件片段中的图像帧进行均匀采样，获取采样图像帧；

视觉时空深度特征确定模块，与所述采样模块相连，将所述采样图像帧输入预先训练好的长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取所述视频事件片段对应的视觉时空深度特征；

音频处理模块，与所述解码模块相连，对所述音频数据流进行分帧处理；

音频特征提取模块，与所述音频处理模块相连，通过预先训练好的音频卷积神经网络提取所述视频事件对应的音频空域特征；

音频时空深度特征确定模块，与所述音频特征提取模块相连，将所述音频空域特征输入所述长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定所述音频帧空域特征向量之间的时域依赖关系，以获取与视频事件对应的音频时空深度特征；

语义标注模块，分别与所述视觉时空深度特征确定模块和音频时空深度特征确定模块相连，将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，所述体育视频事件的语义标注的标注结果包括进球、射门、红/黄牌和非精彩。可选的，

所述视觉时空深度特征确定模块，包括：

采样单元，根据视频事件的长度从视频事件片段中均匀采样N个视频帧；

视觉时空深度特征获取单元，与所述采样单元相连，将N个采样帧对应的视觉空域特征输入到双层双向长短时记忆网络，对采样帧之间的时域依赖关系进行双向建模，得到视频事件对应的视觉时空深度特征V。

通过本发明公开的技术方案，能够达到以下有益效果：

对于输入的整个体育视频，能够从中抽取用户感兴趣的精彩事件片段(具有合理的时间边界)，并实现该事件片段类型的的自动识别。

附图说明

图1为本发明提供的一种基于双模特征和注意力机制的视频摘要方法的流程示意图；

图2为本发明提供的一种基于双模深度网络的体育视频事件检测与语义标注方法的镜头边界检测流程图；

图3为本发明提供的一种基于双模深度网络的体育视频事件检测与语义标注方法的体育视频事件转换模式示意图；

图4为本发明提供的一种基于双模深度网络的体育视频事件检测与语义标注方法中用于镜头类型识别的卷积神经网络结构示意图；

图5为本发明提供的一种基于双模深度网络的体育视频事件检测与语义标注方法中用于音/视深度时空特征提取的双层双向长短时记忆网络结构示意图；

图6为本发明提供的一种基于双模特征和注意力机制的视频摘要装置的结构框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1为本发明提供的一种基于双模特征和注意力机制的视频摘要方法的流程示意图，如图1所示，该方法包括：

在步骤101中，对输入的视频数据进行解码，获取音频数据流和图像数据流，该视频数据为体育视频数据。

其中，采用FFmpeg分别获区视频中的音频数据流和图像数据流。

在步骤102中，将该图像数据流输入预先训练好的的视觉深度卷积网络模型，以根据该视觉深度卷积网络模型的输出获取视觉空域特征。

在步骤103中，根据该视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行该图像数据流的镜头边界检测。

具体包括：将解码得到的图像帧序列i＝(i₁,i₂,…,I_n)输入预训练卷积神经网络模型VGG19，提取其全连接层输出，得到对应的输出特征向量即图像帧视觉空域特征FV＝(fv₁,fv₂,…,fv_n)，其中f_i为1×K维特征向量，k是全连接层输出向量的维度；通过归一化公式对提取的图像帧视觉空域特征进行归一化处理，其中，该归一化公式为：

通过欧式距离计算公式确定相邻帧间的欧式距离，其中，该欧式距离计算公式为：

若相邻帧之间的差值大于预设阈值τ确定该镜头发生镜头突变，与镜头突变对应的图像帧为镜头边界。

在步骤104中，提取镜头关键帧，根据预先训练好的卷积神经网络模型和该镜头关键帧对该镜头的类别进行识别。

其中，该镜头的类别包括：远镜头、中镜头、特写镜头和观众镜头。用于识别该镜头的类别的卷积神经网络模型共有7层，包括5个卷积层和2个全连接层，每个卷积核的大小分别为7×7×96、5×5×256、3×3×384、3×3×384、3×3×256，步长分别为2，2，1，1，1，每个全连接层有512个神经元。

具体的，如图4所示，为用于镜头类型识别的卷积神经网络结构示意图。

在步骤105中，通过体育视频事件转换模式确定该体育视频数据中视频事件的边界。

其中，该体育视频事件转换模式包括该体育视频中的比赛模式和暂停模式，该远镜头与该比赛模式对应，该特写镜头和观众镜头与该暂停模式对应。

具体的，如图3所示，为一种体育视频事件转换模式示意图。

在步骤106中，对该视频事件片段中的图像帧进行均匀采样，获取采样图像帧。

在步骤107中，将该采样图像帧输入预先训练好的长短时记忆网络模型，根据该长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取该视频事件片段对应的视觉时空深度特征。

具体包括；根据视频事件的长度从视频事件片段中均匀采样N个视频帧；将N个采样帧对应的视觉空域特征输入到双层双向长短时记忆网络，对采样帧之间的时域依赖关系进行双向建模，得到视频事件对应的视觉时空深度特征V。

在步骤108中，对该音频数据流进行分帧处理，提取每秒的音频数据流作为一个音频分帧。

在步骤109中，通过预先训练好的音频卷积神经网络提取该视频事件对应的音频空域特征。

具体包括：将音频帧输入预训练音频深度神经网络VGGish提取128维的音频帧空域特征FA＝(fa₁,fa₂,…,fa_n)；将音频帧空域特征输入双层双向长短时记忆网络，得到音频信号对应的音频时空深度特征A。

在步骤110中，将该音频空域特征输入该长短时记忆网络模型，根据该长短时记忆网络模型的输出确定该音频帧空域特征向量之间的时域依赖关系，以获取与视频事件对应的音频时空深度特征。

具体的，如图5所示，为一种用于音/视深度时空特征提取的双层双向长短时记忆网络结构示意图。

在步骤111中，将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注。

其中，该体育视频事件的语义标注的标注结果包括进球、射门、红/黄牌和非精彩。该事件分类网络模型为两层全连接网络，每层网络的神经元个数分别为1024和512。

具体的，将视觉时空深度特征向量V和音频时空深度特征向量A通过融合公式进行连接，获取音视频特征融合向量，其中，该融合公式为：

Z＝cat(V,A)。

图6为本发明提供的一种基于双模特征和注意力机制的视频摘要装置的结构框图，如图6所示，该装置600包括：

解码模块601，对输入的视频数据进行解码，获取音频数据流和图像数据流，该视频数据为体育视频数据；

视觉空域特征提取模块602，与该解码模块601相连，将该图像数据流输入预先训练好的的视觉深度卷积网络模型，以根据该视觉深度卷积网络模型的输出获取视觉空域特征；

边界检测模块603，与该视觉空域特征提取模块602相连，根据该视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行该图像数据流的镜头边界检测；

镜头识别模块604，与该边界检测模块603相连，提取镜头关键帧，根据预先训练好的卷积神经网络模型和该镜头关键帧对该镜头的类别进行识别，其中，该镜头的类别包括：远镜头、中镜头、特写镜头和观众镜头；

事件边界确定模块605，与该镜头识别模块604相连，通过体育视频事件转换模式确定该体育视频数据中视频事件的边界，其中，该体育视频事件转换模式包括该体育视频中的比赛模式和暂停模式，该远镜头与该比赛模式对应，该特写镜头和观众镜头与该暂停模式对应；

采样模块606，与该事件边界确定模块605相连，对该视频事件片段中的图像帧进行均匀采样，获取采样图像帧；

视觉时空深度特征确定模块607，与该采样模块606相连，将该采样图像帧输入预先训练好的长短时记忆网络模型，根据该长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取该视频事件片段对应的视觉时空深度特征；

音频处理模块608，与该解码模块601相连，对该音频数据流进行分帧处理；

音频特征提取模块609，与该音频处理模块608相连，通过预先训练好的音频卷积神经网络提取该视频事件对应的音频空域特征；

音频时空深度特征确定模块610，与该音频特征提取模块609相连，将该音频空域特征输入该长短时记忆网络模型，根据该长短时记忆网络模型的输出确定该音频帧空域特征向量之间的时域依赖关系，以获取与视频事件对应的音频时空深度特征；

语义标注模块611，分别与该视觉时空深度特征确定模块607和音频时空深度特征确定模块610相连，将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，该体育视频事件的语义标注的标注结果包括进球、射门、红/黄牌和非精彩。

可选的，该视觉时空深度特征确定模块607，包括：

视觉时空深度特征获取单元，与该采样单元相连，将N个采样帧对应的视觉空域特征输入到双层双向长短时记忆网络，对采样帧之间的时域依赖关系进行双向建模，得到视频事件对应的视觉时空深度特征V。

综上所述，本发明公开一种基于双模特征和注意力机制的视频摘要方法及装置，该方法包括：通过马尔科夫随机场模型和自适应阈值法对视频数据进行预处理；对预处理后的视频数据进行双模特征提取；对该短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于该视频数据的用户注意力曲线；根据预先设定的目标视频片段确定策略，在该用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；通过预先训练好的异常行为识别模型获取该目标视频片段中的异常行为。能够对冗长的监控视频进行自动浓缩，提取出其中用户感兴趣的片段，自动识别视频中运动目标和异常行为，实现监控视频的智能高效浏览，减轻工作人员负担，提高监控效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，本领域技术人员在考虑说明书及实践本公开后，容易想到本公开的其它实施方案，均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构，本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述方法包括：

对所述音频数据流进行分帧处理；

2.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述根据所述视频图像数据流中相邻两帧之间的空域特征向量的欧式距离进行所述图像数据流的镜头边界检测，包括：

将解码得到的图像帧序列I＝(I₁,I₂，…，I_n)输入预训练卷积神经网络模型VGG19，提取其全连接层输出，得到对应的输出特征向量即图像帧视觉空域特征FV＝(fv₁,fv₂,…,fv_n)，其中f_i为1×k维特征向量，k是全连接层输出向量的维度；

3.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，用于识别所述镜头的类别的卷积神经网络模型共有7层，包括5个卷积层和2个全连接层，每个卷积核的大小分别为7×7×96、5×5×256、3×3×384、3×3×384、3×3×256，步长分别为2，2，1，1，1，每个全连接层有512个神经元。

4.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述将所述采样图像帧输入预先训练好的长短时记忆网络模型，根据所述长短时记忆网络模型的输出确定采样图像帧之间的时域依赖关系，以获取所述视频事件片段对应的视觉时空深度特征，包括：

根据视频事件的长度从视频事件片段中均匀采样N个视频帧；

将N个采样帧对应的视觉空域特征输入到双层双向长短时记忆网络，对采样帧之间的时域依赖关系进行双向建模，得到视频事件对应的视觉时空深度特征V。

5.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述对所述音频数据流进行分帧处理，包括：

提取每秒的音频数据流作为一个音频分帧。

6.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述通过预先训练好的音频卷积神经网络提取所述视频事件对应的音频空域特征，包括：

7.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，包括：

Z＝cat(V,A)。

8.根据权利要求1所述的基于双模深度网络的视频事件检测与语义标注方法，其特征在于，所述事件分类网络模型为两层全连接网络，每层网络的神经元个数分别为1024和512。

9.一种基于双模深度网络的视频事件检测与语义标注装置，其特征在于，所述装置包括：

语义标注模块，分别与所述视觉时空深度特征确定模块和音频时空深度特征确定模块相连，将融合后的视觉时空深度特征和音频时空深度特征送入预先训练好的事件分类网络模型进行体育视频事件的语义标注，所述体育视频事件的语义标注的标注结果包括进球、射门、红/黄牌和非精彩。

10.根据权利要求9所述的基于双模深度网络的视频事件检测与语义标注装置，其特征在于，所述视觉时空深度特征确定模块，包括：