CN113158720B

CN113158720B - 一种基于双模特征和注意力机制的视频摘要方法及装置

Info

Publication number: CN113158720B
Application number: CN202011481458.5A
Authority: CN
Inventors: 王赠凯; 李攀攀; 赵一凡
Original assignee: Zhejiang Institute Of Electronic Information Products Inspection Zhejiang Informatization And Industrialization Integration Promotion Center; Jiaxing University
Current assignee: Zhejiang Institute Of Electronic Information Products Inspection Zhejiang Informatization And Industrialization Integration Promotion Center; Jiaxing University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-06-18
Anticipated expiration: 2040-12-15
Also published as: CN113158720A

Abstract

本发明公开一种基于双模特征和注意力机制的视频摘要方法及装置，该方法包括：通过马尔科夫随机场模型和自适应阈值法对视频数据进行预处理；对预处理后的视频数据进行双模特征提取；对该短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于该视频数据的用户注意力曲线；根据预先设定的目标视频片段确定策略，在该用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；通过预先训练好的异常行为识别模型获取该目标视频片段中的异常行为。能够对冗长的监控视频进行自动浓缩，提取出其中用户感兴趣的片段，自动识别视频中运动目标和异常行为，实现监控视频的智能高效浏览，减轻工作人员负担，提高监控效率。

Description

一种基于双模特征和注意力机制的视频摘要方法及装置

技术领域

本发明涉及视频摘要技术领域，具体涉及一种基于双模特征和注意力机制的视频摘要方法及装置。

背景技术

随着智慧城市建设的不断推进，城市的公共场所、公共交通系统和案件多发区域已经构建起全面的视频监控网络，对各类危害城市公共安全的群体性事件、突发事件以及交通违法等日常安全事件进行监控，从而提升城市的应急处理能力和安全防范能力。然而，大量摄像头的长期运转以及视频分辨率和帧率的不断提高，产生了海量的视频数据；同时，视频安防数据具有价值密度低而价值高的特点。例如，在7×24小时连续不间断监控过程中，可能有用的数据仅仅1、2分钟，甚至1、2秒。若仍采用传统人海战术为主的视频线索查找方法，显然很难在事件发生的第一时间查找到线索，即使找到了重点图像，也要进行人工抓拍，并且要记录下对应的原始视频图像的时间点等信息，也是工作量很大，导致数据利用率和处理效率低下。为了分析某一安全事件，在传统的人工处理方式下，需要花费大量的时间浏览大量视频才能够获取所分析主体的完整信息，由于人的生理特征所限，长时间观看视频录像，容易产生视觉疲劳，还有可能漏掉重要图像和线索。这不仅费时、费力，还抓不到要点、理不清线索，造成了所谓“信息过载”问题的发生，甚至还能引发焦虑、烦躁等不良情绪。

发明内容

为克服相关技术中存在的问题，本公开的目的是提供一种基于双模特征和注意力机制的视频摘要方法及装置。

为了实现上述目的，根据本公开实施例的第一方面，提供一种基于双模特征和注意力机制的视频摘要方法，所述方法包括：

通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理；

对预处理后的视频数据进行双模特征提取，其中，所述双模特征包括短时声音能量特征和视觉运动强度特征；

对所述短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于所述视频数据的用户注意力曲线；

根据预先设定的目标视频片段确定策略，在所述用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；

通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为。

可选的，所述根据预先设定的目标视频片段确定策略，在所述用户注意力曲线中确定出用户注意力高于预设的注意力阈值的第二时间段内的目标视频片段，包括：

确定滑动窗口的大小w和移动步长s、注意力阈值δ，用户感兴趣视频片段长度阈值ξ；

在所述用户注意力曲线上移动所述滑动窗口，若所述用户注意力曲线的峰值点在所述滑动窗口的至之间，将所述峰值点确定为波峰；

若所述用户注意力曲线的谷值点在所述滑动窗口的至之间，将所述谷值点确定为波谷；

在所述用户注意力曲线上两个连续的波谷间的视频片段确定为候选视频片段；

在所有的所述候选视频片段中去除点波峰值小于δ的视频片段，和视频片段长度小于ξ的视频片段，将其余的所述候选视频片段确定为所述目标视频片段。

可选的，所述对预处理后的视频数据进行双模特征提取，包括：

通过短时声音能量特征提取公式获取所述短时声音能量特征，所述短时声音能量特征提取公式为：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

其中，STE(i)为所述视频数据中第i帧的短时声音能量特征，x(n)为音频时域信号，w(n)为汉明窗函数，y_i(n)是第i个音频帧的卷积值，n＝1,2,…,L，i＝1,2,…,fn，L为帧长，inc为帧移长度，fn为音频分帧后的总帧数；

通过所述视觉运动强度特征提取公式获取所述视觉运动强度特征，所述视觉运动强度特征提取公式为：

其中，MA(j)为所述视频数据中第j帧的运动强度大小，为第(j-1)帧和第j帧运动块的运动矢量，表示所有运动块的最大运动矢量，K为视频帧中运动块的数目。

可选的，所述对所述短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于所述视频数据的用户注意力曲线，包括：

通过融合结果处理公式分别对所述短时声音能量特征和视觉运动强度特征进行平滑和归一化处理；其中所述融合结果处理公式为：

其中，g_i(k)表示计算得到的第i个模态特征，g′_i(k)是归一化后的特征值，K(l₁,β₁)表示凯撒窗函数，l₁和β₁分别是凯撒窗函数的长度控制参数和形状控制参数，表示平滑后得到特征值，G_i(k)是对归一化后的特征值；

通过用户注意力曲线生成公式分别对所述短时声音能量特征和视觉运动强度特征进行加权融合、平滑处理和归一化处理后生成所述用户注意力曲线；其中，所述用户注意力生成曲线包括：

其中，η_i表示第i个模态特征值的融合权重，A′(k)表示双模特征加权融合后生成的曲线，l₂和β₂分别是凯撒窗函数的长度控制参数和形状控制参数，表示A′(k)经过凯撒平滑处理后生成的曲线，A(k)是对进行归一化处理后生成的用户注意力曲线。

可选的，所述通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为，包括：

分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；

通过预先训练好的卷积神经网络模型提取所述视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；

将所述视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；

将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中所述通过注意力值确定公式为：

α_n＝softmax(W^Th_n+b)

其中，α_n为第n个隐状态的注意力值，W和b分别为多层感知机的权重和偏置；

通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，所述注意力机制结合公式为：

将所述结合注意力机制的特征向量F_att作为softmax分类器的输入，根据所述softmax分类器输出的结果确定所述异常行为。

根据本公开实施例的第二方面，提供一种基于双模特征和注意力机制的视频摘要装置，所述装置包括：

预处理模块，通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理；

特征提取模块，与所述预处理模块连接，对预处理后的视频数据进行双模特征提取，其中，所述双模特征包括短时声音能量特征和视觉运动强度特征；

曲线生成模块，与所述特征提取模块连接，对所述短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于所述视频数据的用户注意力曲线；

视频摘要模块，与所述曲线生成模块连接，根据预先设定的目标视频片段确定策略，在所述用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；

异常检测模块，与所述视频摘要模块连接，片段通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为。

可选的，所述视频摘要模块，包括：

阈值确定单元，确定滑动窗口的大小w和移动步长s、注意力阈值δ，用户感兴趣视频片段长度阈值ξ；

波峰确定单元，与所述阈值确定单元连接，在所述用户注意力曲线上移动所述滑动窗口，若所述用户注意力曲线的峰值点在所述滑动窗口的至之间，将所述峰值点确定为波峰；

波谷确定单元，与所述波峰确定单元连接，若所述用户注意力曲线的谷值点在所述滑动窗口的至之间，将所述谷值点确定为波谷；

候选视频确定单元，与所述波谷确定单元连接，在所述用户注意力曲线上两个连续的波谷间的视频片段确定为候选视频片段；

目标视频确定模块，与所述候选视频确定模块连接，在所有的所述候选视频片段中去除点波峰值小于δ的视频片段，和视频片段长度小于ξ的视频片段，将其余的所述候选视频片段确定为所述目标视频片段。

可选的，所述特征提取模块，包括：

短时声音能量特征提取单元，通过短时声音能量特征提取公式获取所述短时声音能量特征，所述短时声音能量特征提取公式为：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

视觉运动强度特征提取单元，与所述短时声音能量特征提取单元连接，通过所述视觉运动强度特征提取公式获取所述视觉运动强度特征，所述视觉运动强度特征提取公式为：

可选的，所述曲线生成模块，包括：

融合单元，通过融合结果处理公式分别对所述短时声音能量特征和视觉运动强度特征进行平滑和归一化处理；其中所述融合结果处理公式为：

曲线生成单元，与所述融合单元连接，通过用户注意力曲线生成公式分别对所述短时声音能量特征和视觉运动强度特征进行加权融合、平滑处理和归一化处理后生成所述用户注意力曲线；其中，所述用户注意力生成曲线包括：

可选的，所述异常检测模块，包括：

序列提取单元，分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；

特征提取单元，与所述序列提取单元连接，通过预先训练好的卷积神经网络模型提取所述视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；

序列获取单元，与所述特征提取单元连接，将所述视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；

注意力值确定单元，与所述序列获取单元连接，将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中所述通过注意力值确定公式为：

α_n＝softmax(W^Th_n+b)

注意力结合单元，与所述注意力值确定单元连接，通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，所述注意力机制结合公式为：

异常确定单元，与所述注意力结合单元连接，将所述结合注意力机制的特征向量F_att作为softmax分类器的输入，根据所述softmax分类器输出的结果确定所述异常行为。

通过本发明公开的技术方案，能够达到以下有益效果：

(1)融合监控视频中的音频特征和视觉特征，建立能正确反映视频观看者关注度变化状况的用户注意力曲线，并在此基础上实现准确的用户感兴趣片段提取。

(2)利用深度学习模型快速准确地检测和识别视频中的运动目标，同时结合时域注意力机制识别视频中的异常事件。

(3)有效去除监控视频中大量冗余低效的视频，保留了用户感兴趣的视频片段，缩短了视频播放时间，能够节约大量人力物力。

附图说明

图1为本发明提供的一种基于双模特征和注意力机制的视频摘要方法流程示意图；

图2为根据图1示出的一种视频背景建方法的模流程示意图；

图3为根据图1示出的一种视频镜头边界检测方法的流程示意图；

图4为本发明提供的一种基于双模特征和注意力机制的视频摘要装置的结构框图；

图5为根据图4示出的一种视频摘要模块的结构框图；

图6为根据图4示出的一种特征提取模块的结构框图；

图7为根据图4示出的一种曲线生成模块的结构框图；

图8为根据图4示出的一种异常检测模块的结构框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1为本发明提供的一种基于双模特征和注意力机制的视频摘要方法流程示意图，如图1所示，该方法包括：

在步骤110中，通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理。

示例地，对视频数据进行预处理包括：通过马尔科夫机场模型对拍摄到的视频数据中的视频背景进行建模和通过自适应阈值法对镜头的边界进行检测。

其中，基于马尔可夫随机场模型的视频背景建模的具体步骤如图2所示：步骤1：将输入视频帧X＝{x_s|s∈S}从RGB颜色空间转换为YcbCr空间，忽略其亮度分量，其中S表示输入视频帧中的像素点集，x_s表示视频帧上像素点的观测值；

步骤2：初始化视频帧的分类数K、固定势函数β以及算法最大迭代次数T；

步骤3：利用K-均值算法计算视频帧初始分割结果；

步骤4：根据下式估计特征场均值参数μ：

其中，N_m是视频帧中被标记为第m类的像素的个数，y_s表示视频帧中像素点s对应的标号；

步骤5：根据下式估计特征场方差参数σ²：

步骤6：将μ和σ²代入下式计算特征场能量：

其中Y＝{y_s|s∈S}表示标号场；

步骤7：根据下式计算标号场能量：

其中V_c(V_c)是定义在标号场Y的势团c上的势能函数，采用二阶邻域模型：

步骤8：计算标号场和特征场总能量，更新像素点标号，并遍历计算，与上次迭代后的总量相比较，直至能量差值小于设定的阈值或迭代次数为T为止。

基于适应阈值法对镜头的边界进行检测的具体步骤如图3所示，步骤如下：

步骤1：将输入视频帧从RGB颜色空间转换为HSV空间；

步骤2：将视频帧大小调整为S×S，划分成大小为B×B的帧块，其中B<S；

步骤3：对视频帧进行维纳滤波；

步骤4：根据下式计算每个图像块的局部二值模式特征LBP；

其中，P是圆形邻域中的像素点的个数，R是邻域半径，I(x,y)表示圆形邻域中心点的亮度值，L为门限函数，

步骤5：计算输入视频帧的局部二值模式特征直方图，并对该直方图进行归一化处理，将每个帧块的局部二值模式特征直方图连接得到输入视频帧LBP特征向量：

步骤6：计算相邻视频帧LBP特征向量的欧式距离，得到相邻视频帧间差Δ＝(Δ₁,Δ₂,…,Δ_N)，N为视频帧总数；

步骤7：如果相邻视频帧间差Δ_i大于阈值ρ，则认为该处产生突变，为镜头边界，其中ρ是自适应阈值，ρ＝μ_Δ+σ_Δ×γ，μ_Δ为Δ的均值，σ_Δ为Δ的方差，γ为取值范围[1,3]的常数。

在步骤120中，对预处理后的视频数据进行双模特征提取，其中，该双模特征包括短时声音能量特征和视觉运动强度特征。

示例地，通过短时声音能量特征提取公式获取该短时声音能量特征，该短时声音能量特征提取公式为：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

其中，STE(i)为该视频数据中第i帧的短时声音能量特征，x(n)为音频时域信号，w(n)为汉明窗函数，y_i(n)是第i个音频帧的卷积值，n＝1,2,…,L，i＝1,2,…,fn，L为帧长，inc为帧移长度，fn为音频分帧后的总帧数；

通过该视觉运动强度特征提取公式获取该视觉运动强度特征，该视觉运动强度特征提取公式为：

其中，MA(j)为该视频数据中第j帧的运动强度大小，为第(j-1)帧和第j帧运动块的运动矢量，表示所有运动块的最大运动矢量，K为视频帧中运动块的数目。

在步骤130中，对该短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于该视频数据的用户注意力曲线。

示例地，通过融合结果处理公式分别对该短时声音能量特征和视觉运动强度特征进行平滑和归一化处理；其中该融合结果处理公式为：

通过用户注意力曲线生成公式分别对该短时声音能量特征和视觉运动强度特征进行加权融合、平滑处理和归一化处理后生成该用户注意力曲线；其中，该用户注意力生成曲线包括：

在步骤140中，根据预先设定的目标视频片段确定策略，在该用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段。

示例地，确定滑动窗口的大小w和移动步长s、注意力阈值δ，用户感兴趣视频片段长度阈值ξ；在该用户注意力曲线上移动该滑动窗口，若该用户注意力曲线的峰值点在该滑动窗口的至之间，将该峰值点确定为波峰；若该用户注意力曲线的谷值点在该滑动窗口的至之间，将该谷值点确定为波谷；在该用户注意力曲线上两个连续的波谷间的视频片段确定为候选视频片段；在所有的该候选视频片段中去除点波峰值小于δ的视频片段，和视频片段长度小于ξ的视频片段，将其余的该候选视频片段确定为该目标视频片段。

在步骤150中，通过预先训练好的异常行为识别模型获取该目标视频片段中的异常行为。

示例地，分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；通过预先训练好的卷积神经网络模型提取该视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；将该视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中该通过注意力值确定公式为：

α_n＝softmax(W^Th_n+b)

通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，该注意力机制结合公式为：

将该结合注意力机制的特征向量F_att作为softmax分类器的输入，根据该softmax分类器输出的结果确定该异常行为。

另外，可以理解的是，为了便于用户对视频监控器拍摄到的视频进行浏览，可以分为多个层次对用户展示该视频，例如，按照用户的感兴趣程度将上述视频数据分为多个视频片段(在上述多个视频片段中，用户的注意力高于预设的注意力阈值的视频片段即为该目标视频片段)，或者按照视频片段的长度将上述视频数据分为多个视频片段，或者按照是否有异常行为将上述视频数据分为有异常行为和无异常行为的多个视频片段，用户可以根据自己的需求选择想要浏览的视频片段。

综上所述，本发明公开一种基于双模特征和注意力机制的视频摘要方法，该方法包括：通过马尔科夫随机场模型和自适应阈值法对视频数据进行预处理；对预处理后的视频数据进行双模特征提取；对该短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于该视频数据的用户注意力曲线；根据预先设定的目标视频片段确定策略，在该用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；通过预先训练好的异常行为识别模型获取该目标视频片段中的异常行为。能够对冗长的监控视频进行自动浓缩，提取出其中用户感兴趣的片段，自动识别视频中运动目标和异常行为，实现监控视频的智能高效浏览，减轻工作人员负担，提高监控效率。

图4为本发明提供的一种基于双模特征和注意力机制的视频摘要装置的结构框图，如图4所示，该装置400包括：

预处理模块410，通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理；

特征提取模块420，与所述预处理模块410连接，对预处理后的视频数据进行双模特征提取，其中，所述双模特征包括短时声音能量特征和视觉运动强度特征；

曲线生成模块430，与所述特征提取模块420连接，对所述短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于所述视频数据的用户注意力曲线；

视频摘要模块440，与所述曲线生成模块430连接，根据预先设定的目标视频片段确定策略，在所述用户注意力曲线中确定出用户注意力高于预设的注意力阈值的目标视频片段；

异常检测模块450，与所述视频摘要模块440连接，片段通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为。

图5为根据图4示出的一种视频摘要模块的结构框图，如图5所示，所述视频摘要模块440，包括：

阈值确定单元441，确定滑动窗口的大小w和移动步长s、注意力阈值δ，用户感兴趣视频片段长度阈值ξ；

波峰确定单元442，与所述阈值确定单元441连接，在所述用户注意力曲线上移动所述滑动窗口，若所述用户注意力曲线的峰值点在所述滑动窗口的至之间，将所述峰值点确定为波峰；

波谷确定单元443，与所述波峰确定单元442连接，若所述用户注意力曲线的谷值点在所述滑动窗口的至之间，将所述谷值点确定为波谷；

候选视频确定单元444，与所述波谷确定单元443连接，在所述用户注意力曲线上两个连续的波谷间的视频片段确定为候选视频片段；

目标视频确定模块445，与所述候选视频确定模块444连接，在所有的所述候选视频片段中去除点波峰值小于δ的视频片段，和视频片段长度小于ξ的视频片段，将其余的所述候选视频片段确定为所述目标视频片段。

图6为根据图4示出的一种特征提取模块的结构框图，如图6所示，所述特征提取模块420，包括：

短时声音能量特征提取单元421，通过短时声音能量特征提取公式获取所述短时声音能量特征，所述短时声音能量特征提取公式为：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

视觉运动强度特征提取单元422，与所述短时声音能量特征提取单元421连接，通过所述视觉运动强度特征提取公式获取所述视觉运动强度特征，所述视觉运动强度特征提取公式为：

图7为根据图4示出的一种曲线生成模块的结构框图，如图7所示，所述曲线生成模块430，包括：

融合单元431，通过融合结果处理公式分别对所述短时声音能量特征和视觉运动强度特征进行平滑和归一化处理；其中所述融合结果处理公式为：

曲线生成单元432，与所述融合单元431连接，通过用户注意力曲线生成公式分别对所述短时声音能量特征和视觉运动强度特征进行加权融合、平滑处理和归一化处理后生成所述用户注意力曲线；其中，所述用户注意力生成曲线包括：

图8为根据图4示出的一种异常检测模块的结构框图，如图8所示，所述异常检测模块450，包括：

序列提取单元451，分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；

特征提取单元452，与所述序列提取单元451连接，通过预先训练好的卷积神经网络模型提取所述视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；

序列获取单元453，与所述特征提取单元452连接，将所述视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；

注意力值确定单元454，与所述序列获取单元453连接，将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中所述通过注意力值确定公式为：

α_n＝softmax(W^Th_n+b)

注意力结合单元455，与所述注意力值确定单元454连接，通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，所述注意力机制结合公式为：

异常确定单元456，与所述注意力结合单元455连接，将所述结合注意力机制的特征向量F_att作为softmax分类器的输入，根据所述softmax分类器输出的结果确定所述异常行为。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，本领域技术人员在考虑说明书及实践本公开后，容易想到本公开的其它实施方案，均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构，本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于双模特征和注意力机制的视频摘要方法，其特征在于，所述方法包括：

通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理，其中，通过马尔科夫随机场模型对拍摄到的视频数据中的视频背景进行建模，包括：将输入视频帧X＝{x_s|s∈S}从RGB颜色空间转换为YcbCr空间，忽略其亮度分量，其中S表示输入视频帧中的像素点集，x_s表示视频帧上像素点的观测值；初始化视频帧的分类数K、固定势函数β以及算法最大迭代次数T；利用K-均值算法计算视频帧初始分割结果；根据下式估计特征场均值参数μ：

其中，N_m是视频帧中被标记为第m类的像素的个数，y_s表示视频帧中像素点s对应的标号；根据下式估计特征场方差参数σ²：

将μ和σ²代入下式计算特征场能量：

其中，Y＝{y_s|s∈S}表示标号场；根据下式计算标号场能量：

E₂(Y)＝∑_c∈CV_c(Y_c)，

其中V_c(Y_c)是定义在标号场Y的势团c上的势能函数，采用二阶邻域模型：计算标号场和特征场总能量，更新像素点标号，并遍历计算，与上次迭代后的总量相比较，直至能量差值小于设定的阈值或迭代次数为T为止；

通过自适应阈值法对镜头的边界进行检测，包括：将输入视频帧从RGB颜色空间转换为HSV空间；将视频帧大小调整为S×S，划分成大小为B×B的帧块，其中B<S；对视频帧进行维纳滤波；根据下式计算每个图像块的局部二值模式特征LBP；

其中，P是圆形邻域中的像素点的个数，R是邻域半径，I(x,y)表示圆形邻域中心点的亮度值，L为门限函数，计算输入视频帧的局部二值模式特征直方图，并对该直方图进行归一化处理，将每个帧块的局部二值模式特征直方图连接得到输入视频帧LBP特征向量；计算相邻视频帧LBP特征向量的欧式距离，得到相邻视频帧间差Δ＝(Δ₁,Δ₂,…,Δ_N)，N为视频帧总数；如果相邻视频帧间差Δ_i大于阈值ρ，则认为该处产生突变，为镜头边界，其中ρ是自适应阈值，ρ＝μ_Δ+σ_Δ×γ，μ_Δ为Δ的均值，σ_Δ为Δ的方差，γ为取值范围[1,3]的常数；

通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为；

所述通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为，包括：分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；通过预先训练好的卷积神经网络模型提取所述视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；将所述视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中所述通过注意力值确定公式为：α_n＝softmax(W^Th_n+b)，其中，α_n为第n个隐状态的注意力值，W和b分别为多层感知机的权重和偏置；通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，所述注意力机制结合公式为：

2.根据权利要求1所述的基于双模特征和注意力机制的视频摘要方法，其特征在于，所述根据预先设定的目标视频片段确定策略，在所述用户注意力曲线中确定出用户注意力高于预设的注意力阈值的第二时间段内的目标视频片段，包括：

3.根据权利要求1所述的基于双模特征和注意力机制的视频摘要方法，其特征在于，所述对预处理后的视频数据进行双模特征提取，包括：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

4.根据权利要求1所述的基于双模特征和注意力机制的视频摘要方法，其特征在于，所述对所述短时声音能量特征和视觉运动强度特征的融合结果进行平滑处理，以获取针对于所述视频数据的用户注意力曲线，包括：

其中，g_i(k)表示计算得到的第i个模态特征，g_i ^′(k)是归一化后的特征值，k(l₁,β₁)表示凯撒窗函数，l₁和β₁分别是凯撒窗函数的长度控制参数和形状控制参数，表示平滑后得到特征值，G_i(k)是对归一化后的特征值；

其中，η_i表示第i个模态特征值的融合权重，A^′(k)表示双模特征加权融合后生成的曲线，l₂和β₂分别是凯撒窗函数的长度控制参数和形状控制参数，表示A^′(k)经过凯撒平滑处理后生成的曲线，A(k)是对进行归一化处理后生成的用户注意力曲线。

5.一种基于双模特征和注意力机制的视频摘要装置，其特征在于，所述装置包括：

预处理模块，通过马尔科夫随机场模型和自适应阈值法对视频监控器在第一时间段内拍摄到的视频数据进行预处理，其中，通过马尔科夫随机场模型对拍摄到的视频数据中的视频背景进行建模，包括：将输入视频帧X＝{x_s|s∈S}从RGB颜色空间转换为YcbCr空间，忽略其亮度分量，其中S表示输入视频帧中的像素点集，x_s表示视频帧上像素点的观测值；初始化视频帧的分类数K、固定势函数β以及算法最大迭代次数T；利用K-均值算法计算视频帧初始分割结果；根据下式估计特征场均值参数μ：

将μ和σ²代入下式计算特征场能量：

其中，Y＝{y_s|s∈S}表示标号场；根据下式计算标号场能量：

E₂(Y)＝∑_c∈CV_c(Y_c)，

异常检测模块，与所述视频摘要模块连接，片段通过预先训练好的异常行为识别模型获取所述目标视频片段中的异常行为；

所述异常检测模块，包括：序列提取单元，分别对每个目标视频片段进行均匀采样，获取长度为N的视频帧序列；特征提取单元，与所述序列提取单元连接，通过预先训练好的卷积神经网络模型提取所述视频帧序列的特征向量F＝{f₁,f₂,…,f_N}；序列获取单元，与所述特征提取单元连接，将所述视频帧序列的特征向量F输入长短时记忆网络，获取长度为N的隐状态序列H＝{h₁,h₂,…,h_N}；注意力值确定单元，与所述序列获取单元连接，将隐状态序列H输入注意力网络，通过注意力值确定公式计算每个隐状态的注意力值；其中所述通过注意力值确定公式为：α_n＝softmax(W^Th_n+b)，其中，α_n为第n个隐状态的注意力值，W和b分别为多层感知机的权重和偏置；注意力结合单元，与所述注意力值确定单元连接，通过注意力机制结合公式将特征向量F与注意力值向量α加权，得到结合注意力机制的特征向量F_att；其中，所述注意力机制结合公式为：异常确定单元，与所述注意力结合单元连接，将所述结合注意力机制的特征向量F_att作为softmax分类器的输入，根据所述softmax分类器输出的结果确定所述异常行为。

6.根据权利要求5所述的基于双模特征和注意力机制的视频摘要装置，其特征在于，所述视频摘要模块，包括：

7.根据权利要求5所述的基于双模特征和注意力机制的视频摘要装置，其特征在于，所述特征提取模块，包括：

y_i(n)＝w(n)×x((i-1)×inc+n),1≤n≤L,1≤i≤fn

8.根据权利要求5所述的基于双模特征和注意力机制的视频摘要装置，其特征在于，所述曲线生成模块，包括：