CN117156107A

CN117156107A - 一种社区监控语义描述方法及系统

Info

Publication number: CN117156107A
Application number: CN202311421535.1A
Authority: CN
Inventors: 邹哲; 张恒; 王慧云; 邢晓旭; 胡建颖
Original assignee: Tianjin Urban Planning And Design Institute Co ltd
Current assignee: Tianjin Urban Planning And Design Institute Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-01

Abstract

本发明提出一种社区监控语义描述方法及系统，包括：S1、数据采集：根据社区监控中视频，记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude、视频V；S2、特征提取：基于GoogLeNet网络提取视频V的视频特征；S3、语义表述：得到对监控视频中问题的文字描述；S4、预警应用：生成一条记录，将记录作为提醒信息发送，并进行保存。本发明准确识别视频中的关键信息，进行文本描述，并根据文本描述内容进行信息提醒以及信息存储，能够实现实时监控和快速响应，便于追溯及检索，节省人力财力。

Description

一种社区监控语义描述方法及系统

技术领域

本发明属于社区监控技术领域，特别是涉及到一种社区的实时监控视频的语义描述方法及系统。

背景技术

目前很多社区为了社区安全以及实现智慧社区服务等目的，都在社区安装了视频监控系统，但是随着监控摄像头越来越多，也带来了一些不利于社区服务的问题。

1、视频数据量大：社区监控系统可能会产生大量的视频数据，特别是对于大型社区。检索这些视频可能会耗费大量的时间和资源，尤其是如果需要人工逐帧查看，无法及时发现问题，同时是对人力和财力的巨大浪费。

2、响应时间不及时：虽然视频监控系统可以提供录像作为证据，但在紧急情况下，实时监控和快速响应更为重要。如果监控系统的响应时间太慢，可能会导致失去关键的线索或延误处理事件。

3、数据检索困难：目前视频分析技术可能还无法完全自动化地处理所有情况。因此，需要人工介入进行判断和检索，出了事情再去查找也很困难；由于社区环境中的摄像头可能质量不一，捕捉到的视频质量受到光照、天气等因素的影响，视频的清晰度和可读性也可能受到影响，这可能会影响人工检索的准确性和效率。

发明内容

本发明提出一种社区监控语义描述方法及系统，准确识别视频中的关键信息，进行文本描述，并根据文本描述内容进行信息提醒以及信息存储。

为达到上述目的，本发明的技术方案是这样实现的：

一种社区监控语义描述方法，包括：

S1、数据采集：根据社区监控中视频，记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude、视频V；

S2、特征提取：基于GoogLeNet网络提取视频V的视频特征；

S3、语义表述：基于视频特征，利用分离单元将视频V中的关键区域作为前景；将SC-GRU神经网络和VLAD编码方法相结合，获得连续视频帧的时空表示特征；通过一个基于注意力机制的单层GRU解码器，学习匹配正确标注的单词和连续视频帧的显著区域；得到对监控视频中问题的文字描述；

S4、预警应用：生成一条记录，包括步骤S1中视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude，以及步骤S3中对监控视频中问题的文字描述；将记录作为提醒信息发送，并进行保存。

进一步的，步骤S2具体包括：

根据视频帧率获取每个视频V的序列帧，然后等间隔选取T帧，将T个视频帧按照时间序列输入GoogLeNet网络中，把inception_5b层的输出作为视频特征，则一个视频的特征X表示为：

；

x_t表示帧视频特征；R^H×W×D表示三维向量空间，其中H、W和D分别表示特征的高度、宽度和通道的数量。

更进一步的，步骤S3中，利用分离单元将视频V中的关键区域作为前景的方法包括：

S301、所述分离单元包括卷积层，帧视频特征x_t输入分离单元F得到输出F(x_t)；利用残差连接输入的帧视频特征x_t和输出F(x_t)，得到m_t；计算帧中每一位置的显著性值S_t(i,j)；

；

其中m_t(i,j,d)表示第t帧视频特征中，在位置（i，j，d）的值；

S302、通过最大标准化将显著性值映射到[0, 1]的范围：；

S303、定义阈值θ，

；

f_t(i,j)和b_t(i,j)分别表示帧图像位置(i,j)属于前景和背景。

更进一步的，步骤S3中，获得连续视频帧的时空表示特征的方法包括：

S311、利用SC-GRU神经网络计算局部的视频特征表示分配给相应中心点的概率值；SC-GRU的输入包括帧视频特征x_t和t-1时刻的隐藏状态α_t-1；SC-GRU的输出计算为：

；

其中z_t表示x_t在t时刻影响的信息量，r_t表示t-1时刻的隐藏状态/>在t影响的信息量，/>为控制z_t中信息参与运算的比例的参数；/>、/>、/>和U是可训练参数，表示2D卷积核，/>表示卷积运算，σ表示Sigmoid函数，⊙表示对应元素相乘；最终计算得到的，则在位置（i,j,k）的值为/>，表示分配给第k中心点的概率；

S312、用聚类算法得到字典；将步骤S303中得到的f_t(i,j)和b_t(i,j)分别编码为时空描述符/>和/>；

；

c_k表示第k个中心点，表示第t帧中位置(i, j)分配给第k个中心点的概率，/>表示位置(i, j)的局部描述符。

更进一步的，步骤S3中，得到对监控视频中问题的文字描述的方法包括：

S321、通过一个基于注意力机制的单层GRU解码器，学习匹配正确标注的单词和连续视频帧的显著区域；GRU解码器在时刻的计算如下：

；

代表对视频前景特征表示的动态值，/>代表对视频背景特征表示的动态值；/>表示前景和背景在/>时刻的融合特征，/>表示/>和/>在/>时刻影响/>的信息量，/>表示/>在/>时刻影响/>的信息量，/>为控制/>中信息参与运算的比例的参数，/>和/>分别表示/>、/>时刻生成预警信息的有用信息；

上面第一个公式中的[;]表示合并操作，表示基于帧的均值，σ表示Sigmoid函数；W_vz、W_vr、W_v、W_dz、W_dr、U_dz、U_dr、U_d是可训练参数；

表示在/>时刻生成的单词；/>；E表示单词向量的大小；

S322、在GRU层之后是一个线性层，然后通过一个softmax层生成词汇表中所有单词的概率分布；利用最大似然估计来优化所有可训练参数；

；wz表示每个时刻最大概率的文字；

其中Pr()为概率函数；y_t表示t时刻生成的单词；表示视频前景特征，/>表示视频背景特征，δ表示所有可训练参数，最终Y={y₁,y₂,…y_t…}作为对监控视频中问题的文字描述。

更进一步的，步骤S4具体包括：

S401、将步骤S1中记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude，以及步骤S322中最终生成的对监控视频中问题的文字描述Y作为一条记录Record=<T_begin, T_end,latitude ,longitude ,Y>；

S402、将Record作为一条记录保存到数据库；

S403、将Record作为一条提醒信息进行发送。

本发明另一方面还提出了一种社区监控语义描述系统，包括：

数据采集层：根据社区监控中视频，记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude、视频V；

特征提取层：基于GoogLeNet网络提取视频V的视频特征；

语义表述层：基于视频特征，利用分离单元将视频V中的关键区域作为前景；将SC-GRU神经网络和VLAD编码方法相结合，获得连续视频帧的时空表示特征；通过一个基于注意力机制的单层GRU解码器，学习匹配正确标注的单词和连续视频帧的显著区域；得到对监控视频中问题的文字描述；

预警应用层：生成一条记录，包括数据采集层中视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude，以及语义表述层中对监控视频中问题的文字描述；将记录作为提醒信息发送，并进行保存。

与现有技术相比，本发明具有如下的有益效果：

本发明可以根据对监控视频的分析生成对监控视频中问题的文字描述，及时通知社区管理人员，并存储在数据库。本发明能够实现实时监控和快速响应，便于追溯及检索，节省人力财力，实现更丰富的社区监控场景应用。

附图说明

图1是本发明实施例中语义描述的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为使本发明专利的目的、特征更明显易懂，下面结合附图对本发明专利的具体实施方式作进一步的说明。

本发明所提出的方法主要包括：

1、数据采集：

根据社区监控中视频，记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息（latitude ,longitude）和视频V。

2、特征提取：

根据视频帧率获取每个视频V的序列帧，然后等间隔选取T帧，将T个视频帧按照时间序列输入GoogLeNet网络中，把inception_5b层的输出作为视频特征，则一个视频的特征表示为：

；

3、语义表述：

（a）、为了准确的监控视频中发生的事件，准确识别视频中的关键信息，并将关键区域和非关键区域区分开，是非常重要的一个步骤。利用一个分离单元（见图1）学习视频帧中每个位置的显著性值。利用分离方法将视频内容中的关键区域作为前景，其余区域作为背景。

分离单元是一个瓶颈结构，由3个卷积层组成:一个1 × 1 卷积层，一个3 × 3卷积层，和一个1 × 1 卷积层。最后的输出与x_t的形状相同。此外，前两个卷积层的输出为H × W × D1，其中D1<D。为了避免训练过程中的梯度消失，利用残差连接输入特征x_t和分离单元F的输出F(x_t)，得到m_t。然后计算显著性值S_t(i,j)。t∈{1,…,T}，i∈{1,…,H}，j∈{1,…,W}，m_t(i,j,d)表示第t帧视频特征中，在位置（i，j，d）的值。

；

S_t(i,j)表示第t帧中位置(i, j)处的显著性值，指的是特征的通道(D维)上的一个平均操作；其中i∈{1, . . . , H}，j∈{1, . . . , W}。

取得S_t(i,j)后，利用最大标准化将显著性值映射到[0, 1]的范围：

。

将θ定义为一个阈值，用来确定x_t中的每个位置(i, j)是前景或背景的一部分。

；

f_t(i,j)和b_t(i,j)分别表示图像位置(i, j)属于前景还是背景。需要注意的是，f_t(i,j)和b_t(i,j)的范围是[0, 1]。

（b）、为了将前景/背景内容聚合成一个有识别力的时空表示特征，从而使得生成的特征在保留空间信息的同时，不丢失视频的空间信息。本发明提出了一种可训练的聚合方法，将Shared Convolutional GRU (SC-GRU)和可训练的VLAD编码方法相结合，从而获得连续视频帧的时空表示特征。

首先利用SC-GRU计算局部的视频特征表示分配给相应中心点的概率值，然后再使用VLAD编码方法，将（a）中得到的f_t(i,j)和b_t(i,j)分别编码为时空描述符和/>。

SC-GRU共享所有的‘输入-隐藏’的参数，并且具有较小的过拟合概率。SC-GRU的输入为和α_t-1中，分别表示t时刻的视频帧特征和t-1时刻的隐藏状态。SC-GRU的输出计算：

；

z_t表示x_t在t时刻影响的信息量，r_t表示t-1时刻的隐藏状态/>在t影响/>的信息量，/>为控制z_t中信息参与运算的比例的参数。

、/>、/>和U是可训练参数，表示2D卷积核；/>表示卷积运算，σ表示Sigmoid函数，⊙表示对应元素相乘。最终计算得到的/>，则在位置（i,j,k）的值为，表示分配给第k中心点的概率。

首先用K-均值聚类算法得到一个字典，c_k表示第k个中心点。VLAD的思想是对向量x和中心点c_k的差(x-c_k)进行累加。

将（a）中得到的f_t(i,j)和b_t(i,j)分别编码为时空描述符和/>：

；

（c）、由于时间注意机制采取在时间上进行特征向量加权和，因此利用视频前景和背景的时空表示，本发明可以得到连续视频帧中前景和背景对产生单词的不同贡献，计算如下：

；

、/>是可训练的参数。/>代表对视频前景特征表示的动态值，代表对视频背景特征表示的动态值。

根据（b）中得到前景描述和/>，通过一个基于注意力机制的单层GRU解码器，学习匹配正确标注的单词和连续视频帧的显著区域。GRU解码器在/>时刻的计算如下：

；

表示前景和背景在/>时刻的融合特征，/>表示/>和/>在/>时刻影响/>的信息量，/>表示/>在/>时刻影响/>的信息量，/>为控制/>中信息参与运算的比例的参数，/>和/>分别表示/>、/>时刻生成预警信息的有用信息；

表示在/>时刻生成的单词；/>；E表示单词向量的大小。

然后在GRU层之后是一个线性层，然后通过一个softmax层得到词汇表中所有单词的概率分布。因此，本发明利用最大似然估计来优化所有可训练参数；

；wz表示每个时刻最大概率的文字。

其中Pr()为概率函数；y_t表示t时刻生成的单词；表示视频前景特征，/>表示视频背景特征；δ表示所有可训练参数，最终Y={y₁,y₂,…y_t…}作为对监控视频中问题的文字描述。

4、预警应用：

（a）将步骤1中视频的起始时间T_begin和终止时间T_end、位置信息（latitude ,longitude）、步骤3中最终生成的问题描述Y作为一条记录，

Record=<T_begin, T_end,latitude ,longitude ,Y>；

（b）将Record作为一条记录保存到数据库，方便社区管理人员检索问题。

（c）将Record作为一条提醒信息发送给社区管理人员，促进社区问题及时解决。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社区监控语义描述方法，其特征在于，包括：

S2、特征提取：基于GoogLeNet网络提取视频V的视频特征；

2.根据权利要求1所述的社区监控语义描述方法，其特征在于，步骤S2具体包括：

；

3.根据权利要求2所述的社区监控语义描述方法，其特征在于，步骤S3中，利用分离单元将视频V中的关键区域作为前景的方法包括：

；

S302、通过最大标准化将显著性值映射到[0, 1]的范围：；

S303、定义阈值θ，

；

f_t(i,j)和b_t(i,j)分别表示帧图像位置(i,j)属于前景和背景。

4.根据权利要求3所述的社区监控语义描述方法，其特征在于，步骤S3中，获得连续视频帧的时空表示特征的方法包括：

；

其中z_t表示x_t在t时刻影响的信息量，r_t表示t-1时刻的隐藏状态/>在t影响/>的信息量，/>为控制z_t中信息参与运算的比例的参数；/>、/>、/>和U是可训练参数，表示2D卷积核，/>表示卷积运算，σ表示Sigmoid函数，⊙表示对应元素相乘；最终计算得到的，则在位置（i,j,k）的值为/>，表示分配给第k中心点的概率；

；

5.根据权利要求4所述的社区监控语义描述方法，其特征在于，步骤S3中，得到对监控视频中问题的文字描述的方法包括：

；

代表对视频前景特征表示的动态值，/>代表对视频背景特征表示的动态值；/>表示前景和背景在/>时刻的融合特征，/>表示/>和/>在/>时刻影响/>的信息量，/>表示/>在/>时刻影响/>的信息量，/>为控制/>中信息参与运算的比例的参数，和/>分别表示/>、/>时刻生成预警信息的有用信息；

表示在/>时刻生成的单词；/>；E表示单词向量的大小；

；wz表示每个时刻最大概率的文字；

6.根据权利要求5所述的社区监控语义描述方法，其特征在于，步骤S4具体包括：

S401、将步骤S1中记录视频的起始时间T_begin和终止时间T_end、监控摄像头的位置信息latitude和longitude，以及步骤S322中最终生成的对监控视频中问题的文字描述Y作为一条记录Record=<T_begin, T_end ,latitude ,longitude ,Y>；

S402、将Record作为一条记录保存到数据库；

S403、将Record作为一条提醒信息进行发送。

7.一种社区监控语义描述系统，其特征在于，包括：

特征提取层：基于GoogLeNet网络提取视频V的视频特征；