CN117156107A - 一种社区监控语义描述方法及系统 - Google Patents
一种社区监控语义描述方法及系统 Download PDFInfo
- Publication number
- CN117156107A CN117156107A CN202311421535.1A CN202311421535A CN117156107A CN 117156107 A CN117156107 A CN 117156107A CN 202311421535 A CN202311421535 A CN 202311421535A CN 117156107 A CN117156107 A CN 117156107A
- Authority
- CN
- China
- Prior art keywords
- video
- monitoring
- representing
- information
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 31
- 238000000926 separation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种社区监控语义描述方法及系统,包括:S1、数据采集:根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude、视频V;S2、特征提取:基于GoogLeNet网络提取视频V的视频特征;S3、语义表述:得到对监控视频中问题的文字描述;S4、预警应用:生成一条记录,将记录作为提醒信息发送,并进行保存。本发明准确识别视频中的关键信息,进行文本描述,并根据文本描述内容进行信息提醒以及信息存储,能够实现实时监控和快速响应,便于追溯及检索,节省人力财力。
Description
技术领域
本发明属于社区监控技术领域,特别是涉及到一种社区的实时监控视频的语义描述方法及系统。
背景技术
目前很多社区为了社区安全以及实现智慧社区服务等目的,都在社区安装了视频监控系统,但是随着监控摄像头越来越多,也带来了一些不利于社区服务的问题。
1、视频数据量大:社区监控系统可能会产生大量的视频数据,特别是对于大型社区。检索这些视频可能会耗费大量的时间和资源,尤其是如果需要人工逐帧查看,无法及时发现问题,同时是对人力和财力的巨大浪费。
2、响应时间不及时:虽然视频监控系统可以提供录像作为证据,但在紧急情况下,实时监控和快速响应更为重要。如果监控系统的响应时间太慢,可能会导致失去关键的线索或延误处理事件。
3、数据检索困难:目前视频分析技术可能还无法完全自动化地处理所有情况。因此,需要人工介入进行判断和检索,出了事情再去查找也很困难;由于社区环境中的摄像头可能质量不一,捕捉到的视频质量受到光照、天气等因素的影响,视频的清晰度和可读性也可能受到影响,这可能会影响人工检索的准确性和效率。
发明内容
本发明提出一种社区监控语义描述方法及系统,准确识别视频中的关键信息,进行文本描述,并根据文本描述内容进行信息提醒以及信息存储。
为达到上述目的,本发明的技术方案是这样实现的:
一种社区监控语义描述方法,包括:
S1、数据采集:根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude、视频V;
S2、特征提取:基于GoogLeNet网络提取视频V的视频特征;
S3、语义表述:基于视频特征,利用分离单元将视频V中的关键区域作为前景;将SC-GRU神经网络和VLAD编码方法相结合,获得连续视频帧的时空表示特征;通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;得到对监控视频中问题的文字描述;
S4、预警应用:生成一条记录,包括步骤S1中视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及步骤S3中对监控视频中问题的文字描述;将记录作为提醒信息发送,并进行保存。
进一步的,步骤S2具体包括:
根据视频帧率获取每个视频V的序列帧,然后等间隔选取T帧,将T个视频帧按照时间序列输入GoogLeNet网络中,把inception_5b层的输出作为视频特征,则一个视频的特征X表示为:
;
xt表示帧视频特征;RH×W×D表示三维向量空间,其中H、W和D分别表示特征的高度、宽度和通道的数量。
更进一步的,步骤S3中,利用分离单元将视频V中的关键区域作为前景的方法包括:
S301、所述分离单元包括卷积层,帧视频特征xt输入分离单元F得到输出F(xt);利用残差连接输入的帧视频特征xt和输出F(xt),得到mt;计算帧中每一位置的显著性值St(i,j);
;
;
其中mt(i,j,d)表示第t帧视频特征中,在位置(i,j,d)的值;
S302、通过最大标准化将显著性值映射到[0, 1]的范围:;
S303、定义阈值θ,
;
;
ft(i,j)和bt(i,j)分别表示帧图像位置(i,j)属于前景和背景。
更进一步的,步骤S3中,获得连续视频帧的时空表示特征的方法包括:
S311、利用SC-GRU神经网络计算局部的视频特征表示分配给相应中心点的概率值;SC-GRU的输入包括帧视频特征xt和t-1时刻的隐藏状态αt-1;SC-GRU的输出计算为:
;
;
;
;
其中zt表示xt在t时刻影响的信息量,rt表示t-1时刻的隐藏状态/>在t影响的信息量,/>为控制zt中信息参与运算的比例的参数;/>、/>、/>和U是可训练参数,表示2D卷积核,/>表示卷积运算,σ表示Sigmoid函数,⊙表示对应元素相乘;最终计算得到的,则在位置(i,j,k)的值为/>,表示分配给第k中心点的概率;
S312、用聚类算法得到字典;将步骤S303中得到的ft(i,j)和bt(i,j)分别编码为时空描述符/>和/>;
;
;
ck表示第k个中心点,表示第t帧中位置(i, j)分配给第k个中心点的概率,/>表示位置(i, j)的局部描述符。
更进一步的,步骤S3中,得到对监控视频中问题的文字描述的方法包括:
S321、通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;GRU解码器在时刻的计算如下:
;
;
;
;
;
代表对视频前景特征表示的动态值,/>代表对视频背景特征表示的动态值;/>表示前景和背景在/>时刻的融合特征,/>表示/>和/>在/>时刻影响/>的信息量,/>表示/>在/>时刻影响/>的信息量,/>为控制/>中信息参与运算的比例的参数,/>和/>分别表示/>、/>时刻生成预警信息的有用信息;
上面第一个公式中的[;]表示合并操作,表示基于帧的均值,σ表示Sigmoid函数;Wvz、Wvr、Wv、Wdz、Wdr、Udz、Udr、Ud是可训练参数;
表示在/>时刻生成的单词;/>;E表示单词向量的大小;
S322、在GRU层之后是一个线性层,然后通过一个softmax层生成词汇表中所有单词的概率分布;利用最大似然估计来优化所有可训练参数;
;wz表示每个时刻最大概率的文字;
其中Pr()为概率函数;yt表示t时刻生成的单词;表示视频前景特征,/>表示视频背景特征,δ表示所有可训练参数,最终Y={y1,y2,…yt…}作为对监控视频中问题的文字描述。
更进一步的,步骤S4具体包括:
S401、将步骤S1中记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及步骤S322中最终生成的对监控视频中问题的文字描述Y作为一条记录Record=<Tbegin, Tend,latitude ,longitude ,Y>;
S402、将Record作为一条记录保存到数据库;
S403、将Record作为一条提醒信息进行发送。
本发明另一方面还提出了一种社区监控语义描述系统,包括:
数据采集层:根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude、视频V;
特征提取层:基于GoogLeNet网络提取视频V的视频特征;
语义表述层:基于视频特征,利用分离单元将视频V中的关键区域作为前景;将SC-GRU神经网络和VLAD编码方法相结合,获得连续视频帧的时空表示特征;通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;得到对监控视频中问题的文字描述;
预警应用层:生成一条记录,包括数据采集层中视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及语义表述层中对监控视频中问题的文字描述;将记录作为提醒信息发送,并进行保存。
与现有技术相比,本发明具有如下的有益效果:
本发明可以根据对监控视频的分析生成对监控视频中问题的文字描述,及时通知社区管理人员,并存储在数据库。本发明能够实现实时监控和快速响应,便于追溯及检索,节省人力财力,实现更丰富的社区监控场景应用。
附图说明
图1是本发明实施例中语义描述的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为使本发明专利的目的、特征更明显易懂,下面结合附图对本发明专利的具体实施方式作进一步的说明。
本发明所提出的方法主要包括:
1、数据采集:
根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息(latitude ,longitude)和视频V。
2、特征提取:
根据视频帧率获取每个视频V的序列帧,然后等间隔选取T帧,将T个视频帧按照时间序列输入GoogLeNet网络中,把inception_5b层的输出作为视频特征,则一个视频的特征表示为:
;
xt表示帧视频特征;RH×W×D表示三维向量空间,其中H、W和D分别表示特征的高度、宽度和通道的数量。
3、语义表述:
(a)、为了准确的监控视频中发生的事件,准确识别视频中的关键信息,并将关键区域和非关键区域区分开,是非常重要的一个步骤。利用一个分离单元(见图1)学习视频帧中每个位置的显著性值。利用分离方法将视频内容中的关键区域作为前景,其余区域作为背景。
分离单元是一个瓶颈结构,由3个卷积层组成:一个1 × 1 卷积层,一个3 × 3卷积层,和一个1 × 1 卷积层。最后的输出与xt的形状相同。此外,前两个卷积层的输出为H × W × D1,其中D1<D。为了避免训练过程中的梯度消失,利用残差连接输入特征xt和分离单元F的输出F(xt),得到mt。然后计算显著性值St(i,j)。t∈{1,…,T},i∈{1,…,H},j∈{1,…,W},mt(i,j,d)表示第t帧视频特征中,在位置(i,j,d)的值。
;
;
St(i,j)表示第t帧中位置(i, j)处的显著性值,指的是特征的通道(D维)上的一个平均操作;其中i∈{1, . . . , H},j∈{1, . . . , W}。
取得St(i,j)后,利用最大标准化将显著性值映射到[0, 1]的范围:
。
将θ定义为一个阈值,用来确定xt中的每个位置(i, j)是前景或背景的一部分。
;
;
ft(i,j)和bt(i,j)分别表示图像位置(i, j)属于前景还是背景。需要注意的是,ft(i,j)和bt(i,j)的范围是[0, 1]。
(b)、为了将前景/背景内容聚合成一个有识别力的时空表示特征,从而使得生成的特征在保留空间信息的同时,不丢失视频的空间信息。本发明提出了一种可训练的聚合方法,将Shared Convolutional GRU (SC-GRU)和可训练的VLAD编码方法相结合,从而获得连续视频帧的时空表示特征。
首先利用SC-GRU计算局部的视频特征表示分配给相应中心点的概率值,然后再使用VLAD编码方法,将(a)中得到的ft(i,j)和bt(i,j)分别编码为时空描述符和/>。
SC-GRU共享所有的‘输入-隐藏’的参数,并且具有较小的过拟合概率。SC-GRU的输入为和αt-1中,分别表示t时刻的视频帧特征和t-1时刻的隐藏状态。SC-GRU的输出计算:
;
;
;
;
zt表示xt在t时刻影响的信息量,rt表示t-1时刻的隐藏状态/>在t影响/>的信息量,/>为控制zt中信息参与运算的比例的参数。
、/>、/>和U是可训练参数,表示2D卷积核;/>表示卷积运算,σ表示Sigmoid函数,⊙表示对应元素相乘。最终计算得到的/>,则在位置(i,j,k)的值为,表示分配给第k中心点的概率。
首先用K-均值聚类算法得到一个字典,ck表示第k个中心点。VLAD的思想是对向量x和中心点ck的差(x-ck)进行累加。
将(a)中得到的ft(i,j)和bt(i,j)分别编码为时空描述符和/>:
;
;
ck表示第k个中心点,表示第t帧中位置(i, j)分配给第k个中心点的概率,/>表示位置(i, j)的局部描述符。
(c)、由于时间注意机制采取在时间上进行特征向量加权和,因此利用视频前景和背景的时空表示,本发明可以得到连续视频帧中前景和背景对产生单词的不同贡献,计算如下:
;
;
、/>是可训练的参数。/>代表对视频前景特征表示的动态值,代表对视频背景特征表示的动态值。
根据(b)中得到前景描述和/>,通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域。GRU解码器在/>时刻的计算如下:
;
;
;
;
;
表示前景和背景在/>时刻的融合特征,/>表示/>和/>在/>时刻影响/>的信息量,/>表示/>在/>时刻影响/>的信息量,/>为控制/>中信息参与运算的比例的参数,/>和/>分别表示/>、/>时刻生成预警信息的有用信息;
上面第一个公式中的[;]表示合并操作,表示基于帧的均值,σ表示Sigmoid函数;Wvz、Wvr、Wv、Wdz、Wdr、Udz、Udr、Ud是可训练参数;
表示在/>时刻生成的单词;/>;E表示单词向量的大小。
然后在GRU层之后是一个线性层,然后通过一个softmax层得到词汇表中所有单词的概率分布。因此,本发明利用最大似然估计来优化所有可训练参数;
;wz表示每个时刻最大概率的文字。
其中Pr()为概率函数;yt表示t时刻生成的单词;表示视频前景特征,/>表示视频背景特征;δ表示所有可训练参数,最终Y={y1,y2,…yt…}作为对监控视频中问题的文字描述。
4、预警应用:
(a)将步骤1中视频的起始时间Tbegin和终止时间Tend、位置信息(latitude ,longitude)、步骤3中最终生成的问题描述Y作为一条记录,
Record=<Tbegin, Tend,latitude ,longitude ,Y>;
(b)将Record作为一条记录保存到数据库,方便社区管理人员检索问题。
(c)将Record作为一条提醒信息发送给社区管理人员,促进社区问题及时解决。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种社区监控语义描述方法,其特征在于,包括:
S1、数据采集:根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude、视频V;
S2、特征提取:基于GoogLeNet网络提取视频V的视频特征;
S3、语义表述:基于视频特征,利用分离单元将视频V中的关键区域作为前景;将SC-GRU神经网络和VLAD编码方法相结合,获得连续视频帧的时空表示特征;通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;得到对监控视频中问题的文字描述;
S4、预警应用:生成一条记录,包括步骤S1中视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及步骤S3中对监控视频中问题的文字描述;将记录作为提醒信息发送,并进行保存。
2.根据权利要求1所述的社区监控语义描述方法,其特征在于,步骤S2具体包括:
根据视频帧率获取每个视频V的序列帧,然后等间隔选取T帧,将T个视频帧按照时间序列输入GoogLeNet网络中,把inception_5b层的输出作为视频特征,则一个视频的特征X表示为:
;
xt表示帧视频特征;RH×W×D表示三维向量空间,其中H、W和D分别表示特征的高度、宽度和通道的数量。
3.根据权利要求2所述的社区监控语义描述方法,其特征在于,步骤S3中,利用分离单元将视频V中的关键区域作为前景的方法包括:
S301、所述分离单元包括卷积层,帧视频特征xt输入分离单元F得到输出F(xt);利用残差连接输入的帧视频特征xt和输出F(xt),得到mt;计算帧中每一位置的显著性值St(i,j);
;
;
其中mt(i,j,d)表示第t帧视频特征中,在位置(i,j,d)的值;
S302、通过最大标准化将显著性值映射到[0, 1]的范围:;
S303、定义阈值θ,
;
;
ft(i,j)和bt(i,j)分别表示帧图像位置(i,j)属于前景和背景。
4.根据权利要求3所述的社区监控语义描述方法,其特征在于,步骤S3中,获得连续视频帧的时空表示特征的方法包括:
S311、利用SC-GRU神经网络计算局部的视频特征表示分配给相应中心点的概率值;SC-GRU的输入包括帧视频特征xt和t-1时刻的隐藏状态αt-1;SC-GRU的输出计算为:
;
;
;
;
其中zt表示xt在t时刻影响的信息量,rt表示t-1时刻的隐藏状态/>在t影响/>的信息量,/>为控制zt中信息参与运算的比例的参数;/>、/>、/>和U是可训练参数,表示2D卷积核,/>表示卷积运算,σ表示Sigmoid函数,⊙表示对应元素相乘;最终计算得到的,则在位置(i,j,k)的值为/>,表示分配给第k中心点的概率;
S312、用聚类算法得到字典;将步骤S303中得到的ft(i,j)和bt(i,j)分别编码为时空描述符/>和/>;
;
;
ck表示第k个中心点,表示第t帧中位置(i, j)分配给第k个中心点的概率,/>表示位置(i, j)的局部描述符。
5.根据权利要求4所述的社区监控语义描述方法,其特征在于,步骤S3中,得到对监控视频中问题的文字描述的方法包括:
S321、通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;GRU解码器在时刻的计算如下:
;
;
;
;
;
代表对视频前景特征表示的动态值,/>代表对视频背景特征表示的动态值;/>表示前景和背景在/>时刻的融合特征,/>表示/>和/>在/>时刻影响/>的信息量,/>表示/>在/>时刻影响/>的信息量,/>为控制/>中信息参与运算的比例的参数,和/>分别表示/>、/>时刻生成预警信息的有用信息;
上面第一个公式中的[;]表示合并操作,表示基于帧的均值,σ表示Sigmoid函数;Wvz、Wvr、Wv、Wdz、Wdr、Udz、Udr、Ud是可训练参数;
表示在/>时刻生成的单词;/>;E表示单词向量的大小;
S322、在GRU层之后是一个线性层,然后通过一个softmax层生成词汇表中所有单词的概率分布;利用最大似然估计来优化所有可训练参数;
;wz表示每个时刻最大概率的文字;
其中Pr()为概率函数;yt表示t时刻生成的单词;表示视频前景特征,/>表示视频背景特征,δ表示所有可训练参数,最终Y={y1,y2,…yt…}作为对监控视频中问题的文字描述。
6.根据权利要求5所述的社区监控语义描述方法,其特征在于,步骤S4具体包括:
S401、将步骤S1中记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及步骤S322中最终生成的对监控视频中问题的文字描述Y作为一条记录Record=<Tbegin, Tend ,latitude ,longitude ,Y>;
S402、将Record作为一条记录保存到数据库;
S403、将Record作为一条提醒信息进行发送。
7.一种社区监控语义描述系统,其特征在于,包括:
数据采集层:根据社区监控中视频,记录视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude、视频V;
特征提取层:基于GoogLeNet网络提取视频V的视频特征;
语义表述层:基于视频特征,利用分离单元将视频V中的关键区域作为前景;将SC-GRU神经网络和VLAD编码方法相结合,获得连续视频帧的时空表示特征;通过一个基于注意力机制的单层GRU解码器,学习匹配正确标注的单词和连续视频帧的显著区域;得到对监控视频中问题的文字描述;
预警应用层:生成一条记录,包括数据采集层中视频的起始时间Tbegin和终止时间Tend、监控摄像头的位置信息latitude和longitude,以及语义表述层中对监控视频中问题的文字描述;将记录作为提醒信息发送,并进行保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421535.1A CN117156107A (zh) | 2023-10-31 | 2023-10-31 | 一种社区监控语义描述方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421535.1A CN117156107A (zh) | 2023-10-31 | 2023-10-31 | 一种社区监控语义描述方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117156107A true CN117156107A (zh) | 2023-12-01 |
Family
ID=88906515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311421535.1A Withdrawn CN117156107A (zh) | 2023-10-31 | 2023-10-31 | 一种社区监控语义描述方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117156107A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118660137A (zh) * | 2024-08-16 | 2024-09-17 | 杭州瀛诚科技有限公司 | 智能楼宇监控系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880692A (zh) * | 2012-09-19 | 2013-01-16 | 上海交通大学 | 一种面向检索的监控视频语义描述和检测建模方法 |
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN115150589A (zh) * | 2022-06-30 | 2022-10-04 | 合肥恒翔电子科技有限公司 | 一种用于煤矿企业的视频监控运维管理系统 |
-
2023
- 2023-10-31 CN CN202311421535.1A patent/CN117156107A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880692A (zh) * | 2012-09-19 | 2013-01-16 | 上海交通大学 | 一种面向检索的监控视频语义描述和检测建模方法 |
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN115150589A (zh) * | 2022-06-30 | 2022-10-04 | 合肥恒翔电子科技有限公司 | 一种用于煤矿企业的视频监控运维管理系统 |
Non-Patent Citations (1)
Title |
---|
HUIYUN WANG等: "Spottng and Aggregating Salient Regions for Video Captioning", ASSOCIATION FOR COMPUTING MACHINERY, pages 1 - 8 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118660137A (zh) * | 2024-08-16 | 2024-09-17 | 杭州瀛诚科技有限公司 | 智能楼宇监控系统 |
CN118660137B (zh) * | 2024-08-16 | 2024-10-18 | 杭州瀛诚科技有限公司 | 智能楼宇监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cong et al. | Towards scalable summarization of consumer videos via sparse dictionary selection | |
Gaidon et al. | Temporal localization of actions with actoms | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
Park et al. | Probabilistic representations for video contrastive learning | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN117156107A (zh) | 一种社区监控语义描述方法及系统 | |
CN111125406A (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
Oluwasammi et al. | Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning | |
CN112364168A (zh) | 一种基于多属性信息融合的舆情分类方法 | |
Wang et al. | Back to the beginning: Starting point detection for early recognition of ongoing human actions | |
CN118381980B (zh) | 基于语义分割的智能视频编辑与摘要生成方法及设备 | |
CN113052039A (zh) | 一种交通路网行人密度检测的方法、系统及服务器 | |
Negi et al. | Object detection based approach for an efficient video summarization with system statistics over cloud | |
TWI396980B (zh) | 交叉描述符號學習系統,方法及其程式產品 | |
CN113971826A (zh) | 估计连续的效价和唤醒水平的动态情感识别方法和系统 | |
Bin et al. | Combining multi-representation for multimedia event detection using co-training | |
CN114443904B (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
CN111768214A (zh) | 产品属性的预测方法、系统、设备和存储介质 | |
Ben-Ahmed et al. | Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes | |
Cheng et al. | Context-aware based visual-audio feature fusion for emotion recognition | |
CN115457620A (zh) | 用户表情识别方法、装置、计算机设备及存储介质 | |
Zhang et al. | Real-Time Detection of Small Targets for Video Surveillance Based on MS-YOLOv5 | |
CN114092746A (zh) | 一种多属性识别方法、装置、存储介质及电子设备 | |
Wang et al. | Combining multiple deep cues for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20231201 |