CN102402612A

CN102402612A - 一种视频语义网关

Info

Publication number: CN102402612A
Application number: CN2011104288283A
Authority: CN
Inventors: 江枚元
Original assignee: GuangZhou ZhongChangKangDa Information Technology Co Ltd
Current assignee: GuangZhou ZhongChangKangDa Information Technology Co Ltd
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2012-04-04

Abstract

本发明提供一种视频语义网关，包括：通过对视频内容的低层信息分析、理解、获取感觉语义、结构语义、概念语义这三层语义信息，分层研究，逐步完善，构造一种基于三层语义的视频检索模型，并将该检索模型在视频网关上实现。通过视频语义网关，能够实现在网络上和视频库中的基于内容的检索，而不需要资源提供者提供基于内容语义的检索接口。本发明能够提高视频分析的可靠性和视频检索的速度和效率。

Description

一种视频语义网关

技术领域

本发明涉及视频和安防监控领域，具体涉及视频分析、存储和检索。

背景技术

视频监控系统的主要功能是对各种现场实况进行监视。它使管理人员在控制室中能观察到所有重要地点的情况，如在出入口、主要通道、车库等重要场所安装摄像机，将监测区的情况以图像方式实时传送到管理中心，值班人员通过电视墙可以随时了解这些重要场所的情况。

其中，视频监控系统需要实现如下要求：实施监控的部位包括站点内设备、电池、门、站点外部的出入通道等；监视及录像系统要做到“看得清、记得住”，即监控及录像回放图象清晰，所监控部位特别是重点部位要做到24小时录像；控制系统要能对前端云台及镜头进行遥控，对图象进行自动或手动切换；室外监控点必须具备防拆、防破坏功能，并考虑防雷防风措施；具备报警联动、夜间灯光联动功能。报警时监控系统能自动切换到相关摄像点并使录像系统传入实时录像。

随着计算机网络和多媒体技术的发展，人们希望能方便地检索通过视频监控获取的视频内容，而不关心视频信息的格式和视频信息源。人们习惯使用高层语义概念判断相似性，但是现有的视频内容检索大多是非语义层面的。由于低层特征和高层语义概念之间存在“语义鸿沟(Semantic Gap)”，因此，目前还不能在同一个层面，通过视频网关实现网络上和视频库中的视频监控内容的有效检索。

发明内容

本发明通过对视频内容的低层信息分析、理解、获取其三层语义信息(感觉语义、结构语义、概念语义)，分层研究，逐步完善，试图构造一种基于三层语义的视频检索模型，将这种检索模型在视频网关上实现。通过视频语义网关，就能够实现在网络上和视频库中的基于内容的检索，而不需要资源提供者提供基于内容语义的检索接口。

为了实现上述目的，提供了一种视频语义网关，包括：

视频语义分析单元，建立语义索引池，对视频内容的低层信息进行分析理解，获取感觉语义、结构语义、概念语义三层语义信息，并对这三层语义信息进行分层研究和完善，构造基于这三层语义信息的视频检索模型，以建立合适的视频或视频片段的索引，并进行语义标注；

用户请求注册单元，将用户提交的内容数据检索申请，注册为语义请求；

客户请求包装单元，将用户请求注册单元所注册的语义请求进行包装，以转换为基于内容的语义信息；

对象访问适配单元，根据客户请求包装单元转换获得的语义信息，在语义索引池中进行检索适配，寻找合适的视频信息；

服务调用映射单元，基于语义请求信息，通过和对象访问适配单元交互，来进行语义请求服务调用；

SIP协议适配单元，基于SIP协议来进行用户检索请求消息发送。

其中，视频语义分析单元在对视频内容的低层信息进行分析理解，获取感觉语义、结构语义、概念语义三层语义信息时，将相关语义信息定义为六元组，即：VS＝{C，A，R，I，H，M}，

其中C表示概念集合，A表示概念的属性集合，R表示概念之间的非层次二元关系集合，I代表C中各概念的实例集，H为表示概念层次关系的二元偏序关系集合，M表示公理集合，用于约束概念、关系、函数的一阶逻辑谓词集合。

在构造基于三层语义信息的视频检索模型时，采用正交不可分小波变换，取其逼近信息重建信息帧，用二值掩膜Mask图像方法从重建帧中构建基本背景，用非均匀噪声的多帧联合方法对基本背景进行去噪，并采用互信息检测相邻变化的状况。

感觉语义的研究包括颜色语义、纹理语义、形状语义、运动语义。颜色语义采用颜色空间变换，KNN聚类，直方图，颜色距离度量获取其语义；纹理语义采用频域特征、灰度共生矩阵、纹理基元，基元排列、纹理粒度、纹理方向获取基语义；形状语义采用CANNY边缘检测方法，通过自适应调整其高阈值和低阈值，获取最佳边缘，然后根据形状描述子的相似度比较获取形状语义；运动语义根据帧间相关性，作运动检测，获取目标运动的速度、轨迹和形迹，获取其运动语义。

结构语义的研究引入视觉知识，研究感觉语义之间的结构关系。

概念语义的研究从概念名称、特征属性、语义邻居三个方面对语义关系进行概念性描述。

对于非MPEG4和非MPEG7编码方案的视频信息，采用基于时域及其变换域的信息处理，获取视频信息的三层语义。

本发明实施例至少存在以下技术效果：

1)不需要资源提供者提供基于内容语义的检索接口，而直接通过视频语义网关进行网络上视频库中的基于内容的检索；

2)提高视频分析的可靠性和视频检索的速度和效率。

附图说明

图1为本发明的视频语义网关体系结构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对具体实施例进行详细描述。

图1为本发明实施例提供的视频语义网关体系结构，该视频语义网关包括：

其中，在视频背景的动态建模时，采用正交不可分小波变换，取其逼近信息重建信息帧，重建帧中滤去了扰动、阴影和噪声，用二值掩膜Mask图像方法从重建帧中构建基本背景，用非均匀噪声的多帧联合方法对基本背景进行去噪，采用互信息检测相邻变化的状况，如果背景是渐变，则可以采用多个背景建模图像随时间的加权叠加的方法更新背景。如果背景变化大或者突变，从此帧开始，背景重新建模。

在进行视频语义分析时，将相关语义信息定义为六元组VS，即：VS＝{C，A，R，I，H，M}，其中C表示概念集合，A表示概念的属性集合，R表示概念之间的非层次二元关系集合，I代表C中各概念的实例集，H为表示概念层次关系的二元偏序关系集合，M表示公理集合，用于约束概念、关系、函数的一阶逻辑谓词集合。

语义桥是源视频内容与目标内容间实体的相似度，定义了消除对应两实体间语义不匹配的转化规则。建立语义桥的目标是维护和利用已经存在映射。语义桥分为概念语义桥与属性语义桥。语义C₁，C₂的语义桥可定义为四元组B＝{R，C₁，C₂，Sim(C₁，C₂)}。其中：R表示语义C₁，C₂之间的关系，如∈，

≈。Sim(C₁，C₂)为语义桥的信任度。如果语义C₁，C₂存在语义桥，那么他们的属性间存在属性语义桥，由四元组{C₁，C₂，A₁，A₂}表示。以此，可建立属性与语义之间的映射。

将视频语义分为三层：感觉语义、结构语义、概念语义。感觉语义的研究：①颜色语义采用颜色空间变换，KNN聚类，直方图，颜色距离度量等获取其语义。②纹理语义采用频域特征、灰度共生矩阵、纹理基元，基元排列、纹理粒度、纹理方向等方法获取基语义。③形状语义采用CANNY边缘检测方法，通过自适应调整其高阈值和低阈值，获取最佳边缘，然后根据形状描述子的相似度比较获取形状语义。④运动语义可以根据帧间相关性，作运动检测，获取目标运动的速度、轨迹和形迹，获取其运动语义。结构语义的研究引入视觉知识，研究感觉语义之间的结构关系，简化复杂的算法，提高算法效率。概念语义的研究从概念名称、特征属性、语义邻居三个方面对语义关系进行概念性描述。

在进行视频检索时，当视频语义网关接收到基于内容语义的检索申请时，对于非MPEG4和非MPEG7编码方案的视频信息采用基于时域及其变换域的信息处理，获取视频信息的三层语义，在语义级进行相似度比较，符合要求的内容将该数据包的备份存放在VG-buffer中，并向用户发送该数据包，当用户返回真实应答(RealAck)，表示发送成功，否则，视频语义网关将重传丢失的数据包。若用户请求池还有相同的请求，转发该数据包，否则，删除该数据包。

在网关建立基于内容语义的视频或视频片断索引，并能动态更新。根据语义请求，网关在实现基于内容语义后，在索引池中建立视频或视频片断的索引，并标注其语义，便于下次的快速检索，因此，检索的次数越多，索引池的索引越多，检索的速度会越来越快，因为，到后来基于视频内容的语义检索变成了在索引池中的标注检索。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频语义网关，包括：

服务调用映射单元，基于语义请求信息，通过和对象访问适配单元交互，来进行语义请求服务调用。

2.根据权利要求1所述的视频语义网关，其特征在于，还包括SIP协议适配单元，基于SIP协议来进行用户检索请求消息发送。

3.根据权利要求1所述的视频语义网关，其特征在于，视频语义分析单元在对视频内容的低层信息进行分析理解，获取感觉语义、结构语义、概念语义三层语义信息时，将相关语义信息定义为六元组，即：

VS＝{C，A，R，I，H，M}，

4.根据权利要求1所述的视频语义网关，其特征在于，在构造基于三层语义信息的视频检索模型时，采用正交不可分小波变换，取其逼近信息重建信息帧，用二值掩膜Mask图像方法从重建帧中构建基本背景，用非均匀噪声的多帧联合方法对基本背景进行去噪，并采用互信息检测相邻变化的状况。

5.根据权利要求1所述的视频语义网关，其特征在于，感觉语义的研究包括颜色语义、纹理语义、形状语义、运动语义。

6.根据权利要求5所述的视频语义网关，其特征在于，颜色语义采用颜色空间变换，KNN聚类，直方图，颜色距离度量获取其语义；纹理语义采用频域特征、灰度共生矩阵、纹理基元，基元排列、纹理粒度、纹理方向获取其语义；形状语义采用CANNY边缘检测方法，通过自适应调整其高阈值和低阈值，获取最佳边缘，然后根据形状描述子的相似度比较获取形状语义；运动语义根据帧间相关性，作运动检测，获取目标运动的速度、轨迹和形迹，获取其运动语义。

7.根据权利要求1所述的视频语义网关，其特征在于，结构语义的研究引入视觉知识，研究感觉语义之间的结构关系。

8.根据权利要求1所述的视频语义网关，其特征在于，概念语义的研究从概念名称、特征属性、语义邻居三个方面对语义关系进行概念性描述。

9.根据权利要求1所述的视频语义网关，其特征在于，对于非MPEG4和非MPEG7编码方案的视频信息采用基于时域及其变换域的信息处理，获取视频信息的三层语义。