CN102999640A

CN102999640A - 基于语义推理和结构化描述的视频与图像检索系统及方法

Info

Publication number: CN102999640A
Application number: CN2013100068974A
Authority: CN
Inventors: 李逸; 胡传平; 梅林�
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2013-01-09
Filing date: 2013-01-09
Publication date: 2013-03-27
Anticipated expiration: 2033-01-09
Also published as: CN102999640B

Abstract

本发明涉及一种基于语义推理和结构化描述的视频与图像检索系统及方法，属于计算机应用技术领域。该系统包括采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块、输入输出模块和中心控制模块。该方法中，先利用结构化描述模块对视频及图像进行结构化描述提取，再对描述结果进行语义匹配和推理，最后在匹配和推理结果集中检索得到与检索关键词具有语义相似性的视频结果集。从而有效避免了检索结果对于视频文字标题的过度依赖，加强了检索结果与视频内容本身的关联性，大幅提高了视频检索效率，且本发明的基于语义推理和结构化描述的视频与图像检索系统及方法的实现方式简单，实现成本低廉，应用范围也较为广泛。

Description

基于语义推理和结构化描述的视频与图像检索系统及方法

技术领域

本发明涉及计算机应用技术领域，特别涉及视频图像检索技术领域，具体是指一种基于语义推理和结构化描述的视频与图像检索系统及方法。

背景技术

智能交通系统是未来交通系统的重要发展方向，其中建立交通视频的监控可以有效地协助交通警察准确地掌握所有监控路口、路段周围的车辆、行人的流量、交通治安情况等。除此之外，交通警察还可以通过查询交通监控录像，还原大型事故现场，以便将突发事件或恶性事故变得可控。但是由于视频监控的高清摄像系统记录的是各交通路口全天的所有车辆流通信息，由此可见保存下来的视频数据量将会非常庞大，这将导致交通警察需要花费大量的时间和精力来查询视频中的某一特定信息时，效率非常低。

目前最常用的视频检索和查询方法是基于文本关键词检索。基于内容的文本关键词检索方法，是通过对视频进行智能分析，获取到一些有用的语义信息，然后根据这些分析结果来进行查询。比较常用的智能视频分析方法有：运动检测、纹理分类等，但是针对交通视频的检索，这种视频分析方法过于单一和片面，很难满足实际应用需求中针对特定视频/图像的检索。

经过对现有技术的检索发现，中国专利文献号CN102521321A公开了一种基于检索词歧义性和用户偏好的视频检索方法，此专利提出根据检索对应的点击记录生成检索词对应的歧义性描述信息，生成本次检索会话中用户的短期偏好描述信息及长期偏好描述信息，并将短期偏好描述信息及长期偏好描述信息拟合成用户偏好描述信息，根据用户选定的视频更新用户的短期偏好描述信息和长期偏好描述信息。

中国专利文献号CN102508893A公开了一种视频多媒体检索服务应用和检索方法，用户使用电视机、计算机或者移动终端访问视频多媒体检索与服务应用平台，通过单位或个人的视频号或分类查询检索平台后端的视频多媒体数据库，取得相关的单位或个人信息，从而进行相关的活动。

在已有的研究中，前者主要针对根据用户的长、短期偏好调整检索策略，后者通过视频号或分类查询检索平台取得相关的信息。虽然利用用户的检索偏好和视频号能一定程度地提高视频的检索效率，但是通过关键词检索得到的视频结果集有时会过于依赖于视频的标题和文字描述，但是视频的标题和文字描述有时候是不精确和不完整的。

发明内容

本发明的目的是克服了上述现有技术中的缺点，提供一种系统及方法先对即将存储入库的视频及图像进行结构化描述提取，再对描述结果进行语义匹配和推理，最后在匹配和推理结果集中进行数据挖掘，检索得到与检索关键词具有语义相似性的视频结果集，从而避免检索结果对于视频文字标题内容的过度依赖，加强检索结果与视频内容本身的关联性，提高视频检索效率，且实现方式简单，实现成本低廉，应用范围也较为广泛的基于语义推理和结构化描述的视频与图像检索系统及方法。

为了实现上述的目的，本发明的基于语义推理和结构化描述的视频与图像检索系统包括：采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块、输入输出模块和中心控制模块。

其中，采集模块用以从系统外部设备获得视频和图像信息，并将视频和图像信息进行格式处理后存储；结构化描述模块用以提取所述的视频和图像信息的结构化描述内容，产生关于视频和图像的结构化描述数据；语义匹配和推理模块用以根据自带的相关领域的知识库对所述的关于视频和图像的结构化描述数据分别进行语义匹配和语义推理，获得相应的匹配结果集和推理结果集；索引模块用以根据所述的关于视频和图像的结构化描述数据以及匹配结果集和推理结果集生成关于所述的视频和图像的索引信息；检索模块用以根据用户设定的关键词检索所述的索引信息，并将检索获得的与所述的关键词相关的视频和图像信息生成检索结果；输入输出模块用以提供用户关键词输入端，并向用户返回所述的检索结果；中心控制模块连接所述的采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块和输入输出模块，用以向所述各模块发送任务指令，调度各模块的运行。

该基于语义推理和结构化描述的视频与图像检索系统中，所述的结构化描述模块包括顺序连接的语义关系单元、时空分割单元、特征提取单元和对象识别单元，用以产生人和计算机系统可识别的关于视频和图像的多层次结构化描述信息。

该基于语义推理和结构化描述的视频与图像检索系统中，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的关键词扩展集合数据库存储基于用户提供的关键词通过推理和匹配获得的关键词扩展集合；所述的语义匹配单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义匹配获得匹配结果集；所述的语义推理单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义推理获得推理结果集。

本发明还提供一种利用所述的系统实现基于语义推理和结构化描述的视频与图像检索的方法，该方法包括以下步骤：

（201）所述的采集模块从系统外部的互联网、局域网或摄像机获得视频和图像信息，对所述的视频和图像信息进行格式处理后存储；

（202）所述的结构化描述模块提取所述的视频和图像信息的结构化描述内容，产生关于视频和图像的结构化描述数据；

（203）所述的语义匹配和推理模块根据相关领域知识库对所述的关于视频和图像的结构化描述数据分别进行语义匹配和语义推理，获得相应的匹配结果集和推理结果集；

（204）所述的索引模块，用以根据所述的关于视频和图像的结构化描述数据以及匹配结果集和推理结果集建立关于所述的视频和图像的索引；

（205）根据用户通过所述的输入输出模块的输入，所述的检索模块获得关键词；

（206）所述的检索模块根据用户设定的关键词检索所述的索引，并将检索获得的与所述的关键词相关的视频和图像信息生成检索结果；

（207）所述的输入输出模块显示所述的检索结果。

该实现基于语义推理和结构化描述的视频与图像检索的方法中，所述的结构化描述模块包括顺序连接的语义关系单元、时空分割单元、特征提取单元和对象识别单元，所述的步骤（202）具体包括以下步骤：

（301）所述的语义关系单元确定所述的视频和图像信息中的对象的含义；

（302）所述的时空分割单元，根据所述的对象含义从所述的视频和图像信息中分离出有意义的对象，所述的有意义的对象包括语义级别的对象形状信息和对象纹理信息；

（303）所述的特征提取单元根据视频和图像信息的颜色特征和空间特征提取特征内容；

（304）所述的对象识别单元根据已知训练对象集合对未知对象进行识别和分类；

（305）根据上述的时空分割、特征提取和对象识别的结果，生成所述的关于视频和图像的多层次结构化描述数据。

该实现基于语义推理和结构化描述的视频与图像检索的方法中，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的步骤（203）具体包括以下步骤：

（401）所述的语义推理单元根据预设的本领域推理规则，对所述的结构化描述结果进行推理，得到推理结果集；

（402）所述语义推理单元根据所述的推理结果集和关键词扩展集合，计算两个集合中对象的语义距离，判断是否与某个领域特定关键词具有语义相似性；

（403）所述的语义匹配单元根据预设的本领域匹配规则，对所述的结构化描述结果进行匹配，得到匹配结果集；

（404）计算检索词与所述的匹配结果集和推理结果集中的关键词之间的语义距离。

该实现基于语义推理和结构化描述的视频与图像检索的方法中，所述的步骤（402）具体包括以下步骤：

（402-1）分别将所述的推理结果集和关键词扩展集合的两个关键词表示为两个结点p和q；

（402-2）从所述的两个结点p和q公共祖先结点开始依次访问它本身、左子树和右子树，当其中含有p或q结点，就计数加1；

（402-3）当访问结束后，标记为2的当前结点为同时包含p和q结点，则该当前结点是目标的最近公共结点；

（402-4）将所述的推理结果集和关键词扩展集合的两个关键词p和q结点与所述的最近公共节点距离的和作为其语义距离；

（402-5）根据所述的语义距离计算检索词与索引关键词之间的相似度，并按照相似度由高到低进行排序。

采用了该发明的基于语义推理和结构化描述的视频与图像检索系统及方法，其系统包括采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块、输入输出模块和中心控制模块。其方法中，先利用结构化描述模块对视频及图像进行结构化描述提取，再利用语义匹配和推理模块对描述结果进行语义匹配和推理，最后在匹配和推理结果集中进行数据挖掘，检索得到与检索关键词具有语义相似性的视频结果集。从而有效避免了检索结果对于视频文字标题内容的过度依赖，加强了检索结果与视频内容本身的关联性，大幅提高了视频检索效率，且本发明的基于语义推理和结构化描述的视频与图像检索系统及方法，其实现方式简单，实现成本低廉，应用范围也较为广泛。

附图说明

图1为本发明的基于语义推理和结构化描述的视频与图像检索系统的结构示意图。

图2为本发明的基于语义推理和结构化描述的视频与图像检索方法的流程示意图。

图3为本发明的基于语义推理和结构化描述的视频与图像检索方法中视频结构化描述流程示意图。

图4为本发明的基于语义推理和结构化描述的视频与图像检索方法中基于视频和图像的语义匹配和推理的流程示意图。

图5为将本发明的基于语义推理和结构化描述的视频与图像检索方法应用于交通视频检索的时序图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明的基于语义推理和结构化描述的视频与图像检索系统的结构示意图。

在一种实施方式中，该基于语义推理和结构化描述的视频与图像检索系统包括采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块、输入输出模块和中心控制模块。其中，采集模块用以从系统外部设备获得视频和图像信息，并将视频和图像信息进行格式处理后存储；结构化描述模块用以提取所述的视频和图像信息的结构化描述内容，产生关于视频和图像的结构化描述数据；语义匹配和推理模块用以根据自带的相关领域的知识库对所述的关于视频和图像的结构化描述数据分别进行语义匹配和语义推理，获得相应的匹配结果集和推理结果集；索引模块用以根据所述的关于视频和图像的结构化描述数据以及匹配结果集和推理结果集生成关于所述的视频和图像的索引信息；检索模块用以根据用户设定的关键词检索所述的索引信息，并将检索获得的与所述的关键词相关的视频和图像信息生成检索结果；输入输出模块用以提供用户关键词输入端，并向用户返回所述的检索结果；中心控制模块连接所述的采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块和输入输出模块，用以向所述各模块发送任务指令，调度各模块的运行。

利用该实施方式所述的系统实现基于语义推理和结构化描述的视频与图像检索的方法包括以下步骤：

（207）所述的输入输出模块显示所述的检索结果。

在一种较优选的实施方式中，所述的结构化描述模块包括顺序连接的语义关系单元、时空分割单元、特征提取单元和对象识别单元，用以产生人和计算机系统可识别的关于视频和图像的多层次结构化描述信息。

在利用该较优选的实施方式所述的系统实现基于语义推理和结构化描述的视频与图像检索的方法中，所述的步骤（202）具体包括以下步骤：

在一种进一步优选的实施方式中，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的关键词扩展集合数据库存储基于用户提供的关键词通过推理和匹配获得的关键词扩展集合；所述的语义匹配单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义匹配获得匹配结果集；所述的语义推理单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义推理获得推理结果集。

在利用该进一步优选的实施方式所述的系统实现基于语义推理和结构化描述的视频与图像检索的方法中，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的步骤（203）具体包括以下步骤：

在一种更优选的实施方式中，所述的步骤（402）具体包括以下步骤：

在实际应用中，本发明提供的视频与图像检索系统首先从因特网/局域网和视频/图像数据库中采集视频和图像数据，并同时进行模数转换的格式处理；再针对视频/图像数据进行结构化描述特征的提取，并在此基础上对描述特征进行语义匹配和推理，建立匹配和推理集与检索关键词之间的索引关系。

图1示意了本发明实现的视频检索系统原理图，包括视频/图像采集模块103、视频/图像结构化描述模块104、语义匹配和推理模块105、视频/图像索引模块106、视频/图像检索模块107和中心控制模块110；其中，用户通过视频/图像检索模块与视频检索系统进行交互，视频/图像检索模块可以接收用户提交的检索请求或输出检索结果；中心控制模块具有设置、调节视频/图像结构化描述模块和语义匹配和推理模块中参数的功能。

图2示意了本发明实施例的流程图，主要包括如下步骤。

步骤201，视频过滤系统接受来自互联网、局域网或高清摄像机监控的视频/图像数据发送请求。

步骤202，视频检索系统通过视频结构化描述技术提取出视频的结构化特征内容。

步骤203，设定本领域的本体知识库和推理规则，标准本体知识库中保存该领域内的本体知识集合，为语义匹配单元和语义推理单元提供语义匹配和推理规则；利用这些规则对描述结果进行匹配和推理，得到匹配和推理结果集。

步骤204，根据推理结果集和匹配结果集，建立视频/图像的索引。

步骤205和206，根据语义距离计算方法，假设待求的两个关键词可以表示为两个结点（p和q），它们的公共祖先结点有如下的性质：公共祖先结点本身及其左右子树中必有p和q结点。于是从头结点开始依次访问它本身、左子树和右子树，其中含有p或q结点，就让计数符号加1。当访问结束后发现标记为2时，则说明当前结点以下同时包含p和q结点，即当前结点是目标的最近公共结点，则两个关键词的语义距离即p和q结点分别到最近公共结点的总和。计算检索词与索引关键词之间的相似度，并按照相似度的高低进行排序。

步骤207，返回符合语义相似性并按照语义距离排序的视频/图像的检索结果。

图3示意了本发明中视频结构化描述的实施例的流程图，主要包括如下步骤。

步骤301，系统接受来自互联网、局域网或高清摄像机监控的视频/图像数据发送的请求。

步骤302，时空分割是指系统从视频序列中分离有意义的对象，每个视频对象平面包含语义级别视频对象的形状和纹理信息。根据分割方法的不同，分割算法可以分为：空域分割算法和时域分割算法两种。空域分割是运用分水岭算法得到不同区域的边界；时域分割是利用时域变化检测来分隔视频对象，运动对象的位置和形状通过帧差法和减背景法得到。

步骤303，特征提取是指根据颜色特征和空间特征，来表示视频帧的特征内容。

步骤304，对象识别是指依据统计模式识别的方法，即在已知训练对象集合的基础上设计识别和分类算法，从而对未知对象进行识别分类。

步骤305，根据上述的时空分割、特征提取和对象识别，得出视频/图像的多层次结构化描述结果。

图4示意了本发明中基于视频/图像的语义匹配和推理模块实施例的流程图，主要包括如下步骤。

步骤401，根据设定的本领域的推理规则，对视频的结构化描述结果进行推理，得到推理结果集；

步骤402，根据推理结果集和设定的领域特定关键词（敏感词）集，通过计算两个集合中对象的语义距离，得出是否与某个领域特定关键词具有语义相似性；

步骤403，计算检索词与得到的语义匹配和推理结果集中的关键词之间的语义距离。

图5示意了视频检索系统中视频A、图像B在基于语义推理和结构化描述的交通视频检索系统中的时序图。

步骤501，基于语义推理和结构化描述的交通视频检索方法在接收到视频A或图像B的数据传输请求之后，与网络传输机建立传输连接，接收视频A或图像B的数据；

步骤502，将接收到的视频/图像数据进行数据的预处理，实现数据格式的统一；

步骤503和504，采集/模数转换模块对视频输入模块传入的视频/图像信号进行智能分析处理，如果输入的是模拟信号，则进行模数转换；

步骤505，结构化描述模块对采集/模数转换模块传入的视频/图像信号进行智能分析处理，把视频/图像信号分成若干个视频图像片段，关键帧和子区域；对视频图像片段、关键帧和子区域进行特征提取和高级语义分析处理，获得视频/图像的特征和高级语义数据，并将数据输入到视频结构化描述数据库中；

步骤506，结构化描述模块将视频帧和图像帧的结构化描述结果发送给语义匹配和推理模块；

步骤507，语义匹配和推理模块对视频结构化描述结果集中的关键词，进行本领域的匹配和推理，得到匹配和推理的结果集；

步骤508，语义匹配和推理模块向索引模块发送匹配和推理结果；

步骤509，索引模块根据关键词的匹配和推理结果建立基于本体关键词的索引关系；

步骤510，结果显示模块根据检索请求返回、显示相应的检索结果。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于语义推理和结构化描述的视频与图像检索系统，其特征在于，所述的系统包括：

采集模块，用以从系统外部设备获得视频和图像信息，并将视频和图像信息进行格式处理后存储；

结构化描述模块，用以提取所述的视频和图像信息的结构化描述内容，产生关于视频和图像的结构化描述数据；

语义匹配和推理模块，用以根据自带的相关领域的知识库对所述的关于视频和图像的结构化描述数据分别进行语义匹配和语义推理，获得相应的匹配结果集和推理结果集；

索引模块，用以根据所述的关于视频和图像的结构化描述数据以及匹配结果集和推理结果集生成关于所述的视频和图像的索引信息；

检索模块，用以根据用户设定的关键词检索所述的索引信息，并将检索获得的与所述的关键词相关的视频和图像信息生成检索结果；

输入输出模块，用以提供用户关键词输入端，并向用户返回所述的检索结果；

中心控制模块，连接所述的采集模块、结构化描述模块、语义匹配和推理模块、索引模块、检索模块和输入输出模块，用以向所述各模块发送任务指令，调度各模块的运行。

2.根据权利要求1所述的基于语义推理和结构化描述的视频与图像检索系统，其特征在于，所述的结构化描述模块包括顺序连接的语义关系单元、时空分割单元、特征提取单元和对象识别单元，用以产生人和计算机系统可识别的关于视频和图像的多层次结构化描述信息。

3.根据权利要求1所述的基于语义推理和结构化描述的视频与图像检索系统，其特征在于，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的关键词扩展集合数据库存储基于用户提供的关键词通过推理和匹配获得的关键词扩展集合；所述的语义匹配单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义匹配获得匹配结果集；所述的语义推理单元根据相关领域知识库存储的数据和所述的关键词扩展集合对所述的视频和图像的结构化描述数据进行语义推理获得推理结果集。

4.一种利用权利要求1所述的系统实现基于语义推理和结构化描述的视频与图像检索的方法，其特征在于，所述的方法包括以下步骤：

（207）所述的输入输出模块显示所述的检索结果。

5.根据权利要求4所述的实现基于语义推理和结构化描述的视频与图像检索的方法，其特征在于，所述的结构化描述模块包括顺序连接的语义关系单元、时空分割单元、特征提取单元和对象识别单元，所述的步骤（202）具体包括以下步骤：

6.根据权利要求5所述的实现基于语义推理和结构化描述的视频与图像检索的方法，其特征在于，所述的语义匹配和推理模块包括语义匹配单元、语义推理单元、相关领域知识库和关键词扩展集合数据库，所述的步骤（203）具体包括以下步骤：

7.根据权利要求6所述的实现基于语义推理和结构化描述的视频与图像检索的方法，其特征在于，所述的步骤（402）具体包括以下步骤：