CN103778443A

CN103778443A - 基于主题模型方法和领域规则库实现场景分析描述的方法

Info

Publication number: CN103778443A
Application number: CN201410057882.5A
Authority: CN
Inventors: 何莹; 王建; 谭懿先; 梅林�; 吴轶轩; 杜欢; 尚岩峰; 王文斐; 钟雪霞
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2014-02-20
Filing date: 2014-02-20
Publication date: 2014-05-07
Anticipated expiration: 2034-02-20
Also published as: CN103778443B

Abstract

本发明涉及一种基于主题模型方法和领域规则库实现场景分析描述的方法，其中包括获取训练视频图像并采用对象分类器进行训练得到滴状对象容器和纹理对象容器；将滴状对象容器和纹理对象容器进行融合并进行分析得到语义主题模型；获取测试视频图像并根据语义主题模型对测试视频图像进行场景分类得到场景分类结果；根据语义主题模型的场景分类结果和基于先验知识建立的领域规则库对测试视频图像进行场景语义理解描述。采用该种基于主题模型方法和领域规则库实现场景分析描述的方法，基于主题模型对场景进行分类的基础上引入领域规则库对场景进行潜在语义信息的挖掘，具有良好的目的导向性和扩展性，简单有效，适用于大规模推广应用。

Description

基于主题模型方法和领域规则库实现场景分析描述的方法

技术领域

本发明涉及计算机视觉分析与智能理解技术领域，尤其涉及基于主题模型方法和领域规则库对图像场景进行描述和高层理解领域，具体是指一种基于主题模型方法和领域规则库实现场景分析描述的方法。

背景技术

场景分类作为计算机视觉领域中图像分析理解技术的重要组成部分，其目标在于基于输入图像得到符合人类普遍认知的宏观语义信息。图像分类即是建立底层视觉特征（如颜色、边缘、纹理等）与高层语义概念之间的联系，最终得到场景的类别描述信息，如森林、海岸、篮球场等。目前，常见的场景分类方法有两种，分别为基于图像底层特征的方法和通过构建中间语义层的方法。所谓基于图像底层特征的方法，是利用图像的底层特征，如颜色、纹理和边缘特征等，将图像作为一个整体，应用监督学习方法，对场景进行分类，如室内/室外、森林/街道等场景图像，然而，该类方法只能对小部分的场景进行分类，有一定的局限性。此外，该类方法存在的另外一个主要问题为，底层物理特征通常只能反映图像在物理感知层面的特点，而非人们所关注的认知层面的理解。第二种方法通过构建中间语义层，能够实现更多场景类别的识别，如引入文本分析中的概率隐含语义分析模型，建立图像模型。然而这类方法仅仅是对场景进行了分类，没有涉及到对场景的分析，以及兴趣度事件的挖掘，而本发明即是在另外一种主题模型方法狄利克雷分布的基础上，引入领域知识库，除了进行场景分类外，亦对场景中存在的典型兴趣度事件进行挖掘。从对视觉理解的角度看，场景的分析和描述和场景中包含的对象有着极大的关系，如场景中存在人、足球、网，则最有可能的场景是足球场。

吴玲达等在其申请的发明专利“一种基于区域潜在语义特征的自然场景图像分类方法”[200810031577.3]中公开了一种基于区域潜在语义特征的自然场景分类方法。利用图像的区域潜在语义信息和该信息在空间的分布规律来进行自然场景图像分类。提出的方法引入了区域潜在语义特征，不仅描述了图像分块的区域信息，而且还对分块在空间的分布信息进行了描述，该方法可以得到较高的准确率，且不需要人工标注，自动化程度高。

戴琼海等在其申请的发明专利“基于谱图聚类分析的图像集合的场景分类方法及装置”[201110221407.3]中公开了一种基于谱图分析的图像结合的场景分类方法及装置，该方法通过交互时间确定的隶属度更加精确，避免非线性数据的丢失，进而提高分类结果的准确性，同时，该发明的装置结构简单，易于实现。

金标等在其申请的发明专利“一种基于目标及其空间关系特性的图像场景分类方法”[201110214985.4]中公开了一种基于目标及其空间关系特性的图像场景分类方法，通过计算图像中目标之间的空间关系直方图，分类其空间关系，建立融合主题之间空间关系特性的概率隐含语义分析模型，最后，采用支持向量机方法对场景进行分类。该方法弥补了现有图像场景分类方法忽视图像中目标之间空间关系特性的缺陷，有效地提高了分类准确率。

综上可知，上述专利均从场景分类角度对图像进行了处理，对于图像中存在的对象和图像表述含义之间的关系未进行关注，对图像所蕴含潜在的语义信息未能进行深度及有效挖掘。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够实现基于主题模型对场景进行分类的基础上引入领域规则库对场景进行潜在语义信息的挖掘、对兴趣度事件进行挖掘描述、具有良好的目的导向性和扩展性、简单有效、适用于大规模推广应用的基于主题模型方法和领域规则库实现场景分析描述的方法。

为了实现上述目的，本发明的基于主题模型方法和领域规则库实现场景分析描述的方法具有如下构成：

该基于主题模型方法和领域规则库实现场景分析描述的方法，其主要特点是，所述的方法包括以下步骤：

（1）获取训练视频图像并采用对象分类器对训练视频图像进行训练得到滴状对象容器和纹理对象容器；

（2）将所述的滴状对象容器和纹理对象容器进行融合并对融合的对象容器进行分析得到语义主题模型；

（3）获取测试视频图像并根据所述的语义主题模型对所述的测试视频图像进行场景分类得到场景分类结果；

（4）根据所述的语义主题模型的场景分类结果和基于先验知识建立的领域规则库对所述的测试视频图像进行场景语义理解描述。

较佳地，所述的采用对象分类器对训练视频图像进行训练得到滴状对象容器和纹理对象容器，包括以下步骤：

（11）对所述的训练视频图像采用尺度不变特征转换特征提取方法进行处理得到特征矩阵；

（12）在特征矩阵上采用支持向量机方法进行训练得到滴状对象容器，采用纹理分类方法训练得到纹理对象容器。

更佳地，所述的特征矩阵的行表示不同帧的训练视频图像，所述的特征矩阵的列表示尺寸不变特征转换特征信息。

较佳地，所述的将所述的滴状对象容器和纹理对象容器进行融合，具体为：

将所述的滴状对象容器和纹理对象容器中所有的类标签放在一起形成融合的对象容器。

较佳地，所述的对融合的对象容器进行分析得到语义主题模型，具体为：

对融合的对象容器采用隐含狄利克雷方法进行分析得到语义主题模型。

较佳地，所述的获取测试视频图像并根据所述的语义主题模型对所述的测试视频图像进行场景分类得到场景分类结果，包括以下步骤：

（31）获取测试视频图像并采用对象分类器对测试视频图像进行训练得到测试滴状对象容器和测试纹理对象容器；

（32）将所述的测试滴状对象容器和测试纹理对象容器进行融合得到融合的测试对象容器；

（33）根据所述的语义主题模型和融合的测试对象容器对所述的测试视频图像进行场景分类得到场景分类结果。

较佳地，所述的根据所述的语义主题模型的场景分类结果和基于先验知识建立的领域规则库对所述的测试视频图像进行场景语义理解描述，包括以下步骤：

（41）基于先验知识建立领域规则库，所述的领域规则库包含对领域内感兴趣事件的规则描述；

（42）根据所述的场景分类结果和领域规则库，采用规则推理方法得到所述的测试视频图像的场景语义理解描述。

更佳地，所述的采用规则推理方法得到所述的测试视频图像的场景语义理解描述，包括以下步骤：

（421）对场景中存在的事件进行挖掘输出场景的结构化描述结果；

（422）采用自定义的输出形式对场景进行描述。

采用了该发明中的基于主题模型方法和领域规则库实现场景分析描述的方法，具有如下有益效果：

（1）本发明在基于主题模型对场景进行分类的基础上，引入领域规则库对场景进行潜在语义信息的挖掘，对兴趣度事件进行描述，和以往的基于底层特征的场景分类方法相比，该方法采用基于主题模型的方法，将对象作为特征输入，基于高层语义对场景进行分类，更加准确，包含含义也更丰富。因为主题模型是非监督的方法，输出的单纯是场景的分类结果，无法对场景携带的丰富信息进行结构化分析和描述，为此，引入了基于先验知识的规则知识库对其进行进一步完善，输出结构化的场景描述结果。因此，本发明专利的方法不仅可以对潜在语义信息进行挖掘，同时，因为基于领域规则库对兴趣度事件进行挖掘，有很好的目的导向性和扩展性。

（2）本发明的方法将监督学习的先验知识和非监督学习的主题模型方法结合起来，将主题模型得到的场景分类结果和先验知识给出的场景分类信息规则进行综合，在领域规则库的基础上，给出更加准确的场景描述结果，和复杂的有监督的学习方法如隐马尔科夫模型方法相比，本发明的方法更加简洁且有效，是一种半监督的场景分类及描述方法。

（3）基于领域规则库进行场景分析，可以对视频图像中的兴趣度事件进行挖掘，规则的建立基于不同领域的先验知识，基于先验知识建立的规则库可以随着领域知识的扩展不断完善，从而可以提供愈来愈完善的场景描述，输出更加丰富的信息。本发明使用于从海量的视频图像中挖掘出感兴趣度图片和事件，以及对视频抽检时进行分类查看，有着广阔的发展前景，适用于大规模推广应用。

附图说明

图1为本发明的基于主题模型方法和领域规则库实现场景分析描述的方法的流程图。

图2为本发明的基于主题模型方法和领域规则库实现场景分析描述的方法应用于实施例的流程图。

图3为本发明的采用对象分类器对训练视频图像进行训练的示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的实施提供了一种新的基于主题模型方法和领域规则库的场景分析描述方法和系统，包括对象分类器生成、融合对象容器生成、场景分类和场景语义理解描述。在对象分类器生成阶段：首先对待训练学习的视频图像采用尺度不变特征转换（Scale-Invariant FeatureTransform，SIFT）特征提取方法进行处理，得到特征矩阵，然后，在特征矩阵上分别采用基于支持向量方法和纹理分类方法进行分类，得到不同的对象模板容器：滴状对象（如桌子、车、人等）和纹理对象（如天空、道路、沙滩等）。为了发现这些对象背后隐藏的语义信息，首先采用融合对象容器对这些不同类型的对象进行融合，然后采用语义主题模型方法得到场景分类结果。而在场景语义理解描述阶段，将先验知识引入来设计领域规则库，并基于语义主题模型的场景分类结果，来对场景进行高层分析描述，按照自定义输出形式输出最后的场景语义描述。

为了使本发明实现的技术手段、创新特征、达成目标与功能易于明白了解，下面结合具体图示，进一步阐述本发明。其中，本实施例选取的主题模型方法和图像特征不是本发明的限制范围，本发明可用于其他等效的实施例。

如图1、2所示，描述了基于主题模型方法和领域规则库的场景分析描述方法的总体流程图表示。图3描述了对象分类器的详细设计

本发明涉及的基于主题模型方法和领域规则库的场景分析描述方法，是通过以下技术方案实现的：

（1）获取输入的训练视频图像101，首先采用对象分类器102对其进行处理，而在对象分类器102中：

（1.1）首先采用尺度不变特征转换特征提取方法提取待训练的视频图像的SIFT特征集合，得到特征矩阵的描述，其中矩阵行代表了不同帧的视频图像，而列则代表了SIFT特征信息，列数为128维。

（1.2）在特征矩阵201上，分别采用支持向量机方法进行训练得到滴状对象容器202，采用纹理分类方法训练得到纹理对象容器203。其中，所谓的对象容器（滴状对象容器和纹理对象容器）指的是在容器中包含多个某类对象（如滴状对象）的类标签。

（2）在对象分类器容器C^滴状对象和C^纹理对象的基础上，将C^滴状对象和C^纹理对象进行融合，得到融合的对象容器105C^融合，其中C^融合=C^滴状对象∪C^纹理对象，即是将C^滴状对象和C^纹理对象中所有的类标签放在一起，作为最后的融合结果，其中“∪”代表集合的“并运算”。在C^融合上，采用隐含狄利克雷分布方法进行分析，得到语义主题模型106。

（3）在训练得到的语义主题模型106之上，既可以对视频图像进行场景分类，首先获取测试的视频测试图像103，并采用尺度不变特征转换特征提取方法提取其SIFT特征矩阵201D^测试，其中矩阵行代表了不同帧的视频图像，而列则代表了SIFT特征信息，列数为128维。

（4）在提取的SIFT特征矩阵201上，分别采用上述训练得到的支持向量机方法和纹理分类方法对滴状对象容器和纹理对象容器进行匹配识别分类，得到训练视频图像的所包含的对象模版容器104（包含有“室内”和“人”类对象）。

（5）在匹配得到的对象容器104中包含了滴状对象容器C^滴点测试和纹理对象容器C^纹理测试，将C^滴点测试和C^纹理测试进行融合：C^测试融合=C^滴点测试∪C^纹理测试，其中“∪”代表集合的“并运算”，得到融合的测试对象容器107C^测试融合，即可采用训练阶段得到的语义主题模型进行语义主题模型的匹配识别，得到场景的分类结果（室内）。

（6）基于先验知识108来完成领域规则库109的设计，在领域规则库中包含了对领域感兴趣的事件进行规则描述，此外，领域规则库可以随着先验知识的扩充，进行不断完善。领域规则库中包含了一系列的规则，这些规则是基于先验知识来设定的，它们的定义是根据特定的领域和面向实际应用需要而定的，有一定的导向性，因此，得到的也是领域和现实关注的有价值的信息，例如针对测试图片设定规则为：若场景中包含的人的对象个数超过一定数目，即定义为聚集事件，则在输出最终的场景描述中，除了输出当前的场景分类结果外，还将该场景中发生的该事件进行描述。

（7）在语义主题模型106和基于先验知识108建立的领域规则库109上，依据规则推理方法，即可得到视频图像的场景语义理解描述110，对其中存在的兴趣度事件进行描述，依据预先定义的来对感兴趣的信息进行挖掘。基于场景分类结果和对象组合容器，应用建立的领域规则库，进行场景中存在的事件挖掘，输出场景的结构化描述结果，采用自定义的输出形式来对场景进行描述，三元组形式为：（室内，有，人群）和（室内，出现，聚集事件），等价的自然语言表达为：当前室内场景有人群出现聚集事件。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的采用对象分类器对训练视频图像进行训练得到滴状对象容器和纹理对象容器，包括以下步骤：

3.根据权利要求2所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的特征矩阵的行表示不同帧的训练视频图像，所述的特征矩阵的列表示尺寸不变特征转换特征信息。

4.根据权利要求1所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的将所述的滴状对象容器和纹理对象容器进行融合，具体为：

5.根据权利要求1所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的对融合的对象容器进行分析得到语义主题模型，具体为：

6.根据权利要求1所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的获取测试视频图像并根据所述的语义主题模型对所述的测试视频图像进行场景分类得到场景分类结果，包括以下步骤：

7.根据权利要求1所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的根据所述的语义主题模型的场景分类结果和基于先验知识建立的领域规则库对所述的测试视频图像进行场景语义理解描述，包括以下步骤：

8.根据权利要求7所述的基于主题模型方法和领域规则库实现场景分析描述的方法，其特征在于，所述的采用规则推理方法得到所述的测试视频图像的场景语义理解描述，包括以下步骤：

（422）采用自定义的输出形式对场景进行描述。