CN114972884A

CN114972884A - 一种基于多模态事件本体的图像事件识别方法

Info

Publication number: CN114972884A
Application number: CN202210690851.8A
Authority: CN
Inventors: 刘炜; 何晴; 彭艳; 谢少荣; 方世忠; 褚晓波; 李晶; 翟杨; 赵荦; 杨天源
Original assignee: Shanghai Cultural Relics Protection Research Center; Shanghai Municipal Bureau Of Culture And Tourism Shanghai Radio And Television Bureau Shanghai Municipal Bureau Of Cultural Relics; University of Shanghai for Science and Technology
Current assignee: Shanghai Cultural Relics Protection Research Center; Shanghai Municipal Bureau Of Culture And Tourism Shanghai Radio And Television Bureau Shanghai Municipal Bureau Of Cultural Relics; University of Shanghai for Science and Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-08-30

Abstract

本发明公开了一种基于多模态事件本体的图像事件识别方法，包含以下步骤：图像关键词获取：使用多标签分类技术，获取输入图像信息中的重要关键词；筛选事件类集合：利用获取到的关键词，通过与事件类六元组表示结构中的要素信息进行文本匹配，在多模态事件本体模型中寻找匹配度最高的事件类集合；图像匹配：对所述筛选过的高匹配度的事件类集合中所有事件类的图像，将其与输入图像进行基于特征的匹配，选择得分最高的对应事件类，即为最终图像事件识别的结果。本发明可以使图像事件识别过程趋于结构化和标准化，从而提高事件识别的准确度。

Description

一种基于多模态事件本体的图像事件识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于多模态事件本体的图像事件识别方法。

背景技术

图像是人类理解世界的一个重要辅助工具。随着人工智能技术的快速发展，机器对图像的处理也不再仅局限于简单的分类任务，而是逐步聚焦于对图像信息的深层理解与应用。

事件是指在特定时间和环境下发生的、由若干角色参与的、表现出特定动作或状态变化的过程。将事件以“对象”、“动作”、“时间”、“环境”、“状态”、“语言表现”的六元组形式表示，可以得到事件的规范化描述。

图像事件识别主要是通过图像处理技术识别图像中所发生的事件，其目标是尽可能细致地描述该事件中的参与者(人或物)、环境信息以及事件类别等，这包括基于视觉的直观判断和基于常识的辅助推理过程。因此，在识别过程中，除了聚焦于图像的视觉特征之外，还应注重对其语义信息的理解。可以说，图像的目标分类和识别等技术都为语义理解服务。

事件类指由类型相同或相似的事件所构成的集合，是对多个事件的抽象总结。事件本体是指针对通用或特定领域的应用场景，将多种相关事件类进行筛选组合，并结合事件类关系以及一定的推理规则，所得到的一种可以覆盖所有场景的知识库。事件本体可以将海量的非结构化文本事件整合成一种趋于结构化的形式，使事件的表示形式更加清晰。

目前研究界开始考虑将多模态信息应用于图像的深度理解过程中。多模态技术是将文本、图像和语音等各种类型的信息结合起来的技术，各个模态互为补充，以提高机器的理解能力。

多模态事件本体即是将多模态思想融合到事件本体模型中，具体地，它使用由文本和图像共同构成的“多模态信息”作为事件(类)描述的其中一个要素。因此，在进行图片识别时，它不仅可以增强文本语义信息的补充，还可以使用视觉特征作为事件判断的额外辅助，由此提高事件识别技术的准确度，故需要一种基于多模态事件本体的图像事件识别方法。

发明内容

基于以上问题，本发明提出了一种基于多模态事件本体的图像事件识别方法，用于解决现有技术中识别图像事件时语义信息理解不足的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于多模态事件本体的图像事件识别方法，包含以下步骤：

图像关键词获取：使用多标签分类技术，获取输入图像的重要关键词；

筛选事件类集合：利用获取到的关键词，通过与事件类六元组表示结构中的要素信息进行文本匹配，在事件本体模型中寻找匹配度最高的事件类集合；

图像匹配：对所述筛选过的高匹配度的事件类集合中所有事件类的图像，将其与输入图像进行匹配，选择得分最高的对应事件类，即为最终图像事件识别的结果。

进一步地，所述的图像关键词获取步骤还包括：

图像区域提取：提取图像的重点区域，获得包含图像重点部分的若干子图，这些子图代表图像的主要信息；

多标签分类器：基于多标签分类技术，将所述区域提取技术中产生的子图分别进行处理，得到各区域子图对应的关键词集合；

关键词标注：对所述区域子图的关键词集合进行词性标注，并根据词性对关键词集合做新的划分。

更进一步地，在所述区域提取部分，采用Selective Search或者RPN(RegionProposal Network)技术获取图像的代表区域，并且使每个代表区域子图尽量只保留一项重点目标。

更进一步地，在多标签分类部分，让所述代表区域子图经过多标签分类CNN模型，得到该子图对应的关键词，每个子图产生的关键词放入不同集合中，生成图像关键词序列；另外需要根据分类汇总结果，产生对象总数等属性。

这里的多标签分类器采用基于假设的HCP(Hypotheses-CNN-Pooling)结构。

进一步地，筛选对应事件类集合步骤还包括：

要素匹配：根据已有的多模态事件本体模型，将获取到的图像关键词与之进行相应的事件要素匹配，筛选所需事件类集合；

外部知识补充：利用外部知识对要素匹配的结果进一步筛选。

更进一步地，在要素匹配部分中，需要借助语义相似度等文本匹配技术完成事件要素的匹配过程，产生匹配程度较高的事件类集合。

更进一步地，在外部知识补充部分中，需要根据语料库、语义词典或网络资源等，计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度，根据结果对事件类集合进行二次筛选。

进一步地，图像匹配步骤还包括：

特征提取：提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征；

基于特征匹配：分别计算输入图像与所有待筛选图像特征间的相似度，将相似度计算作为进行最终选择的得分函数，按照匹配结果进行排序，得分最高者即为该图像所属的事件类。

与现有技术相比，本发明的有益效果是：

使用多模态事件本体模型作为图像事件识别过程的补充信息，其中的结构化信息使信息匹配的过程更趋于标准化与结构化；使用语料库、知识库等作为要素匹配的辅助工具，降低了机器由于缺乏理解能力而匹配错误的概率；引用了多模态技术，充分结合了图像与文本所涵盖的信息，提升了图像识别过程的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本申请一种基于多模态事件本体的图像事件识别方法的步骤流程图；

图2是本申请一种基于多模态事件本体的图像事件识别方法的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1～2，本发明实施例中，一种基于多模态事件本体的图像事件识别方法，图1是根据本发明示出的步骤流程图，包括：步骤101～103，

步骤101为图像关键词获取步骤，即使用多标签分类技术，获取输入图像信息中的重要关键词；

在本申请中，所述步骤101具体可以包括如下子步骤：

子步骤S11为图像区域提取部分，采用Selective Search或者RPN(RegionProposal Network)技术获取图像的代表区域，获得包含图像重点部分的若干子图，这些子图代表图像的主要信息，并且使每个代表区域子图尽量只保留一项重点目标。

其中，Selective Search是对滑动窗口区域提取技术的改进，它先对图像进行分割，然后基于颜色、纹理、尺寸以及形状兼容性等属性的相似度，对分割后的框进行合并，可以得到最具代表性的图像区域子图集合；RPN则是将区域提取功能集成到R-CNN网络框架中，实现R-CNN的整体化。

子步骤S12，基于多标签分类技术，将所述区域提取技术中产生的子图分别经过多标签分类CNN模型，得到各区域子图对应的关键词集合序列。例如区域提取阶段产生了k个子图，生成k个对应集合：A₁,A₂,…,A_k；另外需要根据分类汇总结果，产生对象总数等属性。

这里的多标签分类器采用基于假设的HCP(Hypotheses-CNN-Pooling)结构，这是一种基于区域提取技术的多标签分类模型，通过提出重点区域假设来获取图片中的关键信息。

区域提取子图，在进行分割时就考虑了该子图中存在的事物或描述的相关度，因此无需做额外的计算，默认同一张子图产生的标签内容相关度最高，所以放在同一个集合中。

子步骤S13，对所述区域子图的关键词集合进行词性标注，并根据词性对关键词集合做新的划分，例如将关键词中最主要的名词、形容词、动词分别划分为：B₁,B₂,B₃。

步骤102为筛选事件类集合步骤，利用获取到的关键词，通过与事件类六元组表示结构中的要素信息进行文本匹配，在事件本体模型中寻找匹配度最高的事件类集合；

在本申请中，所述步骤102具体可以包括如下子步骤：

子步骤S21，要素匹配：根据已有的多模态事件本体模型，借助语义相似度等文本匹配技术将所述图像关键词与相应的“动作”、“对象”和“环境”等主要事件要素完成匹配，筛选所需事件类集合。

我们的目的是将这些词构成一个事件(类)结构，则需要使用“填空”的方式进行搭建：

将名词集合B₁中的所有词全部视为对象，填入对象要素部分，并根据A_i(i＝1,…,k)集合将形容词集合B₂中词作为对象属性填入对象要素；然后将动词集合B₃中的动词全部填入多模态信息要素的文本部分；多模态信息要素的图像部分即为输入图像。

此时，我们就根据输入图像的内容搭建了一个事件(类)结构，下一步需要进行要素的匹配过程：

对于刚搭建的事件(类)，计算其与多模态事件本体中事件类相应要素的文本的相似度，得到其加和作为第一阶段的得分函数：

其中加和表示六个要素的相似值的总值，sim(·)为相似度计算函数，X、Y分别为新建立的事件(类)与已存在的事件类对应要素的文本序列。

子步骤S22，根据语料库、语义词典或网络资源等外部知识，计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度，根据结果对事件类集合进行二次筛选。

通过学习语料库、语义词典或网络资源等外部知识，计算新建立的事件(类)与已存在的事件类中多模态信息要素中文本序列的相关度总和，得到第二阶段的得分函数：

Score₂＝Score₁+rel(M,N)，其中M、N分别为新建立的事件(类)与已存在的事件类中语言表现要素的文本序列，rel(·)为相关度计算函数。

步骤103为图像匹配步骤，对所述筛选过的高匹配度的事件类集合中所有事件类的图像，将其与输入图像进行匹配，选择得分最高的对应事件类，即为最终图像事件识别的结果。

在本申请中，所述步骤103具体可以包括如下子步骤：

子步骤S31，提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征；

图像的特征可以是人工获取的特征，也可以是由神经网络获取到的卷积特征，抑或是二者的融合。

其中，卷积特征可以使用VGG分类网络或者Faster R-CNN目标检测网络等预训练模型进行获取，具体模型可以根据特征描述选择的形式进行修改或替换。

子步骤S32，分别计算输入图像与所有待筛选图像特征间的相似度，将相似度计算作为进行最终选择的得分函数，按照匹配结果进行排序，得分最高者即为该图像所属的事件类。

至此，可以得到第三阶段的得分函数：

Score₃＝Score₂+match(P,Q)，其中P、Q分别为新建立的事件(类)与已存在的事件类中多模态信息要素中的图像，match(·)为图像匹配函数。

根据三个阶段的得分函数，即可筛选输入图像所对应的事件类。

若多模态事件本体模型中含有事件类的实例集合，可使用本发明所表述的方法做更加细致的计算，得到更为准确的结果。

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种基于多模态事件本体的图像事件识别方法，其特征在于，包含以下步骤：

图像匹配：对所述筛选过的高匹配度的事件类集合中所有事件类的图像，将其与输入图像进行基于特征的匹配，选择得分最高的对应事件类，即为最终图像事件识别的结果。

2.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法，其特征在于，图像关键词获取步骤还包括以下部分：

3.如权利要求2所述的方法，其特征在于，在所述区域提取部分，采用SelectiveSearch或者RPN技术获取图像的代表区域，并且使每个代表区域子图尽量只保留一项重点目标。

4.如权利要求2所述的方法，其特征在于，在多标签分类部分，让所述代表区域子图经过多标签分类CNN模型，得到该子图对应的关键词，每个子图产生的关键词放入不同集合中，生成图像关键词集合序列；另外需要根据分类汇总结果，产生对象总数属性。

5.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法，其特征在于，筛选对应事件类集合步骤进一步包括：

6.如权利要求5所述的方法，其特征在于，在要素匹配部分中，需要借助语义相似度等文本匹配技术完成事件要素的匹配过程，产生匹配程度较高的事件类集合。

7.如权利要求5所述的方法，其特征在于，在外部知识补充部分中，需要根据语料库、语义词典或网络资源，计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度，根据结果对事件类集合进行二次筛选。

8.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法，其特征在于，图像匹配步骤进一步包括：