CN116204851A

CN116204851A - 一种基于多模态识别技术的事件识别方法及系统

Info

Publication number: CN116204851A
Application number: CN202310274034.9A
Authority: CN
Inventors: 李建华; 马亚中; 王静宇; 李蹊; 郭宝松
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-02
Anticipated expiration: 2043-03-21
Also published as: CN116204851B

Abstract

本发明属于管理系统技术领域，具体涉及一种基于多模态识别技术的事件识别方法及系统。所述方法包括：通过信息采集模块获取内容共享平台内的目标信息，建立第一识别模型并获取目标信息中的文本信息、图像信息和视频信息；建立第二识别模型并获取第一分类结果，第二分类结果，第三分类结果，且第一分类结果、第二分类结果和第三分类结果分别包括不同的关注度得分；建立第三识别模型，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，共同分类结果作为目标信息的分类结果，在三种分类结果的类型都不相同时，关注度得分最高的分类结果作为目标信息的分类结果。本发明解决了事件识别准确性的问题。

Description

一种基于多模态识别技术的事件识别方法及系统

技术领域

本发明涉及信息处理技术领域，更具体涉及一种基于多模态识别技术的事件识别方法及系统。

背景技术

现在处于信息大爆炸的时代，微博、今日头条、小红书等各大内容共享平台信息满天飞，且现有技术对这些信息的甄别难度大、识别模式单一、匹配度低等问题日益突出。基于内容共享平台信息的分析、判断已经引起社会的广泛关注。

为解决该问题，现有技术中提出了通过搜索内容进行分类的方法和基于文本的事件识别方法。如中国发明专利申请“CN110709833A”记载了，一种用于对搜索到的媒体内容进行分类的方法，包括处理设备识别与搜索查询相对应的多个搜索结果，由处理设备将第二媒体项与第一内容标签相关联。然而，该方法需要用户提供搜索项，且只能获取到与搜索项相关的内容。如中国发明专利申请“CN108563655A”记载了文本事件识别方法，通过获取待识别文本，根据待识别文本，查询预先建立的事件概率模型，得到待识别文本中所含各词的事件概率。然而，该方法识别模式单一，识别结果片面，对事件类别的识别不准确或判断错误。因此提高事件识别的准确率和正确性成为社会亟待解决的问题。

多模态识别技术是提高事件识别的准确率和正确性的关键。多模态识别技术是对文本信息、图片信息、视频信息共同作用识别的技术，有效提高了事件识别结果的准确率和正确性。

发明内容

本发明旨在解决单一模态识别技术对信息的识别维度不全、对事件的识别准确率低、识别错误的问题，本发明首先获取内容共享平台内的目标信息，其次针对目标信息采用多模态识别技术，获取目标信息中的文本信息、图像信息和视频信息。通过综合分析、判断，获取目标信息的分类结果，实现对事件的识别，有效提高了事件识别结果的准确率和正确性，以便相关部门对不同事件及时作出不同关注度。

为了达到上述的发明目的，给出如下所述的一种基于多模态识别技术的事件识别方法，主要包括以下的步骤：

步骤S1：通过信息采集模块获取内容共享平台内的目标信息，基于所述目标信息建立第一识别模型，所述第一识别模型对所述目标信息进行识别，并获取所述目标信息中的文本信息、图像信息和视频信息；

步骤S2：基于所述文本信息、所述图像信息和所述视频信息建立第二识别模型，所述第二识别模型对所述文本信息进行识别，并获取第一分类结果，所述第二识别模型对所述图像信息进行识别，并获取第二分类结果，所述第二识别模型对所述视频信息进行识别，并获取第三分类结果，且所述第一分类结果、所述第二分类结果和所述第三分类结果分别包括不同的关注度得分；

步骤S3：基于所述第一分类结果、所述第二分类结果和所述第三分类结果建立第三识别模型，并将所述第一分类结果、所述第二分类结果和所述第三分类结果输入至所述第三识别模型中，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，将所述两种或两种以上分类结果作为判定结果，所述第三识别模型将所述判定结果作为目标信息的分类结果进行输出，在三种分类结果的类型都不相同时，将所述关注度得分最高的分类结果作为所述目标信息的分类结果进行输出。

作为本发明的一种优选技术方案，对所述文本信息进行识别，并获取所述第一分类结果，包括以下步骤：建立文本语义库，所述文本语义库包括多种文本类型和多种文本类型的第一参考文本语义，每种所述第一参考文本语义都标记有文本所属的类别，所述文本语义库对所述文本信息进行图像识别，并获取所述文本信息中的文字信息，还基于所述文字信息获取所述文本信息所要表达的语义，同时将所述文本信息中的文本语义与所述文本语义库内各个所述第一参考文本语义进行对比，在所述文本语义库内存在所述第一文本语义与所述文本信息中的文本语义的第一相似度大于等于第一阈值时，将所述第一文本语义定义为第一目标文本，并获取所述第一目标文本的类别，将所述第一目标文本的类别设置为所述文本信息的所述第一分类结果。

作为本发明的一种优选技术方案，对所述图像信息进行识别，并获取所述第二分类结果，包括以下步骤：建立图像数据库，所述图像数据库包括多种类型和多种类型的第一参考图像，每种所述第一参考图像都标记有图像所属的类别，将所述图像信息与所述图像数据库各个所述第一参考图像进行对比，在所述图像数据库内存在所述第一参考图像与所述图像信息的第二相似度大于等于第二阈值时，将所述第一参考图像定位为第一目标图像，并获取所述第一目标图像的类别，将所述第一目标图像的类别设置为所述图像信息的所述第二分类结果。

作为本发明的一种优选技术方案，获取所述第二分类结果的所述关注度得分，包括以下步骤：

步骤S21：获取所述图像信息的尺寸及所述图像信息中各个物体的轮廓，基于所述物体轮廓获取物体在所述图像信息中所占的面积，还基于所述物体轮廓所占的面积和所述图像信息的尺寸，计算各个所述物体在所述图像信息中所占据的比例；

步骤S22：建立第一权重模型，所述第一权重模型基于物体在所述图像信息中所占的比例分配所述物体的权重，其中，所述物体在所述图像信息中所占的比例越大，所述第一权重模型为所述物体分配的权重越高；

步骤S23：建立分数表，所述分数表内包括物体类别及对应的物体类别的关注度得分，建立物体识别数据库，所述物体识别数据库包括多种不同类别物体的第二参考图像；

步骤S24：将所述图像信息进行二值化并获取物体的轮廓，将所述图像信息中第n个物体轮廓与所述物体识别数据库各个所述第二参考图像进行对比，在所述物体识别数据库内存在所述第二参考图像与所述图像信息中第n个物体轮廓的第三相似度大于等于第三阈值时，将所述第二参考图像定位为第二目标图像，并获取所述第一目标图像的物体类别，基于所述第一目标图像的物体类别从所述分数表内获取所述对应的物体类别的所述关注度得分；

步骤S25：重复步骤S24，所述图像信息的所述关注度得分的表达式如下：

其中，n为所述图像信息中第n个物体的轮廓，/>

为第n个所述物体类别的所述关注度得分，/>

为第n个所述物体类别的所述关注度得分的权重，/>

为n个所述物体类别的所述关注度得分总和，也称为所述第二分类结果的所述关注度得分，/>

为所述物体类别的总数。

作为本发明的一种优选技术方案，将所述第二参考图像与所述物体轮廓进行对比，包括如下步骤：

步骤S41：将所述物体识别数据库中的所述第二参考图像作为第三图像，获取所述第三图像的第一拍摄时间，将所述图像信息中物体轮廓作为第四图像，获取所述第四图像的拍摄时间为第二拍摄时间；

步骤S42：在所述第一拍摄时间和所述第二拍摄时间不同时，确定第四图像在所述图像信息中的纵向像素，以及所述第四图像的影子信息；

步骤S43：建立第一生成模型，所述第一生成模型基于所述第四图像在所述图像信息中的纵向像素、以及所述第四图像的影子信息和所述第一拍摄时间，更新所述第四图像的影子信息生成对比图像，将所述对比图像与所述第三图像进行对比获取第三相似度。

作为本发明的一种优选技术方案，对所述视频信息进行识别，并获取所述第三分类结果，包括以下步骤：提取所述视频信息中的第一片段，解析获取第一片段内所有图像信息，通过所述图像信息识别方法分别对各个图像信息进行识别获取对应的所述第三分类结果，计算所述各个图像信息的所述关注度得分，将所述各个图像信息的所述关注度得分汇总，得分最高的所述图像信息为所述视频信息的所述关注度得分。

本发明还提供一种基于多模态识别技术的事件识别系统，包括如下的模块：

信息采集模块，用于获取所述内容共享平台内的所述目标信息；

识别模块配置为：基于所述文本信息、所述图像信息和所述视频信息建立第二识别模型，所述第二识别模型对所述文本信息进行识别，并获取第一分类结果，所述第二识别模型对所述图像信息进行识别，并获取第二分类结果，所述第二识别模型对所述视频信息进行识别，并获取第三分类结果，且所述第一分类结果、所述第二分类结果和所述第三分类结果分别包括不同的关注度得分；

基于所述第一分类结果、所述第二分类结果和所述第三分类结果建立第三识别模型，并将所述第一分类结果、所述第二分类结果和所述第三分类结果输入至所述第三识别模型中，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，将所述两种或两种以上分类结果作为判定结果，所述第三识别模型将所述判定结果作为目标信息的分类结果进行输出，在三种分类结果的类型都不相同时，将所述关注度得分最高的分类结果作为所述目标信息的分类结果进行输出。

与现有技术相比，本发明的有益效果至少如下所述：

本发明旨在解决单一模态识别技术对信息的识别维度不全、对事件的识别准确率低、识别错误的问题，首先获取内容共享平台内的目标信息，其次针对所述目标信息采用多模态识别技术，获取所述目标信息中的文本信息、图像信息和视频信息；通过所述多模态识别技术，对所述文本信息进行语义识别，进而得到所述第一分类结果；对所述图像信息先进行二值化获取物体轮廓，再进一步依据不同时间点物体影子不同的特征，去除影子干扰，进而得到所述第二分类结果；对所述视频信息按视频片段拆分后，取出图像信息，再重复所述图像信息对比原理，进而得到所述第三分类结果。最后综合分析、判断，获取所述目标信息的分类结果，实现对事件的识别，上述技术方案之间的相互配合共同提高了事件识别结果的准确率和正确性，以便相关部门对不同事件及时作出不同关注度。

附图说明

图1为本发明的一种基于多模态识别技术的事件识别方法的步骤流程图；

图2为本发明的一种基于多模态识别技术的事件识别系统的组成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些模块不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

发明人发现在实际中当群众将在居民区跳广场舞、车辆乱停乱放、占用高速应急车道等信息上传至内容共享平台时，造成不良社会影响。为营造好的社会环境，应及时引起相关部门的关注。而现有技术对信息的识别模式比较单一，对事件的识别准确率低、识别错误的问题，由此，无法引起相关部门对特定事件的关注。

针对上述的技术问题，发明人提出了如图1所示的一种基于多模态识别技术的事件识别方法，主要包括以下的步骤过程：

步骤S1：通过信息采集模块获取内容共享平台内的目标信息，基于上述目标信息建立第一识别模型，上述第一识别模型对上述目标信息进行识别，并获取上述目标信息中的文本信息、图像信息和视频信息；

步骤S2：基于上述文本信息、上述图像信息和上述视频信息建立第二识别模型，上述第二识别模型对上述文本信息进行识别，并获取第一分类结果，上述第二识别模型对上述图像信息进行识别，并获取第二分类结果，上述第二识别模型对上述视频信息进行识别，并获取第三分类结果，且上述第一分类结果、上述第二分类结果和上述第三分类结果分别包括不同的关注度得分；

步骤S3：基于上述第一分类结果、上述第二分类结果和上述第三分类结果建立第三识别模型，并将上述第一分类结果、上述第二分类结果和上述第三分类结果输入至所述第三识别模型中，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，将所述两种或两种以上分类结果作为判定结果，所述第三识别模型将所述判定结果作为目标信息的分类结果进行输出，在三种分类结果的类型都不相同时，将所述关注度得分最高的分类结果作为上述目标信息的分类结果进行输出。

具体的，是从微博、小红书、今日头条平台上采集群众发布的自由言论信息，但此处不仅限于微博、小红书、今日头条三个平台。上述自由言论信息就是我们要分析的上述目标信息，上述目标信息一般由文本信息+图像信息、文本信息+视频信息、单一文本信息、单一图像信息和单一视频信息组成。

第一识别模型对上述目标信息进行识别，采用现有技术从上述目标信息中提取文字信息、图像信息和视频信息，这里提到的现有技术目前已经存在，此处不再赘述。

情况一：第二识别模型是基于上述文本信息获取第一分类结果，例如上述文本信息描述的是高速堵车中，部分车辆走应急车道，定义上述第一分类结果为违章驾驶；基于上述图像信息获取上述第二分类结果，例如上述图像信息中显示的是驾驶员在行车过程中没有系安全带，定义上述第二分类结果为违章驾驶；基于上述视频信息获取上述第三分类结果，例如上述视频信息中在居民区有多个人并且大家动作相对一致，定义上述第三分类结果为在居民区跳广场舞。第三识别模型是把上述第一分类结果违章驾驶、上述第二分类结果违章驾驶和上述第三分类结果在居民区跳广场舞，其任意两种或三种分类结果相同的类型作为上述目标信息的分类结果，此处上述第一分类结果和上述第二分类结果两种分类结果相同，那么将上述第一分类结果、上述第二分类结果中的任一种分类结果作为上述目标信息的分类结果，此处以违章驾驶为上述目标信息的分类结果。

情况二：第二识别模型是基于上述文本信息获取第一分类结果，例如上述文本信息描述的是高速堵车中，部分车辆走应急车道，定义上述第一分类结果为违章驾驶；基于上述图像信息获取上述第二分类结果，例如上述图像信息中显示的是普通路段上有多辆停车，且旁边显示的是禁停标志，定义上述第二分类结果为违章停车；基于上述视频信息获取上述第三分类结果，例如上述视频信息中在居民区有多个人并且每个人的动作相对一致，定义上述第三分类结果为在居民区跳广场舞。例如违章停车属于本方案中重点关注事件，那么上述第一分类结果的关注度得为90，上述第二分类结果的关注度得分为95，上述第三分类结果的关注度得分为70。第三识别模型是把上述第一分类结果违章驾驶、上述第二分类结果违章停车和上述第三分类结果在居民区跳广场舞，其任意两种或三种分类结果相同的类型作为上述目标信息的分类结果，此处三种分类结果均不相同，那么将关注度得分最高的分类结果作为上述目标信息的分类结果，此处以违章停车为上述目标信息的分类结果。

因为公众所发布的信息包括文本、图像和视频，而文本与图片或视频并非对应的，例如文本的语义所表达出的为违章停车的语义，但文本的配图为表情包，例如在居民区跳广场舞的图片，这就会对该信息的分别识别造成干扰，因此通过本步骤可以准确的识别出公众平台上所发布信息的语义。

进一步的，在上述步骤S2中，对上述文本信息进行识别，并获取上述第一分类结果，包括以下步骤：

建立文本语义库，上述文本语义库包括多种文本类型和多种文本类型的第一参考文本语义，每种上述第一参考文本语义都标记有文本所属的类别，上述文本语义库对上述文本信息进行图像识别，并获取上述文本信息中的文字信息，还基于上述文字信息获取上述文本信息所要表达的语义，同时将上述文本信息中的文本语义与上述文本语义库内各个上述第一参考文本语义进行对比，在上述文本语义库内存在上述第一文本语义与上述文本信息中的文本语义的第一相似度大于等于第一阈值时，将上述第一文本语义定义为第一目标文本，并获取上述第一目标文本的类别，将上述第一目标文本的类别设置为上述文本信息的上述第一分类结果。

具体的，文本语义库收集了不同事件对应的语义信息，收集过程采用现有技术进行收集整理，此处不再赘述。将上述目标信息中的文本信息，采用现有技术逐字拆解，得到单个文字和词组，例车牌、驾驶、跳舞等，把此处得到的单个文字和词组分别与文本语义库中的文本语义进行匹配，找到上述文本信息对应的事件类别，例车牌对应违章停车或违章驾驶事件类别。获取上述文本信息关注度得分的方式有，创建一张文本语义关注度得分表，表内数据有语义结果及对应的关注度得分，基于语义结果从上述文本语义关注度得分表中找到对应的关注度得分，例如：违章停车对应关注度得分是95，违章驾驶对应关注度得分是90，在居民区跳广场舞对应关注度得分是70。

进一步的，在上述步骤S2中，对上述图像信息进行识别，并获取上述第二分类结果，包括以下步骤：

建立图像数据库，上述图像数据库包括多种类型和多种类型的第一参考图像，每种上述第一参考图像都标记有图像所属的类别，将上述图像信息与上述图像数据库各个上述第一参考图像进行对比，在上述图像数据库内存在上述第一参考图像与上述图像信息的第二相似度大于等于第二阈值时，将上述第一参考图像定位为第一目标图像，并获取上述第一目标图像的类别，将上述第一目标图像的类别设置为上述图像信息的上述第二分类结果。

具体的，图像数据库是提前建好的，每一个参考图像都有对应的图像所属类别，例如在居民区有多个人并且每个人的动作相对一致，对应的图像类别是在居民区跳广场舞；当上述目标图像信息与上述图像数据库中某一个上述第一参考图像相似度大于等于提前设置的上述第二相似度60%时，会把上述第一参考图像定位为上述第一目标图像，它对应的图像类别就是上述第一目标图像的类别。

进一步的，在上述步骤S2中，获取上述第二分类结果的上述关注度得分，包括以下步骤：

步骤S21：获取上述图像信息的尺寸及上述图像信息中各个物体的轮廓，基于上述物体轮廓获取物体在上述图像信息中所占的面积，还基于上述物体轮廓所占的面积和上述图像信息的尺寸，计算各个上述物体在上述图像信息中所占据的比例；

步骤S22：建立第一权重模型，上述第一权重模型基于物体在上述图像信息中所占的比例分配上述物体的权重，其中，上述物体在上述图像信息中所占的比例越大，上述第一权重模型为上述物体分配的权重越高；

步骤S23：建立分数表，上述分数表内包括物体类别及对应的物体类别的关注度得分，建立物体识别数据库，上述物体识别数据库包括多种不同类别物体的第二参考图像；

步骤S24：将所述图像信息进行二值化并获取物体的轮廓，将上述图像信息中第n个物体轮廓与上述物体识别数据库各个上述第二参考图像进行对比，在上述物体识别数据库内存在上述第二参考图像与上述图像信息中第n个物体轮廓的第三相似度大于等于第三阈值时，将上述第二参考图像定位为第二目标图像，并获取上述第一目标图像的物体类别，基于上述第一目标图像的物体类别从上述分数表内获取上述对应的物体类别的上述关注度得分；

步骤S25：重复步骤S24，上述图像信息的上述关注度得分的表达式如下：

其中，n为上述图像信息中第n个物体的轮廓，/>

为第n个上述物体类别的上述关注度得分，/>

为第n个上述物体类别的上述关注度得分的权重，/>

为n个上述物体类别的上述关注度得分总和，也称为上述第二分类结果的上述关注度得分，/>

为上述物体类别的总数。

具体的，先采用图像二值化技术将整个所述图像信息呈现出明显的黑白效果，黑色部分为物体轮廓，白色部分为背景色，取出图像中物体轮廓。再计算上述图像的尺寸，比如是32mm×26mm，图像信息中，车辆的轮廓占12mm×8mm，树的轮廓占5mm×3mm，计算后得到车辆轮廓的面积占上述图像面积的11.5%（96mm^2/832mm^2），树的面积占图像面积的1.8%（15mm^2/832mm^2）。第一权重模型为上述车辆轮廓分配的关注度得分的权重是12%，为上述树分配的关注度得分的权重是2%。

分数表为事先创建的，表内数据属于基础数据，基础数据为事先存在的。采用现有技术获取物体在上述图像中的轮廓，此处不再赘述，将物体轮廓与物体识别数据库中物体的第二参考图像进行对比，获取相似度和对应的上述物体类别，当相似度大于提前设置的相似度时，将上述第二参考图像定义为第二目标图像；上述图像信息对应的上述物体类别从分数表内获取对应的关注度得分，例如图像中车辆的轮廓与违章停车类别的参考图像相似度有65%，这个值大于提前设置的上述第三相似度值60%，定义此参考图像为第二目标图像，并从分数表内得到它对应的关注度得分为90，图像中树的轮廓与违章停车类别的参考图像相似度有0.1%，这个值小于提前设置的上述第三相似度值60%，定义此参考图像不是第二目标图像，并从分数表内得到它对应的关注度得分为10。计算总关注度得分为：90×12%+ 10×2% = 11分。

进一步的，在上述步骤S2中，将上述第二参考图像与上述物体轮廓进行对比，包括如下步骤：

步骤S41：将上述物体识别数据库中的上述第二参考图像作为第三图像，获取上述第三图像的第一拍摄时间，将上述图像信息中物体轮廓作为第四图像，获取上述第四图像的拍摄时间为第二拍摄时间；

步骤S42：在上述第一拍摄时间和上述第二拍摄时间不同时，确定第四图像在上述图像信息中的纵向像素，以及上述第四图像的影子信息；

步骤S43：建立第一生成模型，上述第一生成模型基于上述第四图像在上述图像信息中的纵向像素、以及上述第四图像的影子信息和上述第一拍摄时间，更新上述第四图像的影子信息生成对比图像，将上述对比图像与上述第三图像进行对比获取第三相似度。

具体的，把上述图像信息中人的上述第二参考图像作为上述第三图像，得到上述第三图像的第一拍摄时间8点，上述图像信息中物体轮廓作为上述第四图像的上述第二拍摄时间是14点，这两个图像信息的拍摄时间不同，影子位置就会不同；确定上述第四图像在上述图像信息中的纵向像素和以及上述第四图像的影子信息和上述第一拍摄时间8点，将上述第四图像的影子信息根据8点时的拍摄角度，生成上述第四图像8点时在上述图像信息中的纵向像素和以及上述第四图像的影子信息，这时相同的物体的影子信息会相对一致，再进行相似度对比，得到第三相似度。

进一步的，在上述步骤S2中，对上述视频信息进行识别，并获取上述第三分类结果，包括以下步骤：

提取上述视频信息中的第一片段，解析获取第一片段内所有图像信息，通过上述图像信息识别方法分别对各个图像信息进行识别获取对应的上述第三分类结果，计算上述各个图像信息的上述关注度得分，将上述各个图像信息的上述关注度得分汇总，得分最高的上述图像信息为上述视频信息的上述关注度得分。

具体的，一个视频实际是由多个视频片段组成，这些片段既有一定的时间相关性，又具有一定的独立性。时间相关性是指把它们按时间顺序连接起来，就能组成一个连续的流畅的完整视频。独立性是指当把某些片段单独展示时，用户可以不依赖于它的上下文而理解该片段的内容。每个片段所包含的信息量也是不一样的。有些视频片段独立性较强，通常包含一个连续的独立事件，比如一个车祸发生的瞬间片段。采用现有技术从视频中提取包含帧数最多的视频段生成图片，称第一片段内所有图像信息，此处不再对现有技术进行赘述。通过上述图像信息识别方法分别对各个图像信息进行识别获取对应的上述第三分类结果；同时计算各个图像信息的关注度得分，将上述各个图像信息的关注度得分汇总，得分最高的图像信息为上述视频信息的上述关注度得分。

参考如图2所示，本发明还提供一种基于多模态识别技术的事件识别系统100，用来实现如上所述的一种基于多模态识别技术的事件识别方法，具体的，将各个模块的功能描述如下：

信息采集模块101：用于获取上述内容共享平台200内的上述目标信息；

识别模块配置102：基于上述文本信息、上述图像信息和上述视频信息建立第二识别模型，上述第二识别模型对上述文本信息进行识别，并获取第一分类结果，上述第二识别模型对上述图像信息进行识别，并获取第二分类结果，上述第二识别模型对上述视频信息进行识别，并获取第三分类结果，且上述第一分类结果、上述第二分类结果和上述第三分类结果分别包括不同的关注度得分；

基于上述第一分类结果、上述第二分类结果和上述第三分类结果建立第三识别模型，并将上述第一分类结果、上述第二分类结果和上述第三分类结果输入至上述第三识别模型中，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，将上述两种或两种以上分类结果作为判定结果，上述第三识别模型将上述判定结果作为目标信息的分类结果进行输出，在三种分类结果的类型都不相同时，将上述关注度得分最高的分类结果作为上述目标信息的分类结果进行输出。

在一种基于多模态识别技术的事件识别系统100之外还包括：内容共享平台200；群众手机301，群众手机302，群众手机303，群众手机304。

内容共享平台200，是用于承载群众发布自由言论信息的平台，例如微博、小红书、今日头条等，但此处不仅限于微博、小红书、今日头条三个平台；

群众手机301，用于发布自由言论信息；

群众手机302，用于发布自由言论信息；

群众手机303，用于发布自由言论信息；

群众手机304，用于发布自由言论信息。

综上所述，本发明旨在解决单一模态识别技术对信息的识别维度不全、对事件的识别准确率低、识别错误的问题，本发明首先获取内容共享平台内的目标信息，其次针对上述目标信息采用多模态识别技术，获取上述目标信息中的文本信息、图像信息和视频信息；通过上述多模态识别技术，对上述文本信息进行语义识别，进而得到上述第一分类结果；对上述图像信息先进行二值化获取物体轮廓，再进一步依据不同时间点物体影子不同的特征，去除影子干扰，进而得到上述第二分类结果；对上述视频信息按视频片段拆分后，取出图像信息，再重复上述图像信息对比原理，进而得到上述第三分类结果。最后综合分析、判断，获取上述目标信息的分类结果，实现对事件的识别，上述技术方案之间的相互配合共同提高了事件识别结果的准确率和正确性，以便相关部门对不同事件及时作出不同关注度。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一个非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上上述的实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上上述的实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上上述的仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态识别技术的事件识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的一种基于多模态识别技术的事件识别方法，其特征在于，所述步骤S2中，对所述文本信息进行识别，并获取所述第一分类结果，包括以下步骤：

建立文本语义库，所述文本语义库包括多种文本类型和多种文本类型的第一参考文本语义，每种所述第一参考文本语义都标记有文本所属的类别，所述文本语义库对所述文本信息进行图像识别，并获取所述文本信息中的文字信息，还基于所述文字信息获取所述文本信息所要表达的语义，同时将所述文本信息中的文本语义与所述文本语义库内各个所述第一参考文本语义进行对比，在所述文本语义库内存在所述第一文本语义与所述文本信息中的文本语义的第一相似度大于等于第一阈值时，将所述第一文本语义定义为第一目标文本，并获取所述第一目标文本的类别，将所述第一目标文本的类别设置为所述文本信息的所述第一分类结果。

3.根据权利要求1所述的一种基于多模态识别技术的事件识别方法，其特征在于，所述步骤S2中，对所述图像信息进行识别，并获取所述第二分类结果，包括以下步骤：

建立图像数据库，所述图像数据库包括多种类型的第一参考图像，每种所述第一参考图像都标记有图像所属的类别，将所述图像信息与所述图像数据库各个所述第一参考图像进行对比，在所述图像数据库内存在所述第一参考图像与所述图像信息的第二相似度大于等于第二阈值时，将所述第一参考图像定位为第一目标图像，并获取所述第一目标图像的类别，将所述第一目标图像的类别设置为所述图像信息的所述第二分类结果。

4.根据权利要求1所述的一种基于多模态识别技术的事件识别方法，其特征在于，所述步骤S2中，获取所述第二分类结果的所述关注度得分，包括以下步骤：

其中，n为所述图像信息中第n个物体的轮廓，/>

为第n个所述物体类别的所述关注度得分，/>

为第n个所述物体类别的所述关注度得分的权重，/>

为所述物体类别的总数。

5.根据权利要求4所述的一种基于多模态识别技术的事件识别方法，其特征在于，将所述第二参考图像与所述物体轮廓进行对比，包括如下步骤：

6.根据权利要求4所述的一种基于多模态识别技术的事件识别方法，其特征在于，对所述视频信息进行识别，并获取所述第三分类结果，包括以下步骤：

提取所述视频信息中的第一片段，解析获取第一片段内所有图像信息，通过所述图像信息识别方法分别对各个图像信息进行识别获取对应的所述第三分类结果，计算所述各个图像信息的所述关注度得分，将所述各个图像信息的所述关注度得分汇总，得分最高的所述图像信息为所述视频信息的所述关注度得分。

7.一种基于多模态识别技术的事件识别系统，用于实现如权利要求1-6任一项所述的方法，其特征在于，包括如下的模块：

识别模块配置为：基于所述文本信息、所述图像信息和所述视频信息建立第二识别模型，所述第二识别模型对所述文本信息进行识别，并获取第一分类结果，所述第二识别模型对所述图像信息进行识别，并获取第二分类结果，所述第二识别模型对所述视频信息进行识别，并获取第三分类结果，且所述第一分类结果、所述第二分类结果和所述第三分类结果分别包括不同的关注度得分；基于所述第一分类结果、所述第二分类结果和所述第三分类结果建立第三识别模型，并将所述第一分类结果、所述第二分类结果和所述第三分类结果输入至所述第三识别模型中，在第一至第三分类结果中有两种或两种以上分类结果的类型相同时，将所述两种或两种以上分类结果作为判定结果，所述第三识别模型将所述判定结果作为目标信息的分类结果进行输出，在三种分类结果的类型都不相同时，将所述关注度得分最高的分类结果作为所述目标信息的分类结果进行输出。