CN112001265B

CN112001265B - 视频事件识别方法、装置、电子设备及存储介质

Info

Publication number: CN112001265B
Application number: CN202010745261.1A
Authority: CN
Inventors: 汪琦; 冯知凡; 杨虎; 贺峰; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2024-01-23
Anticipated expiration: 2040-07-29
Also published as: CN112001265A; KR102553763B1; JP2022027629A; JP7242994B2; US20220036085A1; EP3945456A1; KR20220014865A; EP3945456B1; US11557120B2

Abstract

本申请公开了视频事件识别方法、装置、电子设备及存储介质，涉及知识图谱、深度学习及计算机视觉领域，其中的方法可包括：构建视频事件图谱，视频事件图谱中的任一事件分别包括：事件的M个论元角色及各论元角色的论元，M为大于一的正整数；针对待识别的视频，获取该视频对应的待识别事件的M个论元角色的论元；根据获取到的论元从视频事件图谱中选定一个事件，作为识别出的该视频对应的事件。应用本申请所述方案，可实现准确高效的视频事件识别。

Description

视频事件识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术，特别涉及知识图谱、深度学习及计算机视觉领域的视频事件识别方法、装置、电子设备及存储介质。

背景技术

随着视频在信息时代的爆发，视频理解成为一项重要的技术需求，如视频事件识别(也可称为视频事件理解)，视频事件识别的主旨是理解视频深层次的内容，通过对视频中发生的事件进行解析和推理，来达到深层次内容理解的目的。

目前针对视频的识别多为视频动作识别或视频场景识别等，还没有相应的视频事件识别方式。

发明内容

本申请提供了视频事件识别方法、装置、电子设备及存储介质。

一种视频事件识别方法，包括：

构建视频事件图谱，所述视频事件图谱中的任一事件分别包括：所述事件的M个论元角色及各论元角色的论元，M为大于一的正整数；

针对待识别的视频，获取所述视频对应的待识别事件的所述M个论元角色的论元；

根据获取到的论元从所述视频事件图谱中选定一个事件，作为识别出的所述视频对应的事件。

一种视频事件识别装置，包括：图谱构建模块及事件识别模块；

所述图谱构建模块，用于构建视频事件图谱，所述视频事件图谱中的任一事件分别包括：所述事件的M个论元角色及各论元角色的论元，M为大于一的正整数；

所述事件识别模块，用于针对待识别的视频，获取所述视频对应的待识别事件的所述M个论元角色的论元，根据获取到的论元从所述视频事件图谱中选定一个事件，作为识别出的所述视频对应的事件。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：将知识图谱与视频理解相结合，构建视频事件图谱，其中的事件分别包括多个论元角色及对应的论元，获取待识别的视频对应的待识别事件的相应各论元角色的论元，根据获取到的论元从视频事件图谱中选定事件，从而实现了准确高效的视频事件识别。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述视频事件识别方法实施例的流程图；

图2为本申请所述卷积操作第一示意图；

图3为本申请所述卷积操作第二示意图；

图4为本申请所述获取事件图对应的图嵌入表示及计算相似度的过程示意图；

图5为本申请所述视频事件识别方法的整体实现过程示意图；

图6为本申请所述视频事件识别装置60实施例的组成结构示意图；

图7为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述视频事件识别方法实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，构建视频事件图谱，视频事件图谱中的任一事件分别包括：事件的M个论元角色及各论元角色的论元，M为大于一的正整数。

不同的论元角色可理解为事件的不同属性，相应地，论元即可理解为属性值。如论元角色为“空间场景”，对应的论元可为“室外”、“桃林”等。

在102中，针对待识别的视频，获取该视频对应的待识别事件的M个论元角色的论元。

待识别事件即指待识别的视频对应的事件，可获取该事件的所述M个论元角色的论元。

在103中，根据获取到的论元从视频事件图谱中选定一个事件，作为识别出的该视频对应的事件。

根据获取到的论元，可从视频事件图谱中选定一个事件，该事件即可作为识别出的待识别的视频对应的事件，即可作为待识别的视频的事件识别结果。

可以看出，上述实施例中，可将知识图谱与视频理解相结合，构建视频事件图谱，其中的事件分别包括多个论元角色及对应的论元，获取待识别的视频对应的待识别事件的相应各论元角色的论元，根据获取到的论元从视频事件图谱中选定事件，从而实现了准确高效的视频事件识别。

如何构建视频事件图谱为现有技术，如可采用自动化抽取及图谱构建技术来实现。视频事件图谱主要定义及规范不同事件及事件包括的主要论元角色和论元等。如101中所述，一个事件可包括M个论元角色，比如，M的取值可为5，5个论元角色可分别为：空间场景(scene)、动作(action)、人物(person)、物体(object)及相关词(term)。

以“桃园三结义”这一事件为例，其中包括的论元角色和论元可如表一所示：

论元角色	论元
		空间场景	室外、桃林
动作	哭泣、跪拜
		人物	刘备、关羽、张飞
物体	桌子、桃树、桃花、天空
		相关词	三国演义、兄弟、结拜

表一“桃园三结义”这一事件中包括的论元角色和论元

如102中所述，针对待识别的视频，可获取待识别的视频对应的待识别事件的M个论元角色的论元，如可分别获取待识别事件的空间场景论元角色的论元、动作论元角色的论元、人物论元角色的论元、物体论元角色的论元和相关词论元角色的论元。

其中，可对待识别的视频进行视觉理解，从而得到待识别事件的空间场景论元角色的论元、动作论元角色的论元、人物论元角色的论元及物体论元角色的论元，并可对待识别的视频对应的文本进行文本理解，从而得到待识别事件的相关词论元角色的论元。

视觉理解主要实现基础的视觉相关的要素抽取与识别，具体地，可对待识别的视频进行空间场景识别(Scene Recognition)，从而得到待识别事件的空间场景论元角色的论元，对待识别的视频进行动作识别(Action Recognition)，从而得到待识别事件的动作论元角色的论元，对待识别的视频进行人脸识别(Face Recognition)，从而得到待识别事件的人物论元角色的论元，并对待识别的视频进行通用物体识别(Object Recognition)，从而得到待识别事件的物体论元角色的论元。

其中，空间场景识别用于识别出待识别的视频的空间场景，具体包括哪些空间场景可根据实际需要而定，如表二所示：

bowling alley	保龄球馆
		campsite	营地
forest	森林
		casino	赌场
bedroom	卧室
		…	…

表二空间场景

动作识别用于识别出视频中出现的动作，具体包括哪些动作也可根据实际需要而定，如表三所示：

表三动作

通用物体识别用于识别出视频中出现的物体的名称，如树木、桌子等。人脸识别用于识别出视频中出现的人物。

如何进行空间场景识别、动作识别、通用物体识别以及人脸识别均为现有技术。

如上述视觉理解外，还可对待识别的视频对应的文本进行文本理解，从而得到待识别事件的相关词论元角色的论元。如可分别对文本进行实体识别和关键词抽取，将实体识别结果和关键词抽取结果作为待识别事件的相关词论元角色的论元。

待识别的视频对应的文本可包括但不限于以下之一或任意组合：待识别的视频的标题文本、待识别的视频的描述信息(如简介信息等)文本、待识别的视频的音频转换得到的文本、待识别的视频的字幕转换得到的文本等。其中，可通过光学字符识别(OCR，OpticalCharacter Recognition)技术得到字幕对应的文本，可通过自动语音识别(ASR，AutomaticSpeech Recognition)技术得到音频对应的文本。

实体识别即指识别出文本中的实体，关键词抽取即指抽取出文本中的关键词。实体识别和关键词抽取的具体实现均为现有技术。

通过上述处理，实现了对于视频模态和文本模态等不同模态的要素提取，后续，可对提取出的多模态信息进行融合，用于准确地识别出待识别的视频对应的事件，即提升了事件识别结果的准确性。

如103中所述，可根据获取到的待识别事件的M个论元角色的论元，从视频事件图谱中选定一个事件，作为识别出的待识别的视频对应的事件。

具体地，可首先根据获取到的论元构建一张事件图，事件图中包括三层节点，其中，第一层节点的数量为一个，对应于待识别事件，第二层节点的数量为M个，每个第二层节点分别对应于一个论元角色，第三层节点的数量等于M个论元角色的论元数量之和，每个第三层节点分别对应于一个论元，各第二层节点分别与第一层节点相连，各第三层节点分别与所属的论元角色对应的第二层节点相连，之后，可获取事件图对应的图嵌入(graphembedding)表示，进而可分别计算事件图对应的图嵌入表示(即待识别事件对应的图嵌入表示)与视频事件图谱中的各事件对应的图嵌入表示之间的相似度，并可将相似度最高的事件作为选定的事件。由于待识别事件为未知事件，因此在实际应用中，可认为待识别事件对应的节点内容为空。

为便于理解后续处理方式，首先介绍下卷积神经网络(CNN，ConvolutionalNeural Networks)在图像中的应用。图2为本申请所述卷积操作第一示意图，如图2所示，左图表示的是一张图像在一个神经网络层中的卷积操作过程，最底部的一层为输入的特征图(或原图)，通过一个卷积(这里表示的是一个3*3的卷积核，也就是receptive filed＝9)操作，输出一张卷积后的特征图。图3为本申请所述卷积操作第二示意图，如图3所示，(a)部分各图中，底层的9个像素被加权映射到上层的一个像素，任意一个带卷积的区域都可以看作是一个中心节点(node)以及它的邻域节点的集合，最终加权映射为一个值，因此，(b)部分的输入特征图可以看作是：在一个方形的网格(grid)图当中确定一些节点来表示这个图像并且构建一个正则化的邻域图(这个邻域图就是卷积核的区域，也就是感知野(receptivefiled))。

基于以上启发，本申请中在获取事件图对应的图嵌入表示时，可首先从事件图中的各节点中选出N个中心节点，N为大于一的正整数，且小于事件图中包含的节点数，之后，针对任一中心节点，可分别进行以下处理：获取该中心节点的邻域节点，邻域节点为与该中心节点相连的节点，确定出该中心节点与邻域节点组成的子图对应的向量表示，进而可将得到的各向量表示输入卷积神经网络，从而得到事件图对应的图嵌入表示。

针对事件图，需要首先确定一个宽度N，表示要选择的中心节点的个数，也就是感知野的个数。比如，可选择4个主要的论元角色对应的节点作为中心节点，如可将空间场景论元角色对应的节点、动作论元角色对应的节点、物体论元角色对应的节点及相关词论元角色对应的节点作为选出的4个中心节点。

之后，可分别获取各中心节点的邻域节点，即针对任一中心节点，可分别将与该中心节点相连的节点作为该中心节点的邻域节点。由于中心节点为第二层节点，那么其邻域节点中一定会包括第一层节点和第三层节点。

另外，还可进行正则化处理，具体地，针对任一中心节点，若获取到的该中心节点的邻域节点的数量P小于K，那么可补充K-P个哑节点，K为大于一的正整数，将补充的哑节点也作为该中心节点的邻域节点，若获取到的该中心节点的邻域节点的数量P大于K，那么可按照预定规则对获取到的该中心节点的各邻域节点进行排序，丢弃排序后处于第K+1位及之后的邻域节点。

K的具体取值可根据实际需要而定。以K的取值为4为例，针对任一中心节点，假设获取到了3个邻域节点，那么则需要补充1个哑节点，假设获取到了6个邻域节点，那么则需要对6个邻域节点进行排序，并丢弃处于第5位和第6位的节点。哑节点可设置为默认值。

如何对各邻域节点进行排序不作限制，比如，可按照预定方式分别获取各邻域节点的置信度，按照置信度降序排序。通常来说，会保留邻域节点中的第一层节点，而是丢弃邻域节点中的部分第三层节点。

针对任一中心节点，还可确定出该中心节点与其邻域节点组成的子图对应的向量表示。如可采用预先设定的映射方式，将该子图映射为向量表示，所述映射方式具体为何种方式不作限制。

这样，针对每个中心节点，均可得到对应的向量表示，进而可将得到的各向量表示输入卷积神经网络，如2层的卷积神经网络，从而得到事件图对应的图嵌入表示。

按照同样的图嵌入表示获取方法，可分别获取到视频事件图谱中的各事件对应的图嵌入表示，进而可分别计算事件图对应的图嵌入表示与视频事件图谱中的各事件对应的图嵌入表示之间的相似度，并可将相似度最高的事件作为选定的事件，即作为待识别的视频对应的事件。

基于上述介绍，图4为本申请所述获取事件图对应的图嵌入表示及计算相似度的过程示意图。如图4所示，以事件图中的第二层节点中的第三个节点为例，假设该节点被选为了中心节点，那么其邻域节点可包括第一层节点以及与该中心节点相连的两个第三层节点，假设K的取值为4，那么则需要补充一个哑节点。

上述处理中，将图嵌入应用于事件知识表示，并结合卷积神经网络构建复杂推断技术，从而提升了视频事件识别结果的准确性。

图5为本申请所述视频事件识别方法的整体实现过程示意图。如图5所示，知识融合&复杂推断即指根据获取到的论元构建事件图、获取事件图对应的图嵌入表示以及通过计算图嵌入表示之间的相似度得到最终识别结果的过程。

需要说明的是，对于前述的方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请所述方案的应用场景可举例说明如下：

1)视频搜索场景，如可标注出视频的事件，以便进行视频搜索召回；

2)视频推荐场景，如可将用户兴趣点与视频的事件进行关联解析，并相应的进行视频推荐；

3)面向企业(ToB)场景，如可识别偷窃、打架等事件。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图6为本申请所述视频事件识别装置60实施例的组成结构示意图。如图6所示，包括：图谱构建模块601及事件识别模块602。

图谱构建模块601，用于构建视频事件图谱，视频事件图谱中的任一事件分别包括：事件的M个论元角色及各论元角色的论元，M为大于一的正整数。

事件识别模块602，用于针对待识别的视频，获取该视频对应的待识别事件的M个论元角色的论元，根据获取到的论元从视频事件图谱中选定一个事件，作为识别出的该视频对应的事件。

M个论元角色可包括：空间场景、动作、人物、物体及相关词。

事件识别模块602可对待识别的视频进行视觉理解，从而得到待识别事件的空间场景论元角色的论元、动作论元角色的论元、人物论元角色的论元及物体论元角色的论元，并可对待识别的视频对应的文本进行文本理解，从而得到待识别事件的相关词论元角色的论元。

具体地，事件识别模块602可对待识别的视频进行空间场景识别，得到待识别事件的空间场景论元角色的论元，对待识别的视频进行动作识别，得到待识别事件的动作论元角色的论元，对待识别的视频进行人脸识别，得到待识别事件的人物论元角色的论元，对待识别的视频进行通用物体识别，得到待识别事件的物体论元角色的论元。

事件识别模块602还可对待识别的视频对应的文本进行实体识别和关键词抽取，得到待识别事件的相关词论元角色的论元。

事件识别模块602可根据获取到的论元构建事件图，事件图中可包括三层节点，其中，第一层节点的数量为一个，对应于待识别事件，第二层节点的数量为M个，每个第二层节点分别对应于一个论元角色，第三层节点的数量等于M个论元角色的论元数量之和，每个第三层节点分别对应于一个论元，各第二层节点分别与第一层节点相连，各第三层节点分别与所属的论元角色对应的第二层节点相连，并可获取事件图对应的图嵌入表示，进而可分别计算事件图对应的图嵌入表示与视频事件图谱中的各事件对应的图嵌入表示之间的相似度，将相似度最高的事件作为选定的事件。

具体地，事件识别模块602可从事件图中的各节点中选出N个中心节点，N为大于一的正整数，且小于事件图中包含的节点数，并可针对任一中心节点，分别进行以下处理：获取该中心节点的邻域节点，邻域节点为与该中心节点相连的节点，确定出该中心节点与邻域节点组成的子图对应的向量表示，将得到的各向量表示输入卷积神经网络，得到事件图对应的图嵌入表示。

其中，事件识别模块602可将空间场景论元角色对应的节点、动作论元角色对应的节点、物体论元角色对应的节点及相关词论元角色对应的节点作为中心节点。

针对任一中心节点，事件识别模块602还可在获取到的该中心节点的邻域节点的数量P小于K时，补充K-P个哑节点，K为大于一的正整数，将补充的哑节点也作为该中心节点的邻域节点，当获取到的该中心节点的邻域节点的数量P大于K时，按照预定规则对获取到的该中心节点的各邻域节点进行排序，丢弃排序后处于第K+1位及之后的邻域节点。

图6所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请装置实施例所述方案，可将知识图谱与视频理解相结合，构建视频事件图谱，其中的事件分别包括多个论元角色及对应的论元，获取待识别的视频对应的待识别事件的相应各论元角色的论元，根据获取到的论元从视频事件图谱中选定事件，从而实现了准确高效的视频事件识别；可实现对于视频模态和文本模态等不同模态的要素提取，并可对提取出的多模态信息进行融合，从而进一步提升了视频事件识别结果的准确性；另外，可将图嵌入应用于事件知识表示，并结合卷积神经网络构建复杂推断技术，从而进一步提升了视频事件识别结果的准确性；再有，各模块高度解耦，具有较强的可扩展性等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网、广域网、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频事件识别方法，包括：

根据获取到的论元从所述视频事件图谱中选定一个事件，作为识别出的所述视频对应的事件，包括：根据获取到的论元构建事件图，所述事件图中包括三层节点，第一层节点的数量为一个，对应于所述待识别事件，第二层节点的数量为M个，每个第二层节点分别对应于一个论元角色，第三层节点的数量等于M个论元角色的论元数量之和，每个第三层节点分别对应于一个论元，各第二层节点分别与所述第一层节点相连，各第三层节点分别与所属的论元角色对应的第二层节点相连；从所述事件图中的各节点中选出N个中心节点，N为大于一的正整数，且小于所述事件图中包含的节点数，针对任一中心节点，分别进行以下处理：获取所述中心节点的邻域节点，所述邻域节点为与所述中心节点相连的节点，确定出所述中心节点与所述邻域节点组成的子图对应的向量表示，将得到的各向量表示输入卷积神经网络，得到所述事件图对应的图嵌入表示；根据所述事件图对应的图嵌入表示以及所述视频事件图谱中的各事件对应的图嵌入表示确定出选定的事件。

2.根据权利要求1所述的方法，其中，所述M个论元角色包括：空间场景、动作、人物、物体及相关词。

3.根据权利要求2所述的方法，其中，所述分别获取所述视频对应的待识别事件的所述M个论元角色的论元包括：

对所述视频进行视觉理解，得到所述待识别事件的所述空间场景论元角色的论元、所述动作论元角色的论元、所述人物论元角色的论元及所述物体论元角色的论元；

对所述视频对应的文本进行文本理解，得到所述待识别事件的所述相关词论元角色的论元。

4.根据权利要求3所述的方法，其中，所述对所述视频进行视觉理解，得到所述待识别事件的空间场景论元角色的论元、动作论元角色的论元、人物论元角色的论元及物体论元角色的论元包括：

对所述视频进行空间场景识别，得到所述待识别事件的所述空间场景论元角色的论元；对所述视频进行动作识别，得到所述待识别事件的所述动作论元角色的论元；对所述视频进行人脸识别，得到所述待识别事件的所述人物论元角色的论元；对所述视频进行通用物体识别，得到所述待识别事件的所述物体论元角色的论元。

5.根据权利要求3所述的方法，其中，所述对所述视频对应的文本进行文本理解，得到所述待识别事件的所述相关词论元角色的论元包括：

对所述文本进行实体识别和关键词抽取，得到所述待识别事件的所述相关词论元角色的论元。

6.根据权利要求1所述的方法，其中，所述根据所述事件图对应的图嵌入表示以及所述视频事件图谱中的各事件对应的图嵌入表示确定出选定的事件包括：

分别计算所述事件图对应的图嵌入表示与所述视频事件图谱中的各事件对应的图嵌入表示之间的相似度，将相似度最高的事件作为选定的事件。

7.根据权利要求2所述的方法，其中，所述从所述事件图中的各节点中选出N个中心节点包括：

将所述空间场景论元角色对应的节点、所述动作论元角色对应的节点、所述物体论元角色对应的节点及所述相关词论元角色对应的节点作为所述中心节点。

8.根据权利要求1所述的方法，还包括：

针对任一中心节点，若获取到的所述中心节点的邻域节点的数量P小于K，则补充K-P个哑节点，K为大于一的正整数，将补充的哑节点也作为所述中心节点的邻域节点；

若获取到的所述中心节点的邻域节点的数量P大于K，则按照预定规则对获取到的所述中心节点的各邻域节点进行排序，丢弃排序后处于第K+1位及之后的邻域节点。

9.一种视频事件识别装置，包括：图谱构建模块及事件识别模块；

所述事件识别模块，用于针对待识别的视频，获取所述视频对应的待识别事件的所述M个论元角色的论元，根据获取到的论元从所述视频事件图谱中选定一个事件，作为识别出的所述视频对应的事件，包括：根据获取到的论元构建事件图，所述事件图中包括三层节点，第一层节点的数量为一个，对应于所述待识别事件，第二层节点的数量为M个，每个第二层节点分别对应于一个论元角色，第三层节点的数量等于M个论元角色的论元数量之和，每个第三层节点分别对应于一个论元，各第二层节点分别与所述第一层节点相连，各第三层节点分别与所属的论元角色对应的第二层节点相连；从所述事件图中的各节点中选出N个中心节点，N为大于一的正整数，且小于所述事件图中包含的节点数，针对任一中心节点，分别进行以下处理：获取所述中心节点的邻域节点，所述邻域节点为与所述中心节点相连的节点，确定出所述中心节点与所述邻域节点组成的子图对应的向量表示，将得到的各向量表示输入卷积神经网络，得到所述事件图对应的图嵌入表示；根据所述事件图对应的图嵌入表示以及所述视频事件图谱中的各事件对应的图嵌入表示确定出选定的事件。

10.根据权利要求9所述的装置，其中，所述M个论元角色包括：空间场景、动作、人物、物体及相关词。

11.根据权利要求10所述的装置，其中，所述事件识别模块对所述视频进行视觉理解，得到所述待识别事件的所述空间场景论元角色的论元、所述动作论元角色的论元、所述人物论元角色的论元及所述物体论元角色的论元，并对所述视频对应的文本进行文本理解，得到所述待识别事件的所述相关词论元角色的论元。

12.根据权利要求11所述的装置，其中，所述事件识别模块对所述视频进行空间场景识别，得到所述待识别事件的所述空间场景论元角色的论元，对所述视频进行动作识别，得到所述待识别事件的所述动作论元角色的论元，对所述视频进行人脸识别，得到所述待识别事件的所述人物论元角色的论元，对所述视频进行通用物体识别，得到所述待识别事件的所述物体论元角色的论元。

13.根据权利要求11所述的装置，其中，所述事件识别模块对所述文本进行实体识别和关键词抽取，得到所述待识别事件的所述相关词论元角色的论元。

14.根据权利要求9所述的装置，其中，所述事件识别模块分别计算所述事件图对应的图嵌入表示与所述视频事件图谱中的各事件对应的图嵌入表示之间的相似度，将相似度最高的事件作为选定的事件。

15.根据权利要求10所述的装置，其中，所述事件识别模块将所述空间场景论元角色对应的节点、所述动作论元角色对应的节点、所述物体论元角色对应的节点及所述相关词论元角色对应的节点作为所述中心节点。

16.根据权利要求9所述的装置，其中，

所述事件识别模块进一步用于，针对任一中心节点，若获取到的所述中心节点的邻域节点的数量P小于K，则补充K-P个哑节点，K为大于一的正整数，将补充的哑节点也作为所述中心节点的邻域节点，若获取到的所述中心节点的邻域节点的数量P大于K，则按照预定规则对获取到的所述中心节点的各邻域节点进行排序，丢弃排序后处于第K+1位及之后的邻域节点。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。