CN116824455A

CN116824455A - 事件检测方法、装置、设备和存储介质

Info

Publication number: CN116824455A
Application number: CN202310812928.9A
Authority: CN
Inventors: 曹自标; 朱勇; 刘倩; 张红光; 王磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-09-29

Abstract

本公开提供了一种事件检测方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习和计算机视觉领域，特别涉及大模型技术，可用于物联网领域。具体实现方案为：获取待检测视频的待检测视频帧；对待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；将视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；根据匹配结果，确定待检测视频所包含的目标事件。根据本公开的技术，提高了事件检测效率和检测结果准确度。

Description

事件检测方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习和计算机视觉领域，特别涉及大模型技术，可用于物联网领域。

背景技术

随着人们对安全性重视程度的不断增加，安防监控设备的使用逐渐普及。通常通过在被监控区域设置监控设备，进行视频数据采集，并根据所采集的视频数据，掌握被监控区域的异常情况，便于及时采取有效措施加以应对。

发明内容

本公开提供了一种事件检测方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种事件检测方法，包括：

获取待检测视频的待检测视频帧；

对待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；

将视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；

根据匹配结果，确定待检测视频所包含的目标事件。

根据本公开的另一方面，还提供了电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例提供的任意一种事件检测方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例提供的任意一种事件检测方法。

根据本公开的技术，提高了事件检测效率和检测结果准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种事件检测方法的流程图；

图2是本公开实施例提供的另一种事件检测方法的流程图；

图3A是本公开实施例提供的一种事件检测系统的架构图；

图3B是本公开实施例提供的另一种事件检测方法的流程图；

图4是本公开实施例提供的一种事件检测装置的结构图；

图5是用来实现本公开实施例的事件检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的事件检测方法和事件检测装置，适用于对视频中的感兴趣事件进行自动化检测的场景中。本公开实施例所提供的各事件检测方法，可以由事件检测装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中，该电子设备可以是服务器或终端设备，本公开对此不作任何限定。

为了便于理解，首先对事件检测方法进行详细说明。

参见图1所示的一种事件检测方法，包括：

S101、获取待检测视频的待检测视频帧。

其中，待检测视频可以理解为具备事件检测需求的视频片段。待检测视频帧可以理解为构成待检测视频的图片帧。需要说明的是，待检测视频帧可以是构成待检测视频的图片帧中的至少部分，本公开对待检测视频帧的数量不作任何限定。

可选的，可以在执行事件检测方法的执行设备的本地、或者与该执行设备通信连接的其他存储设备中，预先存储待检测视频；并在需要进行事件检测时，从相应存储位置进行待检测视频的获取；提取待检测视频中的至少一个图片帧，作为待检测视频帧，以供后续处理。在一个具体实现方式中，可以从视频采集设备中直接获取待检测视频，以供使用。

为了减少执行事件检测方法的执行设备的数据运算量，从而进一步提高事件检测效率，可选的，还可以直接在执行事件检测方法的执行设备的本地，或者与该执行设备通信连接的其他存储设备中，预先存储待检测视频的待检测视频帧，并在需要进行事件检测时，从相应存储位置进行待检测视频帧的获取即可。

在一个可选实施例中，待检测视频的待检测视频帧，可以采用以下方式确定：确定待检测视频中的各原始视频帧；根据相邻原始视频帧之间的差异情况，从各原始视频帧中选取至少一个待检测视频帧。

其中，原始视频帧为构成待检测视频的各图片帧。相应的，针对任意两个相邻原始视频帧，通过相邻原始视频帧之间的差异情况，反映相邻原始视频帧之间的画面内容变化情况；若差异越大，则表明相邻原始视频帧之间的画面变化情况较大，也即画面内容差异显著，此时可以将在后的原始视频帧添加至待检测视频帧中。

通过上述差异化选取的方式进行待检测视频帧的确定，能够筛选出画面变化明显的待检测视频帧，避免关键信息的遗漏，从而避免了目标事件的遗漏，进而提高了目标事件判定结果的全面性。

在另一可选实施例中，可以直接按照预设抽帧频率，对待检测视频进行抽帧处理，得到至少一个待检测视频。其中，预设抽帧频率可以由技术人员根据需要或经验值进行设定，或通过大量试验调整确定。

通过上述抽帧选取的方式进行待检测视频帧的确定，操作过程方便快捷，提高了待检测视频帧的选取效率。

在又一可选实施例中，可以确定待检测视频中的各原始视频帧；根据相邻原始视频帧之间的差异情况，从各原始视频帧中选取至少一个第一候选视频帧；按照预设抽帧频率，从各原始视频帧中抽取至少一个第二候选视频帧；根据第一候选视频帧和第二候选视频的并集，确定待检测视频帧。其中，预设抽帧频率可以由技术人员根据需要或经验值进行设定，或通过大量试验调整确定。

可以理解的是，通过采用差异化选取综合抽帧选取的方式，进行不同候选视频帧的确定，保证了候选视频帧的全面性，避免了关键信息的遗漏，从而避免了后续事件检测结果的遗漏。同时，通过第一候选视频帧和第二候选视频帧取交集的方式，进行待检测视频帧的确定，避免了候选视频帧的重复选取，给后续事件检测带来运算量的增加，节约了运算资源占用量。

S102、对待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征。

其中，跨模态的语义特征可以理解为跨域不同模态的语义特征，旨在利用不同模态下的语义特征之间的互补性，排除不同模态下的语义特征的冗余性，通过不同模态下的语义特征相互协同、互为补充，实现携带信息更加丰富、全面且简捷的语义特征的提取。

示例性的，可以采用相同或不同的特征提取方式，对待检测视频帧进行不同模态的语义特征的提取；通过对不同模态的语义特征进行去重处理，消除不同模态下的语义特征的冗余性；通过将去重后的各模态下的语义特征进行特征融合，得到视觉语义特征。

S103、将视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果。

其中，候选事件可以理解为感兴趣的事件，例如与质检、安全或违规等相关的事件，可以根据需求或经验进行设置或调整。

其中，候选事件的事件描述数据，用于对相应候选事件进行至少一个维度的内容描述。其中，事件描述数据可以采用文本、图片、音频和视频中的至少一种形式加以呈现，本公开对事件描述数据的具体呈现形式不作任何限定。

示例性的，针对任一候选事件的事件描述数据，可以采用相同或不同的特征提取方式，对该事件描述数据进行不同模态的语义特征的提取；通过对不同模态的语义特征进行去重处理，消除不同模态下的语义特征的冗余性；通过将去重后的各模态下的语义特征进行特征融合，得到该候选事件的事件语义特征。

值得注意的是，针对任一候选事件，生成该候选事件的事件语义特征的执行设备，与执行事件检测方法的执行设备，两者可以相同或不同，本公开对此不作任何限定，仅需保证在进行事件检测之前，能够获取到不同候选事件的事件语义特征即可。

为了便于进行数据的查找匹配，可以将不同候选事件的事件语义特征预先存储于事件检索库中，并在事件检索库中进行视觉语义特征的查找匹配即可，从而避免了数据分散导致查找效率低，或查找范围不一，导致匹配结果不稳定的情况发生。

需要说明的是，事件检索库可以存储于执行事件检测方法的设备或集群中，或者是与事件检测方法的执行设备通信连接的其他存储设备或集群中，本公开对事件检索库的具体存储位置不作任何限定。

可选的，可以确定视觉语义特征与不同候选事件的事件语义特征之间的相似度；根据相似度，确定匹配结果。

S104、根据匹配结果，确定待检测视频所包含的目标事件。

示例性的，从相匹配的至少一个候选事件中，选取待检测视频帧的目标事件；将待检测视频中不同待检测视频帧对应的目标事件，作为待检测视频所包含的目标事件。

可选的，若采用相似度匹配方式，则选取相似度较高(如最高)的至少一个候选事件，作为待检测视频帧对应的目标事件；将待检测视频中不同待检测视频帧对应的目标事件，作为待检测视频所包含的目标事件。

示例性的，可以在检测到目标事件的情况下，进行报警提醒；或者，在待检测视频中相应待检测视频帧的位置，进行目标事件标记；或者，将目标事件的相关信息，添加至预设队列中，以供数据需求方按需消费(例如可以采用订阅方式消费)。其中，预设队列可以采用现有技术中的至少一种队列加以实现，例如可以是卡夫卡队列。

需要说明的是，本公开对报警提醒的具体提醒方式、标记目标事件的具体标记方式以及数据需求方的数据消费方式，不作任何限定。

本公开实施例通过引入待检测视频的视觉语义特征，与不同候选事件对应的事件语义特征进行查找匹配，从而根据匹配结果，确定出待检测视频所包含的目标事件，上述查找匹配过程自动化实现，无需人为介入，提高了匹配效率，进而提高了事件检测效率。由于视觉语义特征和事件语义特征均为跨模态的语义特征，所携带的语义信息更加丰富、全面且简捷，冗余特征较少，因此，基于视觉语义特征和事件语义特征所确定的目标事件，准确度更高。

在一个可选实施例中，待检测视频可以包括质检产品的产品监控视频，相应的候选事件可以包括质检合规事件，例如不同的质检问题事件，从而适配对质检产品进行自动化质检的应用场景。

在另一可选实施例中，待检测视频可以包括安保监控视频，相应的候选事件可以包括安保异常事件，例如打架斗殴事件、或管制物品携带事件等，从而适配对监控范围内的安保问题进行自动化识别的应用场景。

在又一可选实施例中，待检测视频可以包括交通监控视频，相应的候选事件可以包括交通违规事件，例如压线行驶事件、逆向行驶事件或闯红灯事件等，从而适配对监控范围内的交通安全问题进行自动化识别的应用场景。

在再一可选实施例中，待检测视频可以包括居家监控视频，相应的候选事件可以包括居家安全事件，例如监护人摔倒事件、或入户盗窃事件等，从而适配对居家安全问题进行自动化监测的应用场景。

可以理解的是，通过对待检测视频以及相应候选事件的细化，能够适配不同的应用场景，实现相应场景下的安全问题或异常问题的自动化监测，拓宽了事件检测方法的使用范围，普适性好。

在上述各技术方案的基础上，本公开还提供了一个可选实施例，在该可选实施例中，对视觉语义特征和事件语义特征的确定机制，进行了优化改进。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例中的相关表述，在此不再赘述。

参见图2所示的一种事件检测方法，包括：

S201、获取待检测视频的待检测视频帧。

S202、基于视觉语言大模型，对待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征。

S203、将视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，候选事件的事件语义特征为基于视觉语言大模型对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果。

S204、根据匹配结果，确定待检测视频所包含的目标事件。

其中，视觉语言大模型基于样本对象在样本图片中的不同维度信息所构建的场景图，进行多模态预测任务学习得到。

其中，场景图用于表征不同样本图片中不同样本对象之间以及相同样本对象的属性信息之间的关联关系。示例性的，可以基于样本图片中的样本对象、样本对象的属性信息以及不同样本对象之间的关联关系，构建该样本图片的场景图。

其中，多模态预测任务可以包括至少两个模态下的预测任务，例如可以包括对象预测任务、属性信息预测任务和关系预测任务等中的至少一种。其中，大模型用于表征具有较大的参数数量(如上亿规模)的神经网络模型。

可以理解的是，由于视觉语义大模型基于多维度信息所构建的场景图进行多模态预测任务学习得到，因此，视觉语义大模型的语义理解能力将在常规神经网络模型的基础上，有大幅度提升。同时，场景图的引入，能够使模型更精准的把握视觉语义跨模态间的细粒度语义对齐。

在一个具体实施例中，视觉语言大模型可以是ERNIE-VIL(Knowledge EnhancedVision-Language Representations Through Scene Graph，知识增强视觉-语言预训练模型)。

本公开实施例通过引入相同的视觉语言大模型对待检测视频帧和候选事件的事件描述数据，进行跨模态的语义特征的提取，得到相应的视觉语义特征和事件语义特征，保证了对待检测视频帧和事件描述数据所提取特征的模态一致性和多模态融合性，避免了单一模态或差异模态下的语义特征的使用，导致语义特征无法匹配的情况发生，从而通过视觉语义特征和事件语义特征进行事件匹配时，避免了误匹配和漏匹配的发生，提高了事件匹配结果的准确度。

在一个可选实施例中，可以根据匹配结果，实现有无目标事件的判定。例如，若匹配结果中包括某一候选事件，则将该候选事件作为待检测视频所包含的目标事件；若匹配结果中不包括某一候选事件，则禁止将该候选事件作为待检测视频所包含的目标事件。

在另一可选实施例中，还可以根据匹配结果，实现目标事件的细粒度信息的确定。

示例性的，可以直接将所匹配的候选事件的事件属性，作为目标事件的事件属性。其中，候选事件的事件属性可以包括事件类别、事件内容标签和事件严重程度等中的至少一种。其中，事件类别用于对相同类别属性的事件进行归类。需要说明的是，相同事件类别下候选事件的数量可以为至少一个。其中，事件内容标签用于反映相应候选事件的内容概要或主题等。其中，事件严重程度用于表征相应候选事件的严重情况，可以通过严重等级或程度得分加以呈现。

其中，候选事件的事件属性，可以由技术人员人为设置，或通过对事件描述数据进行属性特征提取得到，本公开对事件属性的获取方式不作任何限定。

可选的，还可以根据目标事件在待检测视频中的持续时长，确定目标事件的事件严重程度。其中，事件严重程度可以与持续时长正相关，也即持续时间越长，表明事件越严重。

或者可选的，还可以根据目标事件在待检测视频帧中所出现的人员密集程度和事件关联物品的物品类别等中的至少一种，确定目标事件的事件严重程度。例如，人员密集程度越大，表明事件越严重；物品类别所属管制等级越高，表明事件越严重等。

可以理解的是，通过引入候选事件的事件属性，辅助进行目标事件的事件类别和/或事件严重程度等事件属性的确定，能够实现对待检测视频所包含目标事件的确定过程中，进一步进行更细粒度的事件属性的确定，实现了事件分类和/或事件严重程度划分，提高了事件检测结果所携带信息的丰富性。

示例性的，本公开可以对不同事件类别的目标事件，采用相同或不同的报警方式进行报警提醒，或者采用相同或不同的标记方式进行事件标记。其中，报警方式不同可以通过声音、光、文字或震动等报警类别、或相同报警方式下的配置属性等加以区分。例如声音的音调、音色或频率等；光的颜色或频率等；文字的字体、粗细、前景色或背景色等；震动的强度或频率等。其中，标记方式不同可以通过标记符的类别、或相同标记符的大小、颜色、粗细、前景色或背景色等配置属性加以区分。

在上述各实施例的技术方案的基础上，还可以通过事件检测，辅助实现历史事件的检索定位。示例性的，待检测视频可以是将获取待查询事件所属视频；相应的，获取待检测视频的待检测视频帧，可以是获取待查询事件所属视频的待检测视频帧；相应的，确定待查询事件所属视频中的目标事件之后，可以直接在历史事件检测结果中，快速定位相应目标事件，提高了事件检索效率。

在上述各实施例的技术方案的技术上，还可以通过事件检测，辅助丰富候选事件的相关数据。

在一个可选实施例中，可以将不同候选事件的事件语义特征，存储于事件检索库中；相应的，可以根据匹配有目标事件的待检测视频帧的属性数据，补充事件检索库中相应目标事件的事件属性。

其中，待检测视频帧的属性数据，可以是基于待检测视频帧的描述数据(如文本和画面等中的至少一种)所确定出的语义标签。

可以理解的是，通过上述方式，能够逐步提高事件检索库中目标事件的事件属性的丰富性和全面性，为后续进行事件检测时所得事件检测结果中的事件属性的全面性的提高，奠定了基础。

在另一可选实施例中，可以将不同候选事件的事件语义特征，存储于事件检索库中；相应的，将匹配有目标事件的待检测视频帧的视觉语义特征，作为与目标事件相同事件类别下的其他候选事件的事件语义特征，添加至事件检索库中。

可以理解的是，通过上述方式，能够逐步提高事件检索库中，相同事件类别下不同候选事件的丰富性和全面性，为后续进行相同事件类别下更细粒度的候选事件的匹配，提供了数据支撑。

在上述各技术方案的基础上，本公开还提供了一个优选实施例，以下将结合图3A所示的事件检测系统的架构图，对图3B所示的事件检测方法，进行详细说明。

示例性的，图3A所示的事件检测系统架构的PAAS(Platform as aService，平台即服务)层可以基于Kubernetes(简称K8s，是一个开源的，用于管理云平台中多个主机上的容器化的应用)集群实现；IAAS(Infrastructure as a Service，基础架构即服务)层，可以基于云基础设施实现。

参见图3B所示的事件检测方法，包括：

S301、配置告警事件：响应于监控事件配置操作，预先配置不同类别下的至少一个告警事件的事件描述数据。

其中，事件描述数据可以包括描述文本、图片、音频片段和视频片段等中的至少一种。

其中，告警事件配置操作，可以通过调用事件注册接口实现。示例性的，可以通过图3A中服务层的事件管理模块，进行告警事件配置；进一步的，还可以通过事件管理模块进行已配置告警事件的查询。可选的，可以通过图3A中应用层的接口/网关，提供接口调用和数据传输服务。

为了提高事件配置的安全性，可选的，还可以在进行告警事件配置之前，对数据配置方的身份和接口调用权限进行鉴权。示例性的，可以通过图3A中服务层的权限管理模块，对数据配置方进行鉴权。

S302、事件语义特征提取：基于视觉语义大模型，提取事件描述数据中的事件语义特征。

其中，视觉语义大模型基于样本图像中各样本对象的不同维度信息所构建的场景图，进行多模态预测任务学习得到。例如，视觉语义大模型可以是ERNIE_VIL模型。

S303、事件检索库构建/更新：将不同告警事件的事件语义特征及其告警类别和告警严重程度，关联存储至事件检索库中。

其中，不同告警事件对应的告警类别和告警严重程度，可以由技术人员根据需要或经验进行设置。

示例性的，可以通过图3A中的语义库，实现事件检索库的构建和更新。

S304、待检测视频获取：获取待检测视频。

示例性的，可以通过图3A中服务层的媒资管理模块，对待检测视频进行存储管理；可以通过图3A中的视频库，进行待检测视频的存储。例如，视频库可以基于CEPH(一种分布式文件系统)实现。

S305、待检测视频帧抽取：抽取待检测视频中的至少一个待检测视频帧。

示例性的，可以确定构成待检测视频的相邻图片帧之间的相似度，并在相似度差异较大(如小于预设差异阈值)的情况下，将相邻图片帧中的至少一个，作为待检测视频帧；按照预设抽帧频率，抽取待检测视频中的待检测视频帧；对待检测视频帧进行去重处理，以更新待检测视频帧。其中，预设差异阈值和抽帧频率，可以由技术人员根据经验值进行设置，或通过大量试验加以确定。

S306、视觉语义特征提取：基于视觉语义大模型，提取待检测视频帧中的视觉语义特征。

示例性的，可以在图3A的模型层中，部署视觉语义大模型，进行告警事件对应事件语义特征、以及待检测视频帧对应视觉语义特征的提取。

示例性的，可以通过图3A中服务层的任务管理模块，在进行视觉语义特征的批量提取时，进行并发控制。例如，可以通过预先设置任务队列，按照任务队列中各视觉语义特征提取任务的排列顺序，依次进行特征提取。

示例性的，可以通过图3A中的语义库，实现视觉语义特征的存储，仅需与前述事件检索库区分开即可。例如，语义库可以基于FAISS(Facebook AI Similarity Search，一种相似性搜索库)实现。

S307、语义特征检索：根据视觉语义特征与事件检索库中各事件语义特征的相似度，从事件检索库中匹配告警事件。

示例性的，可以通过图3A中服务层的语义查询模块，在事件检索库中进行告警事件的查询匹配。

S308A、触发告警：若存在相似度大于预设相似度阈值的告警事件，则触发告警。

其中，预设相似度阈值可以由技术人员根据经验值进行设置，或通过大量试验加以确定。

示例性的，可以基于告警事件、及其事件类别和事件严重程度，进行事件告警。其中，不同事件类别或不同事件严重程度的告警事件，所采用的的告警方式相同或不同。

示例性的，可以通过图3A中服务层的告警管理模块，触发告警和告警事件查询等。

可选的，还可以提取匹配到告警事件的待检测视频帧所属视频片段的文本标签，并根据提取结果，确定对应告警事件的事件类别。

示例性的，可以通过图3A中的事件库进行已配置告警事件的存储，以及已匹配告警事件的存储。例如，事件库可以基于MYSQL(一种关系型数据库管理系统)实现。

S308B、队列更新：将相似度大于预设相似度阈值的告警事件，及其事件类别和事件严重程度，生成队列消息，添加至预设队列中，以供数据需求方按需订阅消费。

其中，预设队列可以是卡夫卡队列。

需要说明的是，执行S301～S303的设备，与执行S304～S308A/S308B的设备，可以相同或不同，本公开对此不作任何限定。

作为上述各事件检测方法的实现，本公开还提供了一种实施上述各事件检测方法的执行装置的可选实施例。

参见图4所示的一种事件检测装置400，包括：待检测视频帧获取模块401、视觉语义特征得到模块402、视觉语义特征匹配模块403和目标事件确定模块404。其中，

待检测视频帧获取模块401，用于获取待检测视频的待检测视频帧；

视觉语义特征得到模块402，用于对所述待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；

视觉语义特征匹配模块403，用于将所述视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，所述候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；

目标事件确定模块404，用于根据匹配结果，确定所述待检测视频所包含的目标事件。

在一个可选实施例中，所述视觉语义特征得到模块402，具体用于：

基于视觉语言大模型，对所述待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；

所述候选事件的事件语义特征为基于所述视觉语言大模型对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；

其中，所述视觉语言大模型基于样本对象在样本图片中的不同维度信息所构建的场景图，进行多模态预测任务学习得到。

在一个可选实施例中，所述目标事件确定模块404，具体用于：

将所匹配的候选事件的事件属性，作为所述目标事件的事件属性；

其中，所述事件属性包括事件类别和/或事件严重程度。

在一个可选实施例中，所述待检测视频为待查询事件所属视频；所述装置还包括：

目标事件定位模块，用于在历史事件检测结果中，定位所述目标事件。

在一个可选实施例中，不同候选事件的事件语义特征存储于事件检索库中；所述装置还包括：

事件属性补充模块，用于根据匹配有目标事件的待检测视频帧的属性数据，补充所述事件检索库中相应目标事件的事件属性；和/或，

候选事件添加模块，用于将匹配有目标事件的待检测视频帧的视觉语义特征，作为与所述目标事件相同事件类别下的其他候选事件的事件语义特征，添加至所述事件检索库中。

在一个可选实施例中，所述装置还包括待检测视频帧确定模块，具体包括：

原始视频帧确定单元，用于确定所述待检测视频中的各原始视频帧；

第一候选视频帧确定单元，用于根据相邻原始视频帧之间的差异情况，从各所述原始视频帧中选取至少一个第一候选视频帧；

第二候选视频帧确定单元，用于按照预设抽帧频率，从各所述原始视频帧中抽取至少一个第二候选视频帧；

待检测视频帧确定单元，用于根据所述第一候选视频帧和所述第二候选视频的并集，确定所述待检测视频帧。

在一个可选实施例中，所述待检测视频和所述待检测视频下相应的候选事件，包括下述至少一种：

所述待检测视频包括质检产品的产品监控视频，相应的候选事件包括质检合规事件；

所述待检测视频包括安保监控视频，相应的候选事件包括安保异常事件；

所述待检测视频包括交通监控视频，相应的候选事件包括交通违规事件；

所述待检测视频包括居家监控视频，相应的候选事件包括居家安全事件。

上述事件检测装置可执行本公开任意实施例所提供的事件检测方法，具备执行各事件检测方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的待检测视频、待检测视频帧、以及事件语义特征等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如事件检测方法。例如，在一些实施例中，事件检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的事件检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行事件检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种事件检测方法，包括：

获取待检测视频的待检测视频帧；

对所述待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；

将所述视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，所述候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；

根据匹配结果，确定所述待检测视频所包含的目标事件。

2.根据权利要求1所述的方法，其中，所述对所述待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征，包括：

3.根据权利要求1或2所述的方法，其中，所述根据匹配结果，确定所述待检测视频所包含的目标事件，包括：

其中，所述事件属性包括事件类别和/或事件严重程度。

4.根据权利要求1或2所述的方法，其中，所述待检测视频为待查询事件所属视频；所述方法还包括：

在历史事件检测结果中，定位所述目标事件。

5.根据权利要求1或2所述的方法，其中，不同候选事件的事件语义特征存储于事件检索库中；所述方法还包括：

根据匹配有目标事件的待检测视频帧的属性数据，补充所述事件检索库中相应目标事件的事件属性；和/或，

将匹配有目标事件的待检测视频帧的视觉语义特征，作为与所述目标事件相同事件类别下的其他候选事件的事件语义特征，添加至所述事件检索库中。

6.根据权利要求1或2所述的方法，其中，所述待检测视频的待检测视频帧，采用以下方式确定：

确定所述待检测视频中的各原始视频帧；

根据相邻原始视频帧之间的差异情况，从各所述原始视频帧中选取至少一个第一候选视频帧；

按照预设抽帧频率，从各所述原始视频帧中抽取至少一个第二候选视频帧；

根据所述第一候选视频帧和所述第二候选视频的并集，确定所述待检测视频帧。

7.根据权利要求1或2所述的方法，其中，所述待检测视频和所述待检测视频下相应的候选事件，包括下述至少一种：

8.一种事件检测装置，包括：

待检测视频帧获取模块，用于获取待检测视频的待检测视频帧；

视觉语义特征得到模块，用于对所述待检测视频帧进行跨模态的语义特征的提取，得到视觉语义特征；

视觉语义特征匹配模块，用于将所述视觉语义特征与不同候选事件的事件语义特征进行匹配；其中，所述候选事件的事件语义特征为对相应候选事件的事件描述数据，进行跨模态的语义特征提取的提取结果；

目标事件确定模块，用于根据匹配结果，确定所述待检测视频所包含的目标事件。

9.根据权利要求8所述的装置，其中，所述视觉语义特征得到模块，具体用于：

10.根据权利要求8或9所述的装置，其中，所述目标事件确定模块，具体用于：

其中，所述事件属性包括事件类别和/或事件严重程度。

11.根据权利要求8或9所述的装置，其中，所述待检测视频为待查询事件所属视频；所述装置还包括：

12.根据权利要求8或9所述的装置，其中，不同候选事件的事件语义特征存储于事件检索库中；所述装置还包括：

13.根据权利要求8或9所述的装置，其中，所述装置还包括待检测视频帧确定模块，具体包括：

14.根据权利要求8或9所述的装置，其中，所述待检测视频和所述待检测视频下相应的候选事件，包括下述至少一种：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的事件检测方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的事件检测方法。

17.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述事件检测方法的步骤。