CN110620905A

CN110620905A - 视频监控方法、装置、计算机设备和存储介质

Info

Publication number: CN110620905A
Application number: CN201910843356.4A
Authority: CN
Inventors: 胡梦华
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-27

Abstract

本申请涉及生物识别技术，提供了一种视频监控方法、装置、计算机设备和存储介质。所述方法包括：获取监控视频，从所述监控视频中提取视频图像，以及所述视频图像对应的视频帧序列和音频片段；将所述视频图像、所述视频帧序列和所述音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量；将所述特征向量输入已训练的第二预测模型进行预测，得到所述视频图像对应的动作标签；根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作；当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端。采用本方法能够提高监控准确性和效率。

Description

视频监控方法、装置、计算机设备和存储介质

技术领域

本申请涉及监控技术领域，特别是涉及一种视频监控方法、装置、计算机设备和存储介质。

背景技术

随着视频监控技术的不断发展，视频监控系统被广泛应用于生活的方方面面，比如道路监控、社区监控、家庭监控或医院监控等，基于视频监控能够远程掌握特定区域的实时状况，从而及时作出相应应对措施。目前，通常是实时的从监控视频中提取视频帧，将实时提取的视频帧输入已训练的预测模型进行预测，得到视频帧相应的识别结果，并当识别结果符合预设条件时触发告警。

然而，该种监控方式，需要实时提取每个视频帧并对每个视频帧进行预测，增加了处理监控复杂度和服务器的数据处理压力，存在监控效率低的问题，而且根据单视频帧的识别结果触发告警，可能存在准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高监控准确性和效率的视频监控方法、装置、计算机设备和存储介质。

一种视频监控方法，所述方法包括：

获取监控视频，从所述监控视频中提取视频图像，以及所述视频图像对应的视频帧序列和音频片段；

将所述视频图像、所述视频帧序列和所述音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量；

将所述特征向量输入已训练的第二预测模型进行预测，得到所述视频图像对应的动作标签；

根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作；

当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端。

在其中一个实施例中，所述当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端之后，所述方法还包括：

接收所述终端针对所述预警信息反馈的确认信息；

当所述确认信息为正确预警信息时，将所述视频图像、所述视频帧序列和所述音频片段，以及相应的动作标签确定为正样本，将所述正样本更新至优化样本集；

当所述确认信息为错误预警信息时，将所述视频图像、所述视频帧序列和所述音频片段，以及相应的动作标签确定为负样本，将所述负样本更新至所述优化样本集；

实时检测预设触发条件；

当检测所述预设触发条件时，基于所述优化样本集对所述第一预测模型和所述第二预测模型进行优化。

在其中一个实施例中，所述根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作，包括：

按照所述视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较；

统计与所述动作标签库中的危险动作标签一致的动作标签的数量；

当统计到连续的预设数量的动作标签均与所述危险动作标签一致时，则判定所述监控视频中包括危险动作。

将与所述动作标签库中的第一动作标签一致的动作标签所对应的视频图像的采集时间戳记为第一时间戳；

当自所述第一时间戳起达到预设时长后尚未检测到与所述动作标签库中的第二动作标签一致的动作标签时，则判定所述监控视频中包括危险动作。

在其中一个实施例中，所述从所述监控视频中提取视频图像，以及所述视频图像对应的视频帧序列和音频片段，包括：

从所述监控视频中提取初始视频图像，并从所述初始视频图像中检测出多个监控对象；

根据每个监控对象分别对所述初始视频图像进行处理得到相应视频图像；

根据所述视频图像从监控视频中提取相应的视频帧序列和音频片段；

所述根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作，包括：

将所述多个监控对象各自对应的动作标签分别与动作标签库进行比较；

根据所述动作标签对应的比较结果确定所述监控视频是否包括危险动作。

在其中一个实施例中，所述根据所述动作标签对应的比较结果确定所述监控视频是否包括危险动作，包括：

根据所述动作标签对应的比较结果将所述动作标签进行分类；

统计每个类别的动作标签数量；

当统计到预设类别的动作标签数量大于或等于数量阈值时，则判定所述监控视频包括危险动作，并根据所述每个类别的动作标签数量确定危险等级；

所述当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端，包括：

根据所述危险等级确定预警等级，将根据所述预警等级触发生成的预警信息推送至终端。

在其中一个实施例中，所述第一预测模型和所述第二预测模型的训练步骤包括：

获取训练样本集；所述训练样本集包括目标视频图像、所述目标视频图像对应的目标视频帧序列和目标音频片段，以及相应的目标动作标签；

将所述目标视频图像、所述目标视频帧序列和所述目标音频片段作为第一预测模型的输入特征，将相应的所述目标动作标签作为第二预测模型的期望的输出特征，对初始化的第一预测模型和第二预测模型进行联合训练，得到已训练的第一预测模型和第二预测模型。

一种视频监控装置，所述装置包括：

获取模块，用于获取监控视频，从所述监控视频中提取视频图像，以及所述视频图像对应的视频帧序列和音频片段；

预测模块，用于将所述视频图像、所述视频帧序列和所述音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量；

所述预测模块，还用于将所述特征向量输入已训练的第二预测模型进行预测，得到所述视频图像对应的动作标签；

判定模块，用于根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作；

预警模块，用于当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例中所述的视频监控方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例中所述的视频监控方法的步骤。

上述视频监控方法、装置、计算机设备和存储介质，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段，通过已训练的第一预测模型和第二预测模型，根据所提取出的视频图像、视频帧序列和音频片段得到准确性较高的动作标签，基于该动作标签和预配置的动作标签库判断相应视频图像对应的动作是否为危险动作，以判断监控视频中是否包括危险动作，能够提高危险动作的判断准确性，并针对危险动作进行及时预警。这样，无需针对监控视频中的每个视频帧进行预测处理，能够提高监控效率，而结合视频图像、视频帧序列和音频片段预测动作标签能够提高动作标签的预测准确性，从而能够提高监控准确性。

附图说明

图1为一个实施例中视频监控方法的应用场景图；

图2为一个实施例中视频监控方法的流程示意图；

图3为另一个实施例中视频监控方法的流程示意图；

图4为一个实施例中视频监控装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频监控方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104从所获取到的监控视频中提取视频图像、视频帧序列和音频片段，将所提取出的视频图像、视频帧序列和音频片段输入已训练的第一预测模型进行预测得到特征向量，将预测得到的特征向量输入已训练的第二预测模型进行预测得到视频图像对应的动作标签，根据预测得到的动作标签和动作标签库判断监控视频是否包括危险动作，并在监控视频中包括危险动作时，触发预警信息并推送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频监控方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取监控视频，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段。

其中，视频图像是从监控视频中提取出的图像，具体可以是监控视频中的视频关键帧。视频帧序列是由多个视频帧组成的序列或集合，具体可以是由监控视频中位于所提取出的视频图像之前或之后的指定数量的视频帧组成的序列，也可以是由监控视频中以视频图像为中心的多个视频帧组成的序列。音频片段是从监控视频中提取出的与视频图像对应的一段音频，具体可以是监控视频中与视频帧序列对应的音频，也可以是涵盖提取的视频图像的预设时长的音频片段。

具体地，服务器实时从监控摄像头或其他设备获取监控视频，按照预设方式从所获取到的监控视频中提取视频图像，并根据视频图像从监控视频中提取视频帧序列和音频片段。其他设备比如监控终端或监控系统。

在一个实施例中，服务器按照预设周期从监控视频中提取视频图像，并从监控视频中提取与所提取出的每个视频图像对应的视频帧序列和音频片段。预设周期是预先设定的周期，具体可以是时间周期，比如每隔1秒，也可以是空间周期，比如每隔5个视频帧或视频关键帧。服务器从监控视频中提取出的任意相邻两个视频图像各自的采集时间戳之间的时长为1秒，或者，从监控视频中提取出的任意相邻两个视频图像之间间隔5个视频帧。

在一个实施例中，服务器按照预设周期和监控视频的播放时序依次从监控视频中提取多个视频图像。在一个实施例中，服务器按照预设周期并行的从监控视频中提取多个视频图像。

S204，将视频图像、视频帧序列和音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量。

其中，第一预测模型是基于预先获取的训练样本集训练得到的、能够用于根据视频图像、视频帧序列和音频片段预测得到相应特征向量的模型。训练样本集是由多个用于训练模型的训练样本组成的集合。第一预测模型具体可以是基于卷积神经网络训练得到的。

具体地，服务器将从监控视频中提取出的视频图像，以及该视频图像对应的视频帧序列和音频片段作为输入特征输入已训练的第一预测模型，通过该第一预测模型对视频图像、视频帧序列和音频片段进行预测得到相应的特征向量。

在一个实施例中，服务器将按照预设周期提取出的每个视频图像和相应的视频帧序列及音频片段作为输入特征，输入已训练的第一预测模型进行预测，得到每个视频图像对应的特征向量。

在一个实施例中，服务器可通过单个线程依次从监控视频中提取每个视频图像和相应的视频帧序列及音频片段，通过第一预测模型和第二预测模型对所提出的每个视频图像和相应的视频帧序列及音频片段进行预测，并在预测得到相应的动作标签后，继续执行按照预设周期依次从监控视频中提取每个视频图像和相应的视频帧序列及音频片段的步骤。

在一个实施例中，服务器通过多个线程并行的执行从监控视频中提取视频图像和相应的视频帧序列及音频片段的步骤，以及基于提取出的视频图像和相应的视频帧序列及音频片段的步骤。具体地，服务器通过提取线程按照预设周期依次从监控视频中提取视频图像和每个视频图像相应的视频帧序列及音频片段，并将提取出的每个视频图像和相应的视频帧序列及音频片段推送至预测线程进行预测。

S206，将特征向量输入已训练的第二预测模型进行预测，得到视频图像对应的动作标签。

其中，第二预测模型是基于预先获取的训练样本集训练得到的、能够用于根据第一预测模型预测得到的特征向量预测相应动作标签的模型。动作标签是用于标识动作的标签，具体可以是用于标识动作是否为危险动作的标签。

具体地，服务器将第一预测模型预测基于视频图像、视频帧序列和音频片段预测得到的特征向量，作为第二预测模型的输入特征输入已训练的第二预测模型，通过该第二预测模型对该特征向量进行预测得到相应的动作标签，并将预测得到的动作标签作为相应视频图像所对应的动作标签。

S208，根据动作标签和动作标签库确定监控视频是否包括危险动作。

其中，动作标签库是由多个预先配置的动作标签组成的标签集合。动作标签库中包括危险动作标签，还可包括安全动作标签或正常动作标签。

具体地，服务器将第二预测模型预测得到的动作标签分别与动作标签库中的每个危险动作标签进行比较，以根据比较结果确定该动作标签对应的动作是否为危险动作，也就是确定该动作标签对应的视频图像所对应的动作是否为危险动作，从而确定相应监控视频中是否包括危险动作。

在一个实施例中，当视频图像对应的动作标签与动作标签库中的危险动作标签一致时，则表明该动作标签为危险动作标签，服务器则判定该视频图像对应的动作为危险动作，并判定相应监控视频中包括危险动作。

S210，当判定监控视频包括危险动作时，将触发生成的预警信息推送至终端。

其中，预警信息是用于预警的提示信息。预警信息具体可包括表示监控到危险动作或危险情况的提示信息，还可包括危险动作所对应的视频图像，还可包括该视频图像所对应的视频帧序列、音频片段和动作标签中的至少一种。

具体地，当根据预测得到的动作标签和预配置的动作标签库判定监控视频中包括危险动作时，服务器触发生成预警信息，并将所生成的预警信息推送至相应终端。当判定监控视频包括危险动作时，也就是当判定预测得到的动作标签为危险动作标签时，服务器可根据该危险动作标签和/或相应的视频图像触发生成预警信息。

在一个实施例中，当判定监控视频中包括危险动作时，服务器触发生成预警信息，查询预配置的预设用户账号，并将所生成的预警信息推送至以所查询到的预设用户账号登录的终端，以实现危险动作的及时预警。预设用户账号是预先设定的用户账号，比如监控人员的账号，具体可根据应用场景来设定。例如，当应用场景为家庭视频监控时，预设用户账号可以是一个或多个家庭成员的账号，当应用场景为医院或养老院时，预设用户账号可以是医护人员或管理人员的账号。

在一个实施例中，服务器按照预设周期依次从监控视频中提取视频图像和相应的视频帧序列及音频片段，并对所提取出的视频图像和相应的视频帧序列及音频片段进行预测得到相应的动作标签。在当前预测得到的动作标签为危险动作标签时，服务器则触发预警信息。服务器可通过多个线程按照预设周期并行的从监控视频中提取视频图像和相应的视频帧序列及音频片段，并对各自提取出的视频图像和相应的视频帧序列及音频片段进行预测得到相应的动作标签。服务器根据按照预设周期提取出的多个视频图像各自对应的动作标签确定是否触发预警信息。

上述视频监控方法，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段，通过已训练的第一预测模型和第二预测模型，根据所提取出的视频图像、视频帧序列和音频片段得到得到准确性较高的动作标签，基于该动作标签和预配置的动作标签库判断相应视频图像对应的动作是否为危险动作，以判断监控视频中是否包括危险动作，能够提高危险动作的判断准确性，并针对危险动作进行及时预警。这样，无需针对监控视频中的每个视频帧进行预测处理，能够提高监控效率，而结合视频图像、视频帧序列和音频片段预测动作标签能够提高动作标签的预测准确性，从而能够提高监控准确性。

在一个实施例中，步骤S210之后，上述视频监控方法还包括：接收终端针对预警信息反馈的确认信息；当确认信息为正确预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为正样本，将正样本更新至优化样本集；当确认信息为错误预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为负样本，将负样本更新至优化样本集；实时检测预设触发条件；当检测预设触发条件时，基于优化样本集对第一预测模型和第二预测模型进行优化。

其中，确认信息是用于表征预警信息是否确认无误的信息，具体可以是正确预警信息或错误预警信息。确认信息也可以是确认无误或确认有误。优化样本集是用于对已训练的第一预测模型和第二预测模型进行优化训练的样本集，具体可包括正样本和负样本。正样本所包括的动作标签为安全动作标签，负样本所包括的动作标签为危险动作标签。预设触发条件是预先设定的用于触发模型优化操作的条件，比如检测到当前时间与预设触发时间一致，或者，统计到优化样本集中的负样本数量大于或等于预设数量。

具体地，服务器将针对所检测到的危险动作触发生成的预警信息推送至终端后，接收终端针对该预警信息反馈的确认信息。当所接收到的确认信息表征预警信息为正确预警信息时，服务器将该预警信息所对应的视频图像、该视频图像对应的视频帧序列和音频片段，以及相应的动作标签确定为正样本，并将所确定的正样本更新至优化样本集中。当所接收到的确认信息表征预警信息为错误预警信息时，服务器将该预警信息所对应的视频图像、该视频图像对应的视频帧序列和音频片段，以及相应的动作标签确定为负样本，并将所确定的负样本更新至优化样本集中。

进一步地，服务器实时检测预设触发条件，当检测到预设触发条件时，根据所检测到的预设触发条件获取优化样本集，并根据所获取到的优化样本集对已训练的第一预测模型和第二预测模型进行优化训练。服务器从优化样本集中提取已更新的正样本和负样本，并根据所提取出的正样本和负样本对已训练的第一预测模型和第二预测模型进行优化训练。

在一个实施例中，服务器将已训练的第一预测模型更新为优化训练得到的第一预测模型，将已训练的第二预测模型更新为优化训练得到的第二预测模型，并通过更新后的第一预测模型和第二预测模型，对后续从所获取到的监控视频中提取出的视频图像、视频帧序列和音频片段进行预测，得到相应的动作标签。

上述实施例中，基于实时检测到的视频图像、视频帧序列、音频片段和相应的动作标签更新优化样本集，并根据优化样本集对模型进行优化训练，以在通过优化训练得到的第一预测模型和第二预测模型进行预测时，能够提高动作标签预测的准确性。

在一个实施例中，步骤S208包括：按照视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较；统计与动作标签库中的危险动作标签一致的动作标签的数量；当统计到连续的预设数量的动作标签均与危险动作标签一致时，则判定监控视频中包括危险动作。

具体地，对于从所获取到的监控视频中提取出的多个视频图像，服务器按照每个视频图像的提取时间，通过第一预测模型和第二预测模型预测得到每个视频图像对应的动作标签后，将预测得到的动作标签与动作标签库中的危险动作标签进行比较。服务器根据每个动作标签对应的比较结果，对与动作标签库中的危险动作标签一致且连续的动作标签进行统计，以统计与动作标签库中的危险动作标签一致的动作标签的数量，也就是统计预测到的危险动作标签的数量。当依次比较的动作标签中存在与动作标签库中的安全动作标签一致的动作标签时，服务器则从该与安全动作标签一致的动作标签起重新统计与危险动作标签一致的动作标签，以统计到与危险动作标签一致且连续的动作标签的数量。服务器将统计到的与危险动作标签一致且连续的动作标签的数量与预设数量进行比较。当统计到的与危险动作标签一致且连续的动作标签的数量与预设数量相等时，也就是当统计到预设数量的且连续的动作标签均与危险动作标签一致时，表明统计到预设数量的且连续的动作标签均为危险动作标签，服务器则判定相应监控视频中包括危险动作。

举例说明，服务器当前统计到与危险动作标签一致且连续的动作标签的数量为n，若按照上述方式依次比较的下一个动作标签与危险动作标签一致，则将当前统计的数量n加1，得到下一次统计的数量为n+1。若按照上述方式依次比较的下一个动作标签与安全动作标签一致，则将当前统计的数量清零，得到下一次统计的数量为0，并在后续比较中按照该种方式进行统计。其中，依次比较的动作标签的顺序是按照每个动作标签相应的视频图像的提取时间确定的。

在一个实施例中，服务器在统计到预设数量的且连续的动作标签均为危险动作标签时，进一步判断该预设数量的动作标签的组合和/或排列顺序是否符合预设要求。

举例说明，假设从监控视频中依次提取4个视频图像，以及每个视频图像对应的视频帧序列和音频片段，该4个视频图像各自的动作标签分别为A-0，A-1，A-2和A-3，其中，A表示动作为跌倒动作，相应数字可用于表明跌倒的程度/状态，由此可表征跌倒过程，比如A-0表示身体倾斜、A-1表示倾斜比较厉害、A-2表示差不多着地，A-3表示完全跌倒等。服务器在统计到前三个视频图像各自对应的动作标签时，可判定监控视频中的监控对象存在危险动作(比如，即将跌倒)，则触发预警信息，由此可在危险动作即将发生时触发预警信息，达到提前预警的效果。

在一个实施例中，对于从监控视频中提取出的多个视频图像，服务器按照每个视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较，并统计与动作标签库中的预设动作标签一致的动作标签的数量。当统计到连续的预设数量的动作标签均与预设动作标签一致时，服务器则判定监控视频中包括危险动作。预设动作标签比如表示完全跌倒的动作标签。若预测出连续多个动作标签均为表示完全跌倒的动作标签，表明监控对象处于完全跌倒的动作状态的时间比较久，也即表明监控对象跌倒时可能摔的比较严重，则触发预警信息。

在一个实施例中，服务器基于每个视频图像对应的采集时间戳，判断预设时长内的连续多个视频图像各自对应的动作标签是否均为预设动作标签，以根据判断结果确定是否存在危险动作。当判定预设时长内的连续多个视频图像各自对应的动作标签均为预设动作标签，则表明相应监控视频中存在危险动作。

上述实施例中，基于统计的危险动作标签的数量确定监控视频中是否即将发生危险动作，以达到提前预警的效果，从而提高预警的效率。

在一个实施例中，步骤S208包括：按照视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较；将与动作标签库中的第一动作标签一致的动作标签所对应的视频图像的采集时间戳记为第一时间戳；当自第一时间戳起达到预设时长后尚未检测到与动作标签库中的第二动作标签一致的动作标签时，则判定监控视频中包括危险动作。

其中，采集时间戳是监控摄像头采集视频图像的时间。监控视频针对每个视频图像记录有相应的采集时间戳。第一动作标签与第二动作标签相关，但不同于第二动作标签。第一动作标签与第二动作标签具体可以是分属于两个类别的标签。第一动作标签比如表示完全跌倒的动作标签，第二动作标签比如表示完全爬起来或基本爬起来的动作标签。

具体地，每个视频图像对应有相应的采集时间戳，服务器从监控视频中提取视频图像时会提取每个视频图像对应的采集时间戳。对于从监控视频中提取出的多个视频图像，服务器按照每个视频图像的提取时间或者提取顺序，依次根据每个视频图像和相应的视频帧序列及音频片段，预测得到相应的动作标签，并将预测得到的动作标签与动作标签库进行比较。当对应于视频图像预测得到的动作标签与动作标签库中的第一动作标签一致时，服务器将该视频图像对应的采集时间戳记为第一时间戳，并继续执行按照视频图像的提取时间，依次根据每个视频图像和相应的视频帧序列及音频片段，预测得到相应的动作标签的步骤。对于晚于与第一动作标签一致的动作标签预测得到的一个或多个动作标签，服务器通过将每个动作标签分别与动作标签库比较，以根据比较结果从该一个或多个动作标签中检测与动作标签库中的第二动作标签一致的动作标签，并以第一时间戳为起始时间，实时统计检测到与第二动作标签一致的动作标签的检测时长。当统计的检测时长达到预设时长后，也就是当自第一时间戳起达到预设时长后，服务器尚未检测到与第二动作标签一致的动作标签时，则判定相应监控视频中包括危险动作。

在一个实施例中，服务器按照预设周期和监控视频的播放时序，依次从监控视频中提取多个视频图像，以及每个视频图像对应的视频帧序列和音频片段。服务器按照视频图像的提取时间执行的上述步骤，可理解为是按照视频图像在监控视频中所对应的位置或播放时序执行上述步骤，也可理解为是按照视频图像的提取顺序执行上述步骤。

在一个实施例中，对于从监控视频中提取出的多个视频图像，服务器预测得到每个视频图像对应的动作标签后，将每个视频图像对应的动作标签和采集时间戳关联存储。服务器将该多个视频图像所对应的动作标签进行分类，也就是确定预测得到的每个动作标签所属的类别。其中，同属于一个类别的多个动作标签中的每个动作标签至少存在一个相邻、且至多存在两个相邻的动作标签。动作标签相邻是指动作标签对应的视频图像的提取时间或提取顺序相邻。可以理解，分类得到的多个类别中可能存在相同的类别，也就是不同视频图像所对应的相同的动作标签可能被分别分类至两个相同的类别中。

进一步地，服务器从已分类至每个类别的动作标签中选取每个类别对应的特征动作标签。服务器将分类得到的多个类别按照时序进行排序，从排序后的多个类别中筛选在前的类别为第一类别，在后的类别为第二类别的两个相邻类别，并计算第一类别中的特征动作标签对应的采集时间戳，与第二类别中的特征动作标签对应的采集时间戳之间的时长。当计算的时长大于或等于预设时长时，服务器则判定相应监控视频中包括危险动作。预设时长可根据应用场景和/或监控对象进行自定义。

举例说明，若监控视频中包括跌倒和爬起来两个动作，则可将动作标签划分为跌倒类标签和爬起来类标签，然后在跌倒类标签中选取表示完全跌倒的动作标签对应的采集时间戳，记为第一时间戳，在爬起来类标签中选取表示完全爬起来/基本爬起来的动作标签对应的采集时间戳，记为第二时间戳，若第二时间戳与第一时间戳之间的时长大于预设时长，则表明监控对象可能因病跌倒或者跌倒时摔得比较严重，判定存在危险动作。预设时长比如2分钟。

上述实施例中，基于动作组合实现监控视频中危险动作的预警，能够提高预警的准确性。

在一个实施例中，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段，包括：从监控视频中提取初始视频图像，并从初始视频图像中检测出多个监控对象；根据每个监控对象分别对初始视频图像进行处理得到相应视频图像；根据视频图像从监控视频中提取相应的视频帧序列和音频片段；步骤S208包括：将多个监控对象各自对应的动作标签分别与动作标签库进行比较；根据动作标签对应的比较结果确定监控视频是否包括危险动作。

其中，监控对象是指监控的目标对象，具体可以是指监控的目标用户或目标人。在本实施例中，初始视频图像是从监控视频中提取出的且未经过处理的原始图像，视频图像是对原始视频图像进行处理或预处理得到的处理图像。处理或预处理比如将原始视频图像中除特定监控对象之外的其他监控对象和背景进行虚化。

具体地，服务器从所获取到的监控视频中提取初始视频图像，并基于人体检测技术从所提取出的初始视频图像中检测出多个监控对象。服务器可基于现有技术中的人体检测技术从初始视频图像中检测监控对象，在此不再赘述。服务器从初始视频图像中检测出多个监控对象后，根据所检测出的监控对象的数量将该初始视频图像进行复制得到多个相同的初始视频图像，或者根据所检测出的监控对象的数量再从监控视频中多次重复提取该初始视频图像。服务器根据每个监控对象分别对相应的初始视频图像进行处理，得到每个监控对象所对应的视频图像。服务器根据处理得到的每个视频图像可确定该视频图像所对应的初始视频图像和监控对象，由此根据每个视频图像可从监控视频中提取出相应的视频帧序列和音频片段。服务器也可根据所检测出的每个监控对象，分别从监控视频中提取初始视频图像所对应的视频帧序列和音频片段。可以理解，服务器针对每个视频图像所提取出的视频帧序列中的每个视频帧中，均包括该视频图像所对应的监控对象。

进一步地，服务器在获取到每个监控对象对应的视频图像，以及该视频图像对应的视频帧序列和音频片段后，通过已训练的第一预测模型和第二预测模型，根据每个监控对象所对应的视频图像、视频帧序列和音频片段分别进行预测，得到每个监控对象对应的动作标签。服务器将所检测出的多个监控对象中的每个监控对象所对应的动作标签分别与动作标签库进行比较，并根据该多个监控对象或动作标签所对应的比较结果确定监控视频中是否包括危险动作。

在一个实施例中，服务器根据初始视频图像从监控视频中提取相应的视频帧序列和音频片段，并将所提取出的视频帧序列和音频片段作为每个监控对象对应的视频图像所对应的视频帧序列和音频片段。

在一个实施例中，当所检测出的多个监控对象各自对应的动作标签符合预设条件时，服务器则判定相应监控视频中包括危险动作。预设条件比如对应于多个监控对象预测得到的多个动作标签中所包括的危险动作标签数量达到预设数量。预设数量可自定义，也可根据监控对象的数量动态调整，比如1或3。

在一个实施例中，服务器可通过多个第一预测模型和相应的第二预测模型的组合，并行的按照上述方式对所检测出的多个监控对象进行预测，得到每个监控对象所对应的动作标签。服务器也可通过单一的第一预测模型和相应的第二预测模型的组合，串行的对每个监控对象进行预测得到相应的动作标签。

上述实施例中，针对监控视频中的每个监控对象分别进行预测，根据每个监控对象对应的动作标签确定该监控视频中是否包括危险动作，并进行预警，以实现对多监控对象的监控。

在一个实施例中，根据动作标签对应的比较结果确定监控视频是否包括危险动作，包括：根据动作标签对应的比较结果将动作标签进行分类；统计每个类别的动作标签数量；当统计到预设类别的动作标签数量大于或等于数量阈值时，则判定监控视频包括危险动作，并根据每个类别的动作标签数量确定危险等级；步骤S210包括：根据危险等级确定预警等级，将根据预警等级触发生成的预警信息推送至终端。

其中，危险等级用于表征危险动作/危险事件的等级或等级，比如个体事件或群体性事件。

具体地，服务器按照上述方式预测得到每个监控对象所对应的动作标签后，根据每个动作标签与动作标签库的比较结果，将预测得到的多个动作标签进行分类，并统计每个类别的动作标签数量。服务器将统计到的预设类别的动作标签数量与预配置的数量阈值进行比较，当统计到的预设类别的动作标签数量大于或等于数量阈值时，服务器则判定监控视频中包括危险动作。当判定监控视频中包括危险动作后，服务器根据针对每个类别统计到的动作标签数量，以及针对每个危险等级预配置的等级判定条件确定该监控视频所对应的危险等级。当确定监控视频所对应的危险等级后，服务器根据所确定的危险等级确定相应的预警等级，根据所确定的预警等级触发生成预警信息，并将触发生成的预警信息推送至相应终端。

上述实施例中，基于多个监控对象各自对应的监控结果确定危险等级，并确定相应的预警等级，从而触发与预警等级相匹配的预警信息，以提高预警的多样性，从而能够提高监控的效率。

在一个实施例中，第一预测模型和第二预测模型的训练步骤包括：获取训练样本集；训练样本集包括目标视频图像、目标视频图像对应的目标视频帧序列和目标音频片段，以及相应的目标动作标签；将目标视频图像、目标视频帧序列和目标音频片段作为第一预测模型的输入特征，将相应的目标动作标签作为第二预测模型的期望的输出特征，对初始化的第一预测模型和第二预测模型进行联合训练，得到已训练的第一预测模型和第二预测模型。

可以理解，在上述模型的联合训练过程中，第一预测模型预测得到的输出特征作为第二预测模型的输入特征。

在一个实施例中，训练样本集中包括正样本和负样本。正样本所对应的目标动作标签为危险动作标签，负样本对应的目标动作标签为安全动作标签。可以理解，正样本包括对应于危险动作的目标视频图像、该目标视频图像对应的目标视频帧序列和目标音频片段，以及人工标注的目标动作标签，负样本包括对应于安全动作的目标视频图像、该目标视频图像对应的目标视频帧序列和目标音频片段，以及人工标注的目标动作标签。

在一个实施例中，第一预测模型涉及的机器学习算法可以是卷积神经网络，第二预测模型涉及的机器学习算法可以是支持向量机，在此不作具体的限定。

在一个实施例中，在第一预测模型和第二预测模型的联合训练过程中，服务器将目标视频图像和相应的目标视频帧序列及目标音频片段作为第一预测模型的输入特征，通过第一预测模型对该目标视频图像、目标视频帧序列和目标音频片段进行预测，得到相应的目标特征向量。可以理解，第一预测模型预测得到的目标特征向量是由目标视频图像、目标视频帧序列和目标音频片段共同确定的。服务器将目标特征向量作为第二预测模型的输入特征，通过第二预测模型根据目标特征向量进行预测得到预测动作标签。服务器根据第二预测模型预测得到的预测动作标签与相应的目标动作标签，对该第二预测模型的参数进行动态调整，进而对第一预测模型的参数进行反向调整。服务器基于调整参数后的第一预测模型和第二预测模型，对训练样本集中的其他训练样本进行预测，并根据预测结果继续调整第一预测模型和第二预测模型的参数，直至符合训练停止条件停止迭代训练过程。训练停止条件比如训练样本集中的训练样本均用于进行模型训练，或者，迭代次数达到预设次数，或者，预测结果的准确度达到预设准确度。

在一个实施例中，第一预测模型包括第一子预测模型、第二子预测模型和第三子预测模型。服务器将目标视频图像输入第一子预测模型进行预测，得到第一特征向量，将目标视频帧序列输入第二子预测模型进行预测，得到第二特征向量，并将目标音频片段输入第三子预测模型进行预测，得到第三特征向量。服务器将第一特征向量、第二特征向量和第二特征向量按照预设组合方式进行组合，得到相应的目标特征向量，作为该第一预测模型根据目标视频图像、目标视频帧序列和目标音频片段预测得到的目标特征向量。预设组合方式比如将第一特征向量、第二特征向量和第二特征向量按照预设顺序依次进行拼接，或者，在向量的每个维度上进行求和或求平均，平均可以是算术平均也可以是加权平均。

上述实施例中，通过联合训练得到已训练的第一预测模型和第二预测模型，以便于在视频监控过程中，基于已训练的第一预测模型和第二预测模型，能够以较高的效率预测得到准确性较高的动作标签，从而能够提高监控效率和准确性。

如图3所示，在一个实施例中，提供了一种视频监控方法，该方法具体可以包括以下步骤：

S302，获取监控视频，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段。

S304，将视频图像、视频帧序列和音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量。

S306，将特征向量输入已训练的第二预测模型进行预测，得到视频图像对应的动作标签。

S308，按照视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较。

S310，统计与动作标签库中的危险动作标签一致的动作标签的数量。

S312，当统计到连续的预设数量的动作标签均与危险动作标签一致时，则判定监控视频中包括危险动作。

S314，将与动作标签库中的第一动作标签一致的动作标签所对应的视频图像的采集时间戳记为第一时间戳。

S316，当自第一时间戳起达到预设时长后尚未检测到与动作标签库中的第二动作标签一致的动作标签时，则判定监控视频中包括危险动作。

S318，当判定监控视频包括危险动作时，将触发生成的预警信息推送至终端。

S320，接收终端针对预警信息反馈的确认信息。

S322，当确认信息为正确预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为正样本，将正样本更新至优化样本集。

S324，当确认信息为错误预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为负样本，将负样本更新至优化样本集。

S326，实时检测预设触发条件。

S328，当检测预设触发条件时，基于优化样本集对第一预测模型和第二预测模型进行优化。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种视频监控装置400，包括：获取模块402、预测模块404、判定模块406和预警模块408，其中：

获取模块402，用于获取监控视频，从监控视频中提取视频图像，以及视频图像对应的视频帧序列和音频片段。

预测模块404，用于将视频图像、视频帧序列和音频片段作为输入特征，输入已训练的第一预测模型进行预测得到特征向量。

预测模块404，还用于将特征向量输入已训练的第二预测模型进行预测，得到视频图像对应的动作标签。

判定模块406，用于根据动作标签和动作标签库确定监控视频是否包括危险动作。

预警模块408，用于当判定监控视频包括危险动作时，将触发生成的预警信息推送至终端。

在一个实施例中，上述视频监控装置400，还包括：优化模块；

优化模块，用于接收终端针对预警信息反馈的确认信息；当确认信息为正确预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为正样本，将正样本更新至优化样本集；当确认信息为错误预警信息时，将视频图像、视频帧序列和音频片段，以及相应的动作标签确定为负样本，将负样本更新至优化样本集；实时检测预设触发条件；当检测预设触发条件时，基于优化样本集对第一预测模型和第二预测模型进行优化。

在一个实施例中，判定模块406，还用于按照视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较；统计与动作标签库中的危险动作标签一致的动作标签的数量；当统计到连续的预设数量的动作标签均与危险动作标签一致时，则判定监控视频中包括危险动作。

在一个实施例中，判定模块406，还用于按照视频图像的提取时间依次将每个视频图像对应的动作标签与动作标签库进行比较；将与动作标签库中的第一动作标签一致的动作标签所对应的视频图像的采集时间戳记为第一时间戳；当自第一时间戳起达到预设时长后尚未检测到与动作标签库中的第二动作标签一致的动作标签时，则判定监控视频中包括危险动作。

在一个实施例中，获取模块402，还用于从监控视频中提取初始视频图像，并从初始视频图像中检测出多个监控对象；根据每个监控对象分别对初始视频图像进行处理得到相应视频图像；根据视频图像从监控视频中提取相应的视频帧序列和音频片段；判定模块406，还用于将多个监控对象各自对应的动作标签分别与动作标签库进行比较；根据动作标签对应的比较结果确定监控视频是否包括危险动作。

在一个实施例中，判定模块406，还用于根据动作标签对应的比较结果将动作标签进行分类；统计每个类别的动作标签数量；当统计到预设类别的动作标签数量大于或等于数量阈值时，则判定监控视频包括危险动作，并根据每个类别的动作标签数量确定危险等级；预警模块408，还用于根据危险等级确定预警等级，将根据预警等级触发生成的预警信息推送至终端。

在一个实施例中，上述视频监控装置400，还包括：训练模块；

训练模块，用于获取训练样本集；训练样本集包括目标视频图像、目标视频图像对应的目标视频帧序列和目标音频片段，以及相应的目标动作标签；将目标视频图像、目标视频帧序列和目标音频片段作为第一预测模型的输入特征，将相应的目标动作标签作为第二预测模型的期望的输出特征，对初始化的第一预测模型和第二预测模型进行联合训练，得到已训练的第一预测模型和第二预测模型。

关于视频监控装置的具体限定可以参见上文中对于视频监控方法的限定，在此不再赘述。上述视频监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作标签库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频监控方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的视频监控方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的视频监控方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频监控方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述当判定所述监控视频包括危险动作时，将触发生成的预警信息推送至终端之后，所述方法还包括：

接收所述终端针对所述预警信息反馈的确认信息；

实时检测预设触发条件；

3.根据权利要求1所述的方法，其特征在于，所述根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述动作标签和动作标签库确定所述监控视频是否包括危险动作，包括：

5.根据权利要求1所述的方法，其特征在于，所述从所述监控视频中提取视频图像，以及所述视频图像对应的视频帧序列和音频片段，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述动作标签对应的比较结果确定所述监控视频是否包括危险动作，包括：

统计每个类别的动作标签数量；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第一预测模型和所述第二预测模型的训练步骤包括：

8.一种视频监控装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。