CN112635045A

CN112635045A - 一种智能监护系统

Info

Publication number: CN112635045A
Application number: CN202011570381.9A
Authority: CN
Inventors: 刘瑜
Original assignee: Xian Cresun Innovation Technology Co Ltd
Current assignee: Xian Cresun Innovation Technology Co Ltd
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2021-04-09

Abstract

本发明公开了一种智能监护系统，包括：视频采集模块用于采集被监护人所在环境的场景视频；活动预测模块用于获取场景视频，基于场景视频生成关于被监护人和其余目标的空间位置关系的空间与或图模型，从空间与或图模型中提取表征被监护人的活动状态的子活动标签集，并将子活动标签集输入预先得到的时间与或图模型，得到被监护人未来活动的预测结果；监护控制模块用于接收预测结果，并判断预测结果是否为预设的活动事件，如果是则提供对应的监护服务。本发明首次将时空与或图引入目标活动预测领域。通过时空与或图可以准确、高效地预测被监护人未来的活动，在预测结果为预设的活动事件时提供对应的监护服务，因此可以实现及时有效的监护效果。

Description

一种智能监护系统

技术领域

本发明属于监护领域，具体涉及一种智能监护系统。

背景技术

目前，人口老龄化日益严重，导致空巢老人的数量急剧增加；并且，现代父母的工作通常非常繁忙，儿童独自居家的情形屡见不鲜。针对诸如老人、儿童、孕妇这些群体的居家活动，通常需要进行重点监护，以便于及时发现异常事件，保障人体生命安全。

目前通常利用视频监控设备来监控这些被监护人的行为，但是监控视频反映的是被监护人当前的行为状况，无法预测被监护人在未来时刻的活动，因而无法针对未来时刻的活动给与其对应的响应或帮助；或者无法及时避免危险事件的发生，如跌倒事件等。因此，现有居家监护方案的监护效果不佳。

发明内容

本发明实施例的目的在于提供一种智能监护系统，以实现对被监护人的活动进行准确快速预测，从而实现及时有效监护的目的。具体技术方案如下：

视频采集模块，用于采集被监护人所在环境的场景视频；

活动预测模块，用于获取所述场景视频，基于所述场景视频生成关于所述被监护人和其余目标的空间位置关系的空间与或图模型，从所述空间与或图模型中提取表征所述被监护人的活动状态的子活动标签集，并将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果；

监护控制模块，用于接收所述预测结果，并判断所述预测结果是否为预设的活动事件，如果是，基于所述预测结果提供对应的监护服务。

可选的，所述基于所述场景视频生成关于所述被监护人和其余目标的空间位置关系的空间与或图模型，从所述空间与或图模型中提取表征所述被监护人的活动状态的子活动标签集，并将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果，包括：

对所述场景视频中的目标进行检测和跟踪，生成空间与或图模型；

对所述空间与或图模型利用子活动提取算法得到表征所述被监护人与其余关注目标的活动状态的子活动标签集；其中，所述关注目标包括所述被监护人；

将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果；其中，所述时间与或图模型是利用预先建立的所在环境的目标的活动语料库得到的。

可选的，所述对所述场景视频中的目标进行检测和跟踪，生成空间与或图模型，包括：

利用预先训练得到的目标检测网络对所述场景视频中的目标进行检测，得到所述场景视频的每一帧图像中各目标分别对应的属性信息；其中，所述属性信息包括包含所述目标的边界框的位置信息，以及所述目标的类别信息；

基于所述每一帧图像中各目标分别对应的属性信息，利用预设的多目标跟踪算法对所述场景视频的各帧图像中的相同目标进行匹配；

确定每一帧图像中，所述被监护人与不同目标之间的实际空间距离；

利用匹配后各帧图像对应的目标的所述属性信息以及所述实际空间距离，生成所述空间与或图模型。

可选的，所述利用预先训练得到的目标检测网络对所述场景视频中的目标进行检测，得到所述场景视频的每一帧图像中各目标分别对应的属性信息，包括：

针对所述场景视频的每一帧图像，利用所述目标检测网络的主干网络进行特征提取，得到3个特征图；

将所述3个特征图利用所述目标检测网络的FPN网络进行自顶向下，密集连接形式的特征融合，得到该帧图像中各目标分别对应的属性信息；其中，所述目标检测网络基于YOLO_v3网络构建。

可选的，所述将所述3个特征图利用所述目标检测网络的FPN网络进行自顶向下，密集连接形式的特征融合，包括

针对所述FPN网络中的预测支路Y_i，从所述3个特征图中，获取对应尺度的特征图并进行卷积处理，将卷积处理后的所述特征图，与预测支路Y_i-1～Y₁分别经上采样处理后的所述特征图进行级联融合；其中，预测支路Y_i-j的上采样倍数为2^j；i＝2、3；j为小于i的自然数。

可选的，所述确定每一帧图像中，所述被监护人与不同目标之间的实际空间距离，包括：

在每一帧图像中，确定每个目标的像素坐标；

针对每个目标，利用单目视觉定位测距技术，计算该目标的所述像素坐标在世界坐标系中对应的实际坐标；

针对每一帧图像，利用该帧图像中所述被监护人的所述实际坐标，以及其余目标的所述实际坐标，得到该帧图像中所述被监护人与不同目标之间的实际空间距离。

可选的，所述对所述空间与或图模型利用子活动提取算法得到表征所述被监护人与其余关注目标的活动状态的子活动标签集，包括：

将所述空间与或图模型中，所述被监护人，以及与所述被监护人的所述实际空间距离小于预设距离阈值的目标确定为关注目标；

针对每一帧图像，确定每对所述关注目标的实际空间距离和各关注目标的速度值；

通过依次比较后一帧图像和前一帧图像，得到表征每对所述关注目标的实际空间距离变化情况的距离变化信息，以及表征各关注目标的速度值变化情况的速度变化信息；

利用语义标签描述各关注目标依次得到的所述距离变化信息以及所述速度变化信息，生成表征所述被监护人与其余关注目标的活动状态的子活动标签集。

可选的，所述将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果，包括：

将所述子活动标签集输入所述时间与或图模型，利用Earley解析器的在线符号预测算法得到所在环境中，所述被监护人未来活动的预测结果，所述预测结果包括所述被监护人未来的子活动标签和出现的概率值。

可选的，所述预设的活动事件包括：跌倒；

相应的，所述基于所述预测结果提供对应的监护服务，包括：

启动跌倒防护装置。

可选的，所述预设的活动事件包括：触摸危险区域；

启动警示提醒。

本发明实施例提供了一种智能监护系统，利用视频采集模块采集被监护人所在环境的场景视频；由活动预测模块利用时空与或图方式得到被监护人未来活动的预测结果；并利用监护控制模块在判断到预测结果为预设的活动事件时，提供预测结果对应的监护服务。本发明实施例首次将时空与或图引入目标活动预测领域。首先通过分析场景视频中被监护人和其余目标的空间位置关系生成空间与或图模型；其次对空间与或图模型进行活动状态提取，获得包括被监护人的各关注目标的子活动标签集，实现场景视频的高级语义提取；然后将子活动标签集作为预先得到的时间与或图模型的输入，通过时间与或图的时间语法来得到被监护人下一个子活动的预测。本发明实施例利用时空与或图模型能够对被监护人的活动进行准确、快速预测，从而实现及时有效的监护效果。本发明实施例所提供的方案可以普遍适用于被监护人经常活动的各种环境，具有广泛的应用性。

附图说明

图1为本发明实施例所提供的一种智能监护系统的结构示意图；

图2为现有技术中与或图的一个示例图；

图3为针对图2的一种解析图；

图4是现有技术中的YOLO_v3网络的结构示意图；

图5为本发明实施例提供的目标检测网络的结构示意图；

图6为本发明实施例作为示例的家庭环境的一个空间与或图；

图7为本发明实施例作为示例的交通路口时间语法(T-AOG)的结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现对被监护人的活动进行准确快速预测，从而实现及时有效监护的目的，本发明实施例提供了一种智能监护系统。

如图1所示，本发明实施例所提供的一种智能监护系统100，可以包括如下组成部分：

视频采集模块110，用于采集被监护人所在环境的场景视频；

活动预测模块120，用于获取场景视频，基于场景视频生成关于被监护人和其余目标的空间位置关系的空间与或图模型，从空间与或图模型中提取表征被监护人的活动状态的子活动标签集，并将子活动标签集输入预先得到的时间与或图模型，得到被监护人未来活动的预测结果；

监护控制模块130，用于接收预测结果，并判断预测结果是否为预设的活动事件，如果是，基于预测结果提供对应的监护服务。

以下对各个组成部分分别进行说明：

1)视频采集模块110：

本发明实施例中，被监护人包括老人、儿童、孕妇、残障人士等需要被关注的弱势群体。所在环境指的被监护人经常活动的场景，比如家庭、老年公寓、医院、幼儿园等等，该所在环境至少包含有移动目标，目标可以为人类、交通工具、动物等，并且目标中包含被监护人。

视频采集模块110可以包括摄像头、摄像机、照相机、手机等等，比如针对家庭的场景视频，视频采集模块110可以是安置于屋内天花板上的摄像头。可以理解的是，场景视频含有多帧图像。

2)活动预测模块120：

活动预测模块120可以通过通信方式从视频采集模块110处获取场景视频。其中通信方式不限于无线通信、有线通信等。可选的方式中，活动预测模块120使用的每一帧图像的尺寸为416×416×3。

因此，一个例子中，活动预测模块120可以直接从视频采集模块110获得图像尺寸为416×416×3的场景视频；另一个例子中，活动预测模块120可以获得任意图像尺寸的场景视频，将获得的场景视频的图像经过一定的尺寸缩放处理，得到图像尺寸为416×416×3的场景视频。

可以理解的是，在上述两种例子中，还可以对获取到的图像进行剪裁、拼接、平滑、滤波、边缘填充等图像增强操作，以增强图像中感兴趣的特征，扩展数据集的泛化能力。

本发明实施例中，针对目标活动预测，首次引入空间与或图模型和时间与或图模型，构建出时空与或图模型，利用时空与或图模型对所在环境中的被监护人，以及其余目标的活动进行预测。以下进行具体介绍。

可选的一种实施方式中，活动预测模块120基于场景视频生成关于被监护人和其余目标的空间位置关系的空间与或图模型，从空间与或图模型中提取表征被监护人的活动状态的子活动标签集，并将子活动标签集输入预先得到的时间与或图模型，得到被监护人未来活动的预测结果，可以包括S1～S3：

S1，对场景视频中的目标进行检测和跟踪，生成空间与或图模型。

本发明实施例中，空间与或图模型表征场景视频中目标的空间位置关系。

为了便于理解本方案，首先对本部分涉及的与或图相关概念进行介绍。与或图(And-Or Graph，AOG)是一种随机上下文无关语法(SCSG)的层次组合模型，其表示由一组终端和非终端节点从顶层到叶子节点的层次分解，概述了图像语法中的基本概念。其中，与节点表示目标分解，或节点表示可替代的子配置。参见图2，图2为现有技术中与或图的一个示例图。一个与或图包括三种类型的节点：“与”节点(And Node)(图2中的实心圆)；“或”节点(Or Node)(图2中的虚线圆)；终端节点(Terminal Node)(图2中的矩形)。与节点(AndNode)表示实体分解为各个部分。它对应于语法规则，例如图2中所示的B→ab，C→cd。与节点的子节点之间的水平链接表示空间位置关系和约束。或节点(Or Node)充当可被替代子结构的“开关”，并代表各个级别的分类标签，例如场景，对象和零件类别等。它对应于规则，例如图2所示A→B|C。由于这种递归定义，可以将许多对象或场景类别的与或图合并为一个更大的与或图。从理论上讲，所有场景和对象类别都可以用一个巨大的与或图表示。终端节点(Terminal Node)也可以叫做叶子节点，它是基于像素的高层语义视觉字典。由于缩放属性，终端节点可能会出现在与或图的所有级别中。每个终端节点都从特定集合中获取实例，该集合称为字典，它包含各种复杂的图像补丁。集合中的元素可以通过变量进行索引，例如其类型、几何变换、变形、外观变化等。如图2所示，构成矩形A的叶子节点有abcd这四种视觉字典。与或图定义了上下文相关的图像表示语法，其中终端节点是其视觉词汇，与节点和或节点都是生产规则。

与或图包含所有可能的解析图(parse graph，pg)，解析图是与或图中生成目标的一种可能的配置。解析图作为图像解释。解析图pg由分层的解析树pt和多个关系E(定义为“水平边缘)组成：

pg＝(pt,E) (1)

解析树pt也是非终端节点都是与节点的“与”树。产生规则将每个与节点分解为各个部分，该规则现在不再产生字符串，而是产生一个配置，参见图3，图3为针对图2的一种解析图，其产生的配置关系为：r:B→C＝＜a,b＞，C表示配置。关于与或图中的概率模型，主要是Or节点处学习概率，以便生成的配置说明出现此种配置的概率。当然，图2还有另一种包含c和d的解析图，在此不做示出。

对于与或图来讲，使用小的零件字典通过与或图的与节点以及或节点分层表示图像中的目标，这种模型可以体现图像中目标的空间组合结构，也可以称之为空间与或图(Spatial And-Or graph，S-AOG)模型。空间与或图模型基于目标的空间位置关系，通过不同空间配置将目标的部件进行分层组合来表示目标。因此可以用来在图像分析中解析各个目标的位置关系，从而实现目标定位和跟踪等具体应用。比如，可以实现对交通路口、广场等复杂场景的目标识别和跟踪，等等。

可选的一种实施方式中，S1可以包括S11～S14：

S11，利用预先训练得到的目标检测网络对场景视频中的目标进行检测，得到场景视频的每一帧图像中各目标分别对应的属性信息。

本发明实施例的目标检测网络可以采用任意一种目标检测方法构建，比如传统的前后背景分割、目标聚类算法等，或者基于深度学习的目标检测方法等等，这都是合理的。比如，本发明实施例的目标检测网络可以包括：R-CNN、SPP Net、Fast R-CNN、Faster R-CNN、YOLO(You Only Look Once，YOLO)、SSD(Single Shot MultiBox Detector)等。

可选的一种实施方式中，目标检测网络基于YOLO_v3网络构建。为了便于理解本发明实施例提供的目标检测网络的网络结构，首先对现有技术的YOLO_v3网络的结构进行介绍。图4是现有技术中的YOLO_v3网络的结构示意图。

参考图4，虚线框内的部分为YOLO_v3网络。其中点划线框内的部分为YOLO_v3网络的主干(backbone)网络，即darknet-53网络；其余部分为FPN(Feature Pyramid Networks，特征金字塔网络)网络，FPN网络又分为三个预测支路Y₁～Y₃，预测支路Y₁～Y₃的尺度分别与沿输入逆向的3个残差模块res4、res8、res8分别输出对应的特征图的尺度一一对应。各预测支路的预测结果分别以Y1、Y2、Y3表示，Y1、Y2、Y3的尺度依次增大。需要说明的是该部分的预测结果是目标检测网络的预测结果，与本案最终得到的被监护人活动的预测结果并不等同。

YOLO_v3网络的主干网络由CBL模块和多个resn模块串接构成。CBL模块为卷积网络模块，包括串行连接的conv层(Convolutional layer，卷积层，简称conv层)、BN(BatchNormalization，批量归一化)层和激活函数Leaky relu对应的Leaky relu层，CBL即表示conv+BN+Leaky relu。resn模块为残差模块，n代表自然数，有res1、res2，…，res8等等，resn模块包括串行连接的zero padding(零填充)层、CBL模块和残差单元组，残差单元组用Res unit*n表示，含义是包括n个残差单元Res unit，每个残差单元包括采用残差网络(Residual Network，简称为ResNets)连接形式连接的多个CBL模块，特征融合方式采用并行方式，即add方式。

FPN网络的各个预测支路中均包括卷积网络模块组，具体包括5个卷积网络模块，即图2中的CBL*5。另外，US(up sampling，上采样)模块为上采样模块；concat表示特征融合采用级联方式，concat为concatenate的简称。

YOLO_v3网络中各个主要模块的具体构成请参见图4中虚线框下的示意图。

参见图5，图5为本发明实施例提供的目标检测网络的结构示意图；本发明实施例中，对原有的FPN网络进行了改进，改变其网络连接形式以改变特征融合方式得到改进型FPN网络，主旨是特征融合结合横向方式与自顶向下密集连接方式，在这种方式中，自顶向下的方式变成了尺度较小的预测支路的特征图直接向每一个尺度较大的预测支路传递自身的特征。本发明实施例中的FPN网络包括与3个特征图的尺度对应的3个预测支路Y₁～Y₃。

以下结合本发明实施例中的FPN网络及其特征融合方式对S11进行介绍。S11可以包括S111和S112：

S111，针对场景视频的每一帧图像，利用目标检测网络的主干网络进行特征提取，得到3个特征图。

S112，将3个特征图利用目标检测网络的FPN网络进行自顶向下，密集连接形式的特征融合，得到该帧图像中各目标分别对应的属性信息。

具体的，S112包括：

针对FPN网络中的预测支路Y_i，从3个特征图中，获取对应尺度的特征图并进行卷积处理，将卷积处理后的特征图，与预测支路Y_i-1～Y₁分别经上采样处理后的特征图进行级联融合；其中，预测支路Y_i-j的上采样倍数为2^j；i＝2、3；j为小于i的自然数。

以i＝3也就是预测支路Y₃为例说明，其进行级联融合处理的特征图来源于三方面：第一方面，是从3个特征图中，获取对应尺度的特征图并进行卷积处理，也就是沿输入逆向的第三个残差模块(res8)输出的特征图经CBL模块后的特征图，该特征图也可以理解为经过1倍上采样，尺寸是52×52×255；第二方面来源于预测支路Y₂(即Y_i-1＝Y₂)，即沿输入逆向的第二个残差模块(res8)输出的特征图(尺寸是26×26×255)经过预测支路Y₂的CBL模块再经2¹＝2倍上采样处理后的特征图(尺寸是52×52×255)；第三方面来源于预测支路Y₁(即Y_i-2＝Y₁)，即沿输入逆向的第一个残差模块(res4)输出的特征图(尺寸是13×13×255)经预测支路Y₁的CBL模块后再经2²＝4倍上采样处理后的特征图(尺寸是52×52×255)；那么，本领域技术人员可以理解的是，上述过程将主干网络输出的3个不同尺度的特征图经过不同倍数的上采样处理后，可以使得待级联融合的3个特征图的尺寸一致，均为52×52×255。这样，预测支路Y₃可以在级联融合之后，继续进行卷积等处理，得到预测结果Y3，Y3尺寸为52×52×255。

关于预测支路Y₂的特征融合过程，请参见预测支路Y₃，在此不再赘述。而针对预测支路Y₁，其获取沿输入逆向的第一个残差模块输出的特征图后自行进行后续的预测过程，并不接受其余预测支路的特征图与之融合。

现有技术中YOLO_v3网络的特征融合方式中，使用的是先将深层和较浅层网络特征相加，再一起进行上采样的方法，这种方法在将特征相加后，要通过卷积层提取特征图，这样的操作会破坏一些原始的特征信息。而在本实施方式中，将特征融合方式变为了密集的融合方法，即深层特征直接进行不同倍数的上采样，以此来使得传递的所有特征图具有相同的尺寸。将这些特征图和浅层的特征图通过串联的方式融合起来，对融合的结果再次提取特征来消除里面的噪声，保留主要信息，然后进行预测，这样可以利用到更多的原始信息，在浅层网络中也有高维语义信息的参与。因此，这样可以保留更多特征图原始语义特征的优势，只不过对于自顶向下的方法来讲，保留的原始语义是更加高维的语义信息，这样可以对于物体的分类有帮助。通过直接接收更浅层网络的特征，可以得到更加具体的特征，这样将有效地减少特征的损失，并且可以减少需要运算的参数量，加速网络预测过程。

以上，主要针对特征融合方式进行介绍，各预测支路在特征融合之后主要是利用一些卷积操作进行预测，得到各自的预测结果。关于如何获取各自的预测结果请参见相关的现有技术，在此不进行说明。

之后，对所有预测结果经由分类网络进行分类处理，再经由非极大值抑制模块进行预测框去重处理。

其中，分类网络包括SoftMax分类器。目的是实现互斥分类。可选的，分类网络也可以沿用YOLO_v3网络的logistic回归进行分类，以实现多个独立的二分类。

非极大值抑制模块用于进行NMS(non_max_suppression，非极大值抑制)处理。用于在重复框选同一目标的多个预测框中，排除置信度相对较小的预测框。

关于分类网络和非极大值抑制模块的内容，可以参见现有技术相关说明，在此不再赘述。

通过预先训练的目标检测网络，可以获得场景视频的每一帧图像中各目标分别对应的属性信息。其中，属性信息包括包含目标的边界框的位置信息。目标的边界框的位置信息以(x,y,w,h)表示，其中，(x,y)表示当前边界框的中心位置坐标，w和h表示边界框的宽和高，本领域技术人员可以理解的是，除了边界框的位置信息，属性信息还包括边界框的置信度，置信度反映了边界框中包含目标的信心程度，以及边界框预测目标的准确程度。置信度定义为：

如果不含目标，则pr(object)＝0，置信度confidence＝0；如果含有目标，则pr(object)＝1，因此置信度

为真实边界框和预测边界框的交并比。

本领域技术人员可以理解的是，属性信息还包括目标的类别信息。类别信息表示目标的类别，如人、家具、动物等等。

需要说明的是，由于一帧视频图像中往往有可能包含若干个目标，有的目标距离较远，或者过于微小，或者不属于所在环境中“感兴趣的目标”，这些都不是带有检测目的性的目标。比如针对家庭这个环境中，关心的是被监护人和可能对被监护人造成伤害或者被监护人需要使用的物品，而家里的挂钟一般属于非感兴趣目标。这样，优选的实施方式中，是通过在预训练环节预先控制调节目标检测网络设置实现可以对一帧图像检测出预设数量个目标，比如预设数量可以为30、40等等。同时使用标注好的带有检测目的性的训练样本对目标检测网络进行训练，让目标检测网络具有自主学习性能，使得训练好的目标检测网络可以针对未知的，作为测试样本的场景视频，可以得到每一帧图像中预设数量个具有检测目的性的目标分别对应的属性信息，以提高目标检测效率和检测的针对性。

那么，在S1之前，需要针对所在环境预先训练目标检测网络，本领域技术人员可以理解的是，预训练使用的样本数据即为所在环境下的样本场景视频和样本属性信息，其中样本属性信息包括样本场景视频每一帧图像中目标的类别信息和包含目标的边界框的位置信息。

预训练过程可以简述为以下步骤：

1)将样本场景视频每一帧图像对应目标的属性信息作为该帧图像对应的真值，将各帧图像和对应的真值，通过目标检测网络进行训练，获得各帧图像的训练结果。

2)将每一帧图像的训练结果与该帧图像对应的真值进行比较，得到该帧图像对应的输出结果。

3)根据各帧图像对应的输出结果，计算网络的损失值。

4)根据损失值，调整网络的参数，并重新进行1)-3)步骤，直至网络的损失值达到了一定的收敛条件，也就是损失值达到最小，这时，意味着每一帧图像的训练结果与该帧图像对应的真值一致，从而完成网络的训练，即得到预先训练的目标检测网络。

对于所在环境，需要预先获得大量的样本场景视频，进行人工或者机器标注，获得每一样本场景视频中每一帧图像对应目标的类别信息和包含目标的边界框的位置信息，通过预训练过程使得目标检测网络具备该环境下的目标检测性能。

本发明实施例中，对YOLO_v3网络的特征融合方式进行改进，对提取的特征图采用进行自顶向下，密集连接形式的特征融合，即对深层特征进行不同倍数的上采样，并与浅层特征串联融合，能够得到更多的原始信息，同时在浅层网络中也有高维语义信息的参与，同样有助于提高检测精度，通过直接接收更浅层网络的特征，可以得到更加具体的特征，有效减少特征损失，可以通过减少运算的参数量，加速预测。

S12，基于每一帧图像中各目标分别对应的属性信息，利用预设的多目标跟踪算法对场景视频的各帧图像中的相同目标进行匹配。

目标跟踪的目的是定位目标在每帧视频图像中的位置，产生目标运动轨迹。针对图像的目标跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，确定后续帧中该目标的大小与位置。

早期的目标检测跟踪实现主要以行人检测为主，检测思路主要是根据传统的特征点检测的方法来实现检测，然后通过滤波匹配特征点来实现跟踪。如基于方向梯度直方图特征(HOG)的行人检测，早期行人检测实现有漏检、误报与重复检测等各种问题。随着近年来深度卷积神经网络的发展，出现了多种通过高精度的检测结果来进行目标检测跟踪的方法。本发明实施例中可以采用现有技术中的任意一种目标跟踪技术，比如基于相关滤波(Correlation Filter)或者卷积神经网络(CNN)的跟踪方法等等。

由于本发明实施例针对的所在环境中出现有多个目标，因此需要利用多目标跟踪(Multiple Object Tracking，MOT)算法实现目标跟踪。多目标跟踪问题可以被看成是数据关联问题，目的是在视频帧序列中进行跨帧检测结果的关联。通过利用预设的多目标跟踪算法对场景视频中的目标进行跟踪检测，可以得到场景视频前后帧中的相同目标在不同帧图像中的边界框和该目标的ID(Identity document，身份标识号)，即实现各帧图像中的相同目标的匹配。

可选的一种实施方式中，预设的多目标跟踪算法可以包括：SORT(Simple Onlineand Realtime Tracking)算法。

SORT算法使用的是TDB(tracking-by-detection)的方法，其追踪手段是使用Kalman滤波追踪实现目标运动状态估计，使用匈牙利指派算法进行位置匹配。SORT算法没有在目标追踪过程中使用任何的目标外观特征，而是仅使用边界框的位置和大小进行目标的运动估计和数据关联。因此SORT算法复杂度低，追踪器可以实现260Hz的速度，目标跟踪检测速度快，能够满足本发明实施例的场景视频中的实时性要求。

由于SORT算法没有考虑遮挡问题，也没有通过目标的外观特征进行目标重识别，比较适合应用于目标无遮挡的环境。

可选的另一种实施方式中，预设的多目标跟踪算法可以包括：DeepSort(Simpleonline and realtime tracking with a deep association metric)算法。

DeepSort是在SORT目标追踪基础上的改进，该算法沿用了卡尔曼滤波算法进行轨迹预处理和状态估计和匈牙利算法进行关联，在改进SORT算法的基础上，该算法还引入了在行人重识别数据集上离线训练的深度学习模型，在实时视频上追踪目标时，为改善视频中的目标有遮挡的状况和目标ID频繁切换的问题，通过提取目标的深度表观特征进行最近邻匹配。DeepSort的核心思想是使用了递归的卡尔曼滤波和数每帧之间的数据关联进行跟踪。DeepSort在SORT基础上增加了深度关联度量(Deep Association Metric)，目的是区分出不同的行人。此外还加入了外观信息(Appearance Information)以实现较长时间遮挡的目标跟踪。该算法在实时的多目标跟踪上比SORT速度更快，更准确。

关于SORT算法和DeepSort算法的具体跟踪过程请参见相关现有技术理解，在此不做赘述。

S13，确定每一帧图像中，被监护人与不同目标之间的实际空间距离。

通过前面步骤进行目标检测和跟踪，可以得到场景视频中每一帧图像的各个目标的位置信息，但是仅仅有各个目标自身的位置信息不足以表征所在环境中各目标的关系。因此，该步骤需要确定每一帧图像中被监护人和不同目标之间的实际空间距离，利用目标之间的实际空间距离限定目标的空间组成关系。这样在后续利用构建的空间与或图模型进行预测时，才能够获得准确的结果。

可选的一种实施方式中，可以采用等比例缩放原理确定图像中被监护人和其余目标之间的实际空间距离。具体的，可以先在所在环境中选取被监护人和其余一个目标作为测试目标，测量这两个测试目标的实际空间距离，并拍摄包含这两个测试目标的一帧图像，然后计算图像中这两个测试目标的像素距离，从而得到实际中单位长度对应的像素数，比如实际中1米对应的像素数。那么，针对需要检测实际空间距离的两个新的目标(被监护人和另一个目标)，以该实际中单位长度对应的像素数作为因子，可以对场景中拍摄的一帧图像中的这两个新的目标的像素距离利用公式进行等比例缩放，从而得到这两个新的目标的实际空间距离。

可以理解的是，该方案简便可行，但是比较适合于图像未出现畸变的情形。在图像出现畸变的情况下，像素坐标和物理坐标不是一一对应的，需要对畸变进行修正。比如通过cvInitUndistortMap和cvRemap来矫正图片实现消除畸变等等。关于该种等比例缩放的实施方式以及图像畸变修改的具体过程可以参考相关现有技术了解，在此不再赘述。

可选的一种方式中，可以采用单目测距方式，确定图像中被监护人与不同目标之间的实际空间距离。

单目摄像模型可以近似考虑为针孔模型。即利用小孔成像原理实现测距。可选的，可以通过摄像头与实际物体之间的空间位置关系和图像中目标的位置关系，构建相似三角形，然后计算目标之间的实际空间距离，从而确定被监护人与不同目标之间的实际空间距离。

可选的，可以利用现有技术中单目测距方式的相关算法，利用目标的一个像素点的像素坐标，计算出该像素点实际位置距离视频拍摄设备(摄像机/相机/摄像头)的水平距离d_x和垂直距离d_y，即实现单目测距。再通过已知的视频拍摄设备的实际坐标和d_x、d_y，推导计算出该像素点的实际坐标。那么，针对图像中的两个目标(被监护人和另一个目标)，就可以利用这两个目标的实际坐标计算出两者的实际空间距离。

可选的一种实施方式中，可以通过计算目标的像素点所对应的实际坐标点来确定图像中被监护人与不同目标之间的实际空间距离。

其中，计算目标的像素点所对应的实际坐标点就是计算像素点的实际坐标。

可选的，可以采用单目视觉定位测距技术，得到像素的实际坐标。

单目视觉定位测距技术具有低成本和计算快的优点。具体可以包括两种方式：

1)利用定位测量插值得到每个像素的实际坐标。

考虑到针孔成像模型的等比例放大，可以通过直接打印布满等距阵列圆点的纸来进行测量。在较高距离测量等距阵列点(如标定板)，经过插值，再进行等比例放大即可得到每个像素点对应的实际地面的坐标。这样的操作可以省去人工在地面测量绘画标志。在测量纸上的点距后再进行H/h(高度比)的放大就可以得到像素对应实际地面的坐标。为了避免图像上边缘的梯形失真过于严重，导致打印纸上的标志点不容易识别，该方式需要准备不同距离的等距阵列圆点图。

2)根据相似三角比例计算像素点的实际坐标。

该方式主要思路仍是小孔成像模型。但对视频拍摄设备(摄像机/相机/摄像头)标定的要求比较高，同时要求镜头本身造成的畸变比较小，但该方式可移植性和实用性较强。可以先对视频拍摄设备进行标定，比如利用MATLAB或者OPENCV进行标定，等等，然后进行图像中像素坐标的转换计算。

以下选取该方式下的一种可选方式进行说明，S13可以包括S131～S133：

S131，在每一帧图像中，确定每个目标的像素坐标；

比如可以确定包含目标的边界框以及边界框内的所有像素点的像素坐标作为目标的像素坐标；或者可以选取边界框上或者边界框内的一个像素点作为目标的像素坐标，也就是利用目标的像素坐标代表该目标，比如可以选取边界框的中心位置坐标作为目标的像素坐标，等等。

S132，针对每个目标，利用单目视觉定位测距技术，计算该目标的像素坐标在世界坐标系中对应的实际坐标；

图像中任一像素点的像素坐标是可知的。相机的成像过程涉及到四个坐标系：世界坐标系、相机坐标系、图像物理坐标系(也叫成像平面坐标系)、像素坐标系以及这四个坐标系的转换。现有技术中，这四个坐标系之间的转换关系是已知可推导的。那么可以利用坐标系变换公式等方法，计算图像中像素点的像素坐标在世界坐标系中对应的实际坐标，比如利用OPENCV语言的诸多公开算法程序，从像素坐标得到世界坐标系中的实际坐标。具体的，比如通过在一些OPENCV程序中输入相机的内参、旋转向量、平移向量和像素坐标等，利用相关函数求出对应的世界坐标。

假设针对目标A和目标B，得到的代表目标A的边界框的中心位置坐标在世界坐标系中对应的实际坐标为(X_A,Y_A)，得到的代表目标B的边界框的中心位置坐标在世界坐标系中对应的实际坐标为(X_B,Y_B)。进一步的，如果目标A具有实际高度，则上述目标A的实际坐标为

其中h为目标A的实际高度，H为视频拍摄设备的高度。

S133，针对每一帧图像，利用该帧图像中被监护人的实际坐标，以及其余目标的实际坐标，得到该帧图像中被监护人与不同目标之间的实际空间距离。

利用实际坐标求取两点距离属于现有技术。针对上述示例，在不考虑目标实际高度的情况下，目标A和B之间的实际空间距离D为：

当然，考虑目标实际高度的情况与之类似。

可选的，如果S131获得的是目标A和B各自的多个像素坐标，则可以利用多个像素坐标计算目标A和目标B的多个实际距离，再按照一定的选择标准选择其中一个实际距离作为目标A和目标B的实际空间距离，如选取最小的实际距离作为目标A和B的实际空间距离等，这都是合理的。

该步骤可以得到任意两个目标之间的实际空间距离，针对本发明实施例可以从中获取被监护人与其余每个目标之间的实际空间距离。

上述各个方案的具体细节可以详见计算机视觉(computer vision)及其中关于摄像机校准(camera calibration)、世界坐标系、相机坐标系、图像物理坐标系(也叫成像平面坐标系)、像素坐标系的相关概念，以及labview视觉开发、OPENCV相关算法、LABVIEW范例、Calibration范例等，在此不再赘述。

可选的一种实施方式中，确定每一帧图像中被监护人与不同目标之间的实际空间距离也可以利用双目摄像头光学图像测距方法实现。

双目相机和人的双目一样，两个相机由于角度和位置的不同，所拍摄的同一个物体的图像存在差异，将这称之为“视差”，视差的大小和物体距离相机的距离有关，可以根据这个原理来进行目标的定位。双目摄像头光学图像测距通过对左右相机所拍得两幅图像视差进行计算。具体方法与单目摄像头光学图像测距类似，但相比于单目相机具有更加精确的测距定位信息。其中，双目测距需要对两幅图像进行图像变换和极线匹配等操作，关于双目摄像头光学图像测距方法具体的测距过程请参见相关现有技术，在此不做赘述。

可选的一种实施方式中，确定每一帧图像中被监护人与不同目标之间的实际空间距离也可以包括：

针对每一帧图像，利用深度相机测距方法得到该帧图像中该两个目标之间的实际空间距离。

深度相机测距方法可以直接从图像中获得目标的深度信息，无需进行坐标计算，即可准确快速得到目标和视频拍摄设备之间的实际空间距离，从而确定被监护人与不同目标之间的实际空间距离，准确性和时效性更高。关于深度相机测距方法具体的测距过程请参见相关现有技术，在此不做赘述。

S14，利用匹配后各帧图像对应的目标的属性信息以及实际空间距离，生成空间与或图模型。

对每一帧图像中被监护人和其余目标进行空间关系分解，得到该帧图像的空间与或图，将场景视频中各帧图像对应的空间与或图整合得到所在环境的空间与或图模型。

具体的，该步骤中，针对每一帧图像，将检测到的目标和目标的属性信息作为空间与或图的叶子节点，并且将被监护人和其余目标间的实际空间距离作为空间与或图的空间约束，从而生成该帧图像的空间与或图。由所有帧图像的空间与或图构成所在环境的空间与或图模型。其中目标包括被监护人。

以所在环境为家庭为例，请参见图6，图6为本发明实施例作为示例的家庭环境的一个空间与或图。

图6中的上图表示家庭客厅的一帧图像，其作为被监护人所在环境，是空间与或图的根节点。通过前述方法检测出三个目标，分别为图6下方的左中右三图。左图为沙发，图像中标注有类别信息“sofa”，表示沙发，还标注有该沙发的边界框；中图为医疗箱，图像中标注有类别信息“Medical”，表示医药，还标注有该医疗箱的边界框；右图为被监护人，图像中标注有类别信息“person”，表示人类，还标注有该被监护人的边界框。以上这些类别信息和边界框的位置信息就是目标的属性信息。同时如果针对不同帧图像中的同一个目标，比如该被监护人C，还会标注有其ID，以在不同帧图像中区分该被监护人与其他目标，比如可以以数字或者符号表示该被监护人的ID。

沙发、医药箱和被监护人，这三个目标和对应的属性信息，是空间与或图的叶子节点。其中，被监护人和其余两个目标之间的实际空间距离作为空间与或图的空间约束(图6中并未示出)。

关于一个空间与或图的生成过程具体可以参见相关现有技术的说明，在此不做赘述。

进一步的，生成所在环境的空间与或图模型之后，可以使用该所在环境的空间与或图模型产生出新的环境以及新的目标间的空间位置关系。比如，可以将客厅和卧室等房间的环境的空间与或图模型进行整合，得到包含该两个环境的新的空间与或图模型，从而实现环境扩展。

S2，对空间与或图模型利用子活动提取算法得到表征被监护人与其余关注目标的活动状态的子活动标签集。

S1实现了空间与或图的叶子节点的检测。本步骤通过提取子活动，得到子活动组合的事件序列，以此来表达场景视频代表的整个事件。需要说明的是，本步骤提取的子活动实际上就是目标的活动，子活动是以与或图叶子节点的角度描述的方式。其中，关注目标包括被监护人。

可选的一种实施方式中，S2可以包括S21～S24：

在S21之前，可以先初始化子活动标签集subActivists＝null，subActivists是一个字符串数组，用于保存子活动标签。然后执行S21～S24。

S21，将空间与或图模型中，被监护人，以及与被监护人的实际空间距离小于预设距离阈值的目标确定为关注目标。

可选的，将空间与或图模型中，第一帧图像对应的空间与或图内，被监护人，以及与被监护人的实际空间距离小于预设距离阈值的目标确定为关注目标。

如果两个目标之间的实际空间距离小可能体现该两个目标存在更多的活动接触，比如接近、碰撞等，因此，有必要将该两个目标作为关注目标进行持续观测，预测两者未来的活动；反之，如果两个目标之间的实际空间距离很大表明这两个目标出现活动交集的可能性较小，因此没有必要进行相应的活动预测。在本发明实施例中，主要考虑会移动的被监护人和其余目标的位置关系，因此，每对关注目标都包括被监护人。

因此，在第一帧图像中，计算被监护人和不同目标间的实际空间距离d，将实际空间距离d小于预设距离阈值minDis的成对目标确定为关注目标。针对不同的所在环境，可以设置不同大小的预设距离阈值minDis，比如在客厅环境下，关注的是被监护人和其余目标的距离，minDis可以为50厘米等。

可选的，针对S21，可以是：

将空间与或图模型中，除最后一帧图像外的每一帧图像对应的空间与或图内，被监护人，以及与被监护人的实际空间距离小于预设距离阈值的目标确定为关注目标。

也就是除最后一帧图像外，每一帧图像中都进行确定关注目标的操作，以便于及时发现更多的关注目标。因为有可能，被监护人未出现在第一帧图像中。

S22，针对每一帧图像，确定每对关注目标的实际空间距离和各关注目标的速度值。

在该步骤，从第一帧图像开始，可以将小于预设距离阈值minDis的关注目标的实际空间距离d保存在Distance x；Distance x是一个保存不同目标间实际空间距离d的多维数组。其中，x表示图像对应的序号，比如x＝1表示第一帧图像。

同时，可以计算各帧图像中相同的关注目标的速度值，该速度值指的是关注目标在场景视频当前帧中的速度。以下简要描述目标的速度值的计算方法：

计算一目标的速度值，需要得到该目标在前后帧图像中移动的距离s和时间t。首先计算相机的帧速率FPS。具体的，在开发软件OpenCV中，可以利用自带的get(CAP_PROP_FPS)和get(CV_CAP_PROP_FPS)方法计算出视频的每秒帧数FPS。

每k帧检测一次，则有：

t＝k/FPS(s) (3)

因此，目标的速度值v可以通过下式计算：

其中(X₁，Y₁)和(X₂，Y₂)分别表示目标在前一帧图像和后一帧图像中的实际坐标，目标的实际坐标可以通过S133步骤得到。由于计算当前帧图像的目标的速度值需要利用前一帧图像和当前帧图像，可以理解的是，可以从第二帧图像开始获得目标的速度值。

通过上述方法可以计算出关注目标在视频中的速度，其中可以在每个关注目标的边界框旁标识出对应的速度值，如0.8m/s等。在居家环境中，本发明实施例中发生移动的主要是人类，因此计算出的速度值主要是图像中人类的速度值，当然也可以是移动的玩具、宠物等的速度值，如果所在环境在户外，则有可能包括车辆的速度值，等等。

对于相同的关注目标，在第一帧图像中的速度值可以以v1表示，在第二帧图像中的速度值可以以v2表示，…，以此类推。

S23，通过依次比较后一帧图像和前一帧图像，得到表征每对关注目标的实际空间距离变化情况的距离变化信息，以及表征各关注目标的速度值变化情况的速度变化信息。

比如针对两个关注目标E和F，前帧图像中两者的实际空间距离为3米，而后帧图像中两者的实际空间距离为2米，则比较得知两者的实际空间距离减小，这就是两者的距离变化信息。同理，如果E在前帧图像中的速度值为8m/s，而在后帧图像中的速度值为10m/s，则比较得知表示E的速度变快，这就是其速度变化信息。

直至遍历完所有帧的图像，可以得到顺序发生的、每一帧图像对应的，每一个关注目标的距离变化信息和速度变化信息。

S24，利用语义标签描述各关注目标依次得到的距离变化信息以及速度变化信息，生成表征被监护人与其余关注目标的活动状态的子活动标签集。

该步骤是用语义将距离变化信息以及速度变化信息描述成文字形式，比如加速、减速、接近、远离等，来获得表征关注目标活动状态的子活动标签，最终由各帧图像对应的，依次发生的子活动标签得到子活动标签集。子活动标签集体现场景视频的子事件序列。本发明实施例利用子活动标签集实现场景视频的描述，即通过视频中的每个目标的不同子活动的组合来得到整个视频的语义描述，实现场景视频的语义提取。

本发明实施例中的子活动定义可参照CAD-120数据集中的子活动标签定义的方式，并且较短的标签模式有助于归纳与或图的节点。不同所在环境下可以针对性地定义感兴趣的子活动标签。

至此步骤，可以得到完整的子活动标签集subActivists。

本发明实施例针对不同的所在环境，在分析目标活动(事件)的时候，可以定义场景中的子活动(即子事件)，每个子活动都可以通过前文的目标检测、跟踪和速度计算的方法来得到子活动标签。不同所在环境的子活动标签不同。以门禁环境为例，可以定义如下的子活动标签：

无人(None)、人不动(person_stopping)、人接近(closing)、人远离(away)、人走过(walking、running)、人通过(passing)等。

再比如，以家庭环境为例，可以定义如下的子活动标签：

无人(None)、人不动(person_stopping)、人接近(closing)、人远离(away)、撞(crash)、跌倒(fall)等。

可以理解的是，如果在S21中，除了最后一帧图像外，每一帧图像都进行确定关注目标的操作，那么利用S22～S24得到的子活动标签集包括的关注目标的数量更多，比如，有些关注目标是基于第二帧图像确定的，等等。

S3，将子活动标签集输入预先得到的时间与或图模型，得到被监护人未来活动的预测结果。

其中，时间与或图模型是利用预先建立的所在环境的目标的活动语料库得到的。

在不同的环境中，研究的目标有所不同，因此需要对不同的环境进行建模来表示目标活动(事件)。构建时间与或图(T-AOG)，需要获得所在环境的目标的活动语料库，这些语料库可以看作所在环境的视频的先验知识，其中包含的目标活动(事件)越全面，所构建的T-AOG模型就越准确。

本发明实施例的时间与或图模型的构建过程包括：

①，观察所在环境的样本场景视频，提取样本场景视频中关于目标的各种事件的语料，建立所在环境的目标的活动语料库。

其中，目标包括被监护人。所在环境的目标的活动语料库中以子活动标签表示目标的活动状态，事件由子活动的集合构成。

通过对所在环境中的不同样本场景视频进行分析，获得事件的语料库，语料即叶子节点的按时间发生顺序出现的可能组合，以交通路口场景为例，定义的子活动标签可以包括：停车(car_stopping)、人不动(person_stopping)、人车远离(away)、车加速(accelerate)、车减速(decelerate)、车匀速(moving-uniformly)、人车靠近(closing)无人或者无车(None)、人过斑马线(walking、running)、撞(crash)。下一个语料可表示一个视频：“closing person_stopping moving_uniformly walking away”，可表示为：人车靠近，人不动，车匀速通过，停车，人通过，人车远离。

本发明实施例要求获得的场景语料尽可能多的包含场景中的事件，这样在做目标活动预测的时候就会更加准确。

②，对活动语料库，使用基于ADIOS的语法归纳算法学习每个事件的符号语法结构，将子活动作为时间与或图的终端节点，得到时间与或图模型；其中，活动语料库中以子活动标签表示目标的活动状态，事件由子活动的集合构成。

具体的，该基于ADIOS的语法归纳算法通过生成重要模式和等效类来学习与节点(And Node)和或节点(Or Node)。该算法首先将活动的语料库加载到顶点为子活动的图形上，并通过两个特殊符号(开始和结束)进行扩充。每个事件样本由图上的单独路径表示。然后，通过遍历不同的搜索路径生成候选模式。在每次迭代中，根据上下文敏感标准测试每个子路径的统计显着性。重要模式被识别为与节点；然后，算法通过查找在给定上下文中可互换的单元来找到等效类。等效类被识别为或节点。在迭代结束时，重要模式作为新节点添加到图形中，替换它包含的子路径。从所在环境的目标的活动语料库可以得到符号子活动的原始序列数据，可以使用基于ADIOS的语法归纳算法从符号子活动的原始序列数据中学习每个事件的符号语法结构。在本发明实施例中倾向于使用较短的重要模式，以便可以捕获基本语法单元。该算法通过生成重要模式和等效类来学习And节点和Or节点。作为示例，使用交通路口语料生成的T-AOG如图7所示，图7为本发明实施例作为示例的交通路口时间语法(T-AOG)的结果图。双线圆和单线圆节点分别是And节点和Or节点。Or节点的分支边缘上的数字(小于1的小数)表示分支概率。And节点边缘上的数字表示扩展的时间顺序。

得到时间与或图模型后，针对S3，可以包括如下步骤：

将子活动标签集输入时间与或图模型，利用Earley解析器的在线符号预测算法得到所在环境中，被监护人未来活动的预测结果，预测结果包括被监护人未来的子活动标签和出现的概率值。

其中，子活动标签体现的是成对的关注目标在未来时刻的位置关系或者运动状态。针对S3，可以是将包含每一对关注目标的子活动标签集输入时间与或图模型，那么预测结果可以包括每一对关注目标的未来子活动标签和出现的概率值。当然也可以是将包含某一对关注目标的子活动标签集输入时间与或图模型，得到该对关注目标的未来子活动标签和出现的概率值，这都是合理的。其中关注目标包括被监护人。

本发明实施例通过所在环境的目标的活动语料库来构建T-AOG，使用S-AOG得到的子活动标签集作为T-AOG的输入，进而采用基于Earley解析器的在线符号预测算法在T-AOG上来预测下一个可能的子活动。Earley解析器的算法是用于解析给定的上下文无关语言的句子的算法。Earley算法是基于动态规划思想设计的。

下面介绍Earley解析器的符号预测算法。Earley解析器按顺序读取终端符号，创建一组与当前输入终端符号的输入一致的所有未决派生(状态)。给定下一个输入符号，解析器迭代地对当前状态集中的每个状态执行三个基本操作(预测，扫描和完成)之一。

在以下描述中，α，β和γ表示任意字符串(包括空字符串)的终端或非终端字符，A1和B1表示单个非终结字符串，并且T表示终结符。

采用Earley的“·”符号解析字符串：用于字符串A1的解析A1→αβ，A1→α·β，表示符号α已被解析，β是需要预测的字符。

输入位置n定义为接受第n个字符后的位置，当输入位置为0时定义为输入前的位置。在每个输入位置m，解析器生成一个状态集S(m)。每个状态都是一个元组(A1→α·β,i)，这个一元组有以下组成：

(1)当前正在匹配的字符串的组成(A1→αβ)

(2)圆点“·”表示当前解析的位置，α已被解析，β是需要预测的字符。

(3)i表示开始匹配的原始位置，一个字符串的起止位置[i,j]：整数i表示状态起点(已分析子串的起点)，整数j表示状态终点(已分析子串的终点)，i≤j。

解析器会重复执行三个操作：预测、扫描和完成:

预测(Predicator)：对于形式为(A1→α·B1β,i)的S(m)的每一个状态来说，圆点后面是非终端字符，那么以字符串B1的每一个字符都有匹配的可能，对于伴随B1中的语法的每一个解析字符，将(B1→·γ,m)加在S(m)的左手边(例如：B1→γ)；

扫描(Scanner)：对于形式为(A1→α·Tβ)的S(m)的每一个状态来说，如果T是输入流中的下一个符号，由于T是终端字符，所以圆点向右扫描一个字符。即添加(A1→αT·β,i)到S(m+1)；

完成(Completer)：对于形式为(A1→γ·j)的S(m)的每一个状态来说，找到在S(j)中形式为(B1→α·A1β,i)的状态，并且添加(B1→α·A1β,i)到S(m)；

在这个过程中，状态集中不会添加重复的状态。这三个操作会重复，直到没有新的状态可以添加到状态集中。

关于Earley解析器的符号预测算法的执行步骤可以包括：

设输入句子有n个词，字符间隔可以记为0,1，…，n，也就是生成n+1个chart(图表)。

步骤一：将T-AOG规则中形如S→a的解析规则形成状态S→·a，[0,0]，加入到chart[0]中。

步骤二：对于chart[i]中的每个state，如果当前状态是“未完成状态”，且后面不是终端字符T，则执行Predicator；如果当前状态是“未完成状态”，且后面是一个终端字符T，则执行Scanner；如果当前状态是“完成状态”，则执行Completer。

步骤三：若i＜n，则跳转到步骤二，否则解析结束。

步骤四：如果最后得到形如S→·a，[0,n]的状态，则输入字符串被接收为合法矩阵，否则分析失败。

本发明实施例中，利用Earley解析器的符号预测算法，使用子活动的当前句子作为Earley解析器的输入，并扫描所有未决状态以找到下一个可能的终端节点(子活动)。

关于Earley解析器的符号预测算法的详细内容请参见相关现有技术的介绍。

总而言之，本发明实施例中，利用时空与或图(spatial-temporal And-Or graph，ST-AOG)表示目标活动。时空与或图(ST-AOG)由空间与或图(S-AOG)和时间与或图(T-AOG)组成。时空与或图可以理解为使用空间与或图的根节点作为时间与或图的叶子节点搭建得到。S-AOG表示场景的状态，通过目标及目标的属性来层次表示目标间的空间关系，通过目标检测获得的空间位置关系来表示最小的子事件(如人静止、车加速和人车靠近等子事件标签)。S-AOG的根节点是子活动标签，终端节点是目标和目标间关系。T-AOG是随机时间语法，表示将事件层次分解为若干的子事件，模拟目标活动的层次结构，其根节点是活动(事件)，终端节点是子活动(子事件)。

其中，ST-AOG的学习可以分解为两个主要部分：第一部分是学习每个事件/任务的符号语法结构(T-AOG)。第二部分是学习ST-AOG的参数，包括或节点的分支概率。关于ST-AOG的具体细节在此不再赘述。

为了理解本发明实施例的预测结果和效果，以下以不同的所在环境，对本发明实施例的实验结果进行概要介绍，本发明实施例中，所在环境可以包括门禁、家庭内等等。以下举例进行详细说明：

1)门禁

本发明实施例中的门禁包括任意具有类似部件“门”的进出区域，比如小区大门、家庭大门等等。在该种环境中，门禁在视频中的位置是固定的，可以由人工标定等。

该环境下定义子活动包括：

同样的，根据门禁处的视频语料库，使用前面的方法构建出T-AOG模型，这个T-AOG模型中，可以找到该环境中所有的事件。

比如，通过S1确定一对关注目标为被监护人和门禁。通过S2的子活动提取算法，得到其子活动标签集，即表示子事件的语句。将子活动标签集输入T-AOG模型，即输入的组合子活动的事件语句sentence如下：

sentence＝'closing walking person_stopping'

采用Earley解析器的在线符号预测算法在T-AOG模型中预测下一个可能的子活动。

程序输出结果可以为：

['closing','walking','person_stopping']

(['passing'],[0.5])

即预测得到下一个子活动标签为被监护人通过(passing)门禁。

该场景中，通过前面分析出来的门禁处的子活动结果为人接近门禁，然后在门禁处停下来，通过预测得到下一个子活动标签为通过(passing)。通过实际视频中前后帧图像的比较，得知该预测结果和实际图像中人和门禁的关系是吻合的。

1)家庭内

本发明实施例中，家具在视频中的位置是固定的，可以由人工标定等。

该环境下定义子活动包括：

无人(None)、人不动(person_stopping)、人走(walking)、人接近(closing)、人远离(away)、撞(crash)、跌倒(fall)等。

同样的，根据家庭内的视频语料库，使用前面的方法构建出T-AOG模型，这个T-AOG模型中，可以找到该环境中所有的事件。

比如，通过S1确定一对关注目标为被监护人和地毯。通过S2的子活动提取算法，得到其子活动标签集，即表示子事件的语句。将子活动标签集输入T-AOG模型，即输入的组合子活动的事件语句sentence如下：

sentence＝'walking closing'

程序输出结果可以为：

['walking','closing']

(['fall'],[0.5])

在程序输出中，第一行表示前面观察的事件语句，由子活动组成，第二行表示预测的字符串(子活动标签)和概率。预测得到下一个子活动标签为被监护人跌倒在地毯上(fall)。同时还可以在解析树中用红色字符等表示当前时刻的观察，用绿色字符等表示根据T-AOG模型预测的字符。

当然，在其他情况下，预测结果还可以是被监护人和某物体，如桌子等发生碰撞(crash)，或者被监护人接近某物体，如医药箱等。预测过程类似上述举例，在此不再赘述。

并且，本发明实施例在子活动预测的实验过程中，对不同所在环境下的多目标的子活动进行提取分析，然后与实际视频中的子活动进行对比。使用混淆矩阵分析通过使用本文中的活动预测方法来预测得到的子活动结果的准确性。

以门禁处为例，可以使用混淆矩阵来分析实际目标间的空间位置变化和检测到的位置变化的对比。如表1所示，通过传统方法如：SVM模型进行目标分类检测方法、训练的双层LSTM模型、R-CNN的VGG-16网络、KGS马尔可夫随机场模型以及ATCRF在CAD-120数据集上的子活动提取的精度最高在87％左右。

表1传统目标检测方法在子活动提取中的精度对比

	SVM	LSTM	VGG-16	KGS	ATCRF
						P/R(％)	33.4	42.3	-	83.9	87

本发明实施例通过预测子活动和实际子活动混淆矩阵图来验证预测效果。其预测的准确性可达到90％左右，比使用传统的目标检测方法来得到子活动标签然后进行预测准确度高。结果证明本发明实施例中的子活动预测结果十分准确。

本发明实施例所提供的方案中，首次将时空与或图引入目标活动预测领域。首先通过对所在环境的场景视频进行目标检测和跟踪，生成所在环境的空间与或图模型，利用空间与或图表示目标间的空间位置关系。其次对空间与或图模型进行子活动提取来获得关注目标的子活动标签集，实现场景视频的高级语义提取。然后将子活动标签集作为预先得到的时间与或图模型的输入，通过时间与或图的时间语法来得到下一个子活动的预测。因此，可以实现对所在环境中被监护人的活动进行有效预测的目的。本发明实施例所提供的方案可以普遍适用于被监护人经常活动的一些环境，具有广泛的应用性。

3)监护控制模块130：

监护模块130在接收到预测结果后，首先判断预测结果是否为预设的活动事件。本发明实施例中可以预设一些活动事件，比如被监护人跌倒、被监护人要出门、被监护人和家具等物体发生碰撞、被监护人接近热水瓶等危险物体、被监护人接近医药箱等等。

如果判断到预测结果是某一种预设的活动事件，则基于预测结果提供对应的监护服务。

可选的一种实施方式中，预设的活动事件包括：跌倒；相应的，基于预测结果提供对应的监护服务，包括：启动跌倒防护装置。

比如预测到被监护人将要跌倒在地上，则可以启动气垫等防护支撑设备。可选的，还可以提前在地板上铺设受控防护的地毯，当预测到被监护人可能跌倒在地上，则可以启动该地毯的防护功能等等。

可选的一种实施方式中，预设的活动事件包括：接近危险区域；相应的，基于预测结果提供对应的监护服务，包括：启动警示提醒。

比如，针对儿童或者智力非健全群体，可以提前预设一些危险区域，比如电源孔、热水瓶、煤气灶、窗户等，当预测到这些被监护人接近某个预设的危险区域时，可以启动警示提醒对方，比如发出语音提醒其远离等等。

可选的一种实施方式中，预设的活动事件包括：接近医药箱；相应的，基于预测结果提供对应的监护服务，包括：启动医疗检测。

在该种实施方式中，智能监护系统还可以包括医疗检测模块，医疗检测模块可以是佩戴于被监护人身上的健康手环等生命体征数据检测设备。可以自行实时检测或者被监护控制模块触发时检测出被监护人的血压、心率、脉搏、血氧量、呼吸频次等数据。并在检测出异常数据时，医疗检测模块可以将检测出的数据发送给监护控制模块，由监护控制模块启动相关的监护服务。

或者可选的一种实施方式中，智能监护系统还可以包括通信模块，在医疗检测模块检测出异常数据时，医疗检测模块将数据发送给通信模块，通信模块可以数据发送给监护人，比如发送给被监护孩子的父母或者被监护老人的子女或者医护人员等，或者连通120呼救等，这都是合理的。

当然，在一般情况下，通信模块都可以预测结果和对应的监护服务生成信息发送给监护人。

可选的一种实施方式中，智能监护系统还可以包括烟气检测模块，烟气检测模块可以自行实时检测或者被监护控制模块触发时检测环境中的煤气以及烟火，比如当预测到被监护人接近或者接近后远离煤气等设备时，烟气检测模块可以受监护控制模块触发去检测空气中是否存在煤气，以提醒被监护人及时关闭煤气，保障安全等。

本发明实施例预设的活动事件对应的监护服务不限于以上所述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种智能监护系统，其特征在于，包括：

视频采集模块，用于采集被监护人所在环境的场景视频；

2.根据权利要求1所述的系统，其特征在于，所述基于所述场景视频生成关于所述被监护人和其余目标的空间位置关系的空间与或图模型，从所述空间与或图模型中提取表征所述被监护人的活动状态的子活动标签集，并将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果，包括：

3.根据权利要求2所述的系统，其特征在于，所述对所述场景视频中的目标进行检测和跟踪，生成空间与或图模型，包括：

4.根据权利要求3所述的系统，其特征在于，所述利用预先训练得到的目标检测网络对所述场景视频中的目标进行检测，得到所述场景视频的每一帧图像中各目标分别对应的属性信息，包括：

5.根据权利要求4所述的系统，其特征在于，所述将所述3个特征图利用所述目标检测网络的FPN网络进行自顶向下，密集连接形式的特征融合，包括：

6.根据权利要求5所述的系统，其特征在于，所述确定每一帧图像中，所述被监护人与不同目标之间的实际空间距离，包括：

在每一帧图像中，确定每个目标的像素坐标；

7.根据权利要求6所述的系统，其特征在于，所述对所述空间与或图模型利用子活动提取算法得到表征所述被监护人与其余关注目标的活动状态的子活动标签集，包括：

8.根据权利要求7所述的系统，其特征在于，所述将所述子活动标签集输入预先得到的时间与或图模型，得到所述被监护人未来活动的预测结果，包括：

9.根据权利要求1或8所述的系统，其特征在于，所述预设的活动事件包括：跌倒；

启动跌倒防护装置。

10.根据权利要求1或8所述的系统，其特征在于，所述预设的活动事件包括：接近危险区域；

启动警示提醒。