CN112733679B

CN112733679B - 一种基于案件逻辑推理的预警系统及训练方法

Info

Publication number: CN112733679B
Application number: CN202011634978.5A
Authority: CN
Inventors: 姜峰; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-09-01
Anticipated expiration: 2040-12-31
Also published as: CN112733679A

Abstract

本发明公开了一种基于案件逻辑推理的预警系统及训练方法，判断人员是否处在密集人群中；通过YOLOV3网络检测目标区域内所有人员头部，以任意人员为目标，提取此人头部中心点10倍检测框长宽的范围，计算该范围内人头数量，表示人群密集程度，设置密集程度阈值，当人头数量大于阈值时输出1，否则输出0；判断人员的表情是否激动；判断人员的行为是否过激；对是否处在密集人群、表情是否激动、行为是否过激的结果进行分析，确定是否对案件进行预警。通过构建逻辑知识库，将目标检测、行为检测、表情识别等方法与逻辑知识库结合，共同训练出一个有效的预警系统，提高非法申请行为的识别率。

Description

一种基于案件逻辑推理的预警系统及训练方法

技术领域

本发明涉及神经网络、案件处理技术研究领域，具体涉及一种基于案件逻辑推理的预警系统及训练方法。

背景技术

随着我国现代化治理进程的不断加快，对案件处理工作的要求也越来越高，然而，一些案件申请人员由于性格问题以及对相关法律法规的不了解，在案件进行过程中出现偏激的情绪化行为，极大地阻碍了案件处理工作有序的进行，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：目前，在案件处理工作中并没有相关方法或者系统能够对此类现象进行预警，以及时处理使得事态不会进一步恶化，而其他领域如安防等，对于危险行为的预警方法考虑的维度比较单一，精度有限，为了帮助案件处理工作正常高效的进行，急需一种预警系统，对不合法的案件申请行为及时预警及时处理。而实际案件处理工作中，场景较为复杂，如何快速精准地识别出风险行为是亟需解决的问题。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种基于案件逻辑推理的预警系统及训练方法，可以提高非法申请行为的识别率。技术方案如下：

第一方面，提供了一种基于案件逻辑推理的预警系统，该系统包括如下内容：

构建逻辑知识库：获取历史案例大数据中对非法案件申请行为的知识特征；

判断人员是否处在密集人群中；通过YOLOV3网络检测目标区域内所有人员头部，以任意人员为目标，提取此人头部中心点10倍检测框长宽的范围，计算该范围内人头数量，表示人群密集程度，设置密集程度阈值，当人头数量大于阈值时输出1，否则输出0；

判断人员的表情是否激动；

判断人员的行为是否过激；

对是否处在密集人群、表情是否激动、行为是否过激的结果进行分析，确定是否对案件进行预警。

优选的，在判断人员是否处在密集人群中时，只选择有效的锚框优化网络参数，对于每次训练迭代中网络获得的目标i的锚框集合,计算每个锚框与该目标标签框之间的IOU值，按大小取前k个组成一个候选锚框集合A_i，只使用集合A_i的检测框信息、目标置信度和类别置信度计算损失函数，更新模型参数，每次迭代后选择的集合A_i不断靠近标签。k的取值是一个固定值或一个列表，当是一个固定值时，表示每次训练迭代都取固定长度的候选框集合，当是一个列表时，随着训练的深入，调整候选框集合的长度，加快网络的收敛。

进一步的，构建YOLOV3网络训练的损失函数如下：

其中θ为网络参数，a_i表示最优锚框，表示目标i的标签框对应的类别，/>表示目标i的标签框对应的位置信息，δ为正则化因子，/>和/>分别对应YOLOV3的分类和检测损失函数。

优选的，所述判断人员的表情是否激动，表情分类采用ResNet50网络作为主干网络，根据所述YOLOV3网络检测出的目标区域内所有人员头部，将有脸部信息的人员头部区域划分成n个子块，每个子块和完整头部区域分别作为分类网络的输入，后接一个注意力模块，注意力模块由一个全连接层和sigmoid函数组成，用于给各个子块区域分配权重；之后，每个子块提取的特征会与完整头部区域提取的特征使用聚合映射进行关联，获取每个子块特征在整体上的重要性占比；先将相邻子块特征进行融合，而后对所有提取的特征在通道上级联，通过一个1×1卷积进行特征融合，再通过一个高效的压缩激励(Squeeze-Excitation)模块关注通道信息，获取通道权重，然后将整合后的特征与完整头部区域特征相加融合；最后所有特征被整合进分类器中进行表情分类；

优选的，判断人员的行为是否过激，行为识别分类使用基于LSTM的骨架行为识别深度模型，将时空信息融合进行为识别中。

进一步的，判断人员的行为是否过激，具体为，通过一个人体姿态估计模型获取目标的关节点坐标位置，将关节点的坐标以时间为通道叠加在一起，作为整个模型的输入，通过一个线性网络层将关节点位置转化为空间特征图，采用m个LSTM模块对特征进行学习，得到融合了时空信息的特征，

优选的，在每个LSTM模块之前都会先对特征进行时空平均池化，即两个池化分支，分别对通道方向和特征图进行池化操作，对应时间和空间的信息整合，两个分支后分别接一个sigmoid函数后相加，得到融合了时空信息的特征，表示为：

F_ts＝f_lstm(concat(P_ts，T_ts))

其中，F_ts表示关节点s在时间点t的强化特征，P_ts，T_ts分别表示时间关节点s的空间和时间表达，f_lstm表示LSTM模块。

进一步的，行为识别的损失函数使用交叉熵。

第二方面，提供了一种基于案件逻辑推理的预警系统的训练方法

通过所有可能的实现方式中任一项所述的一种基于案件逻辑推理的预警系统，获得输出是否处在密集人群表情是否激动/>行为是否过激/> 的值为1或0，/>和/>的值则为类别概率，将三个输出值与知识库进行关联，关联规则为

在此任务中，设置逻辑阈值，如果大于阈值，则系统输出标签为1(该申请人员发生风险行为)，更新表情分类和行为分类的标签为1；如果/>小于阈值，则系统输出标签为0(该人员未发生风险行为)，此时更新步骤3和4的标签则为0；是否处在密集人群中的目标检测网络则是独立训练获得，在系统训练阶段不参与更新；依次进行系统训练迭代，直到系统输出不再发生变化。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过构建逻辑知识库，将目标检测、行为检测、表情识别等方法与逻辑知识库结合，共同训练出一个有效的预警系统，提高非法申请行为的识别率。同时构建的逻辑知识库能够为相关领域提供行为标准；能够精确识别出需捕捉的行为。

附图说明

图1为本公开实施例提供的一种聚合映射模块示意图。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将结合附图对本公开实施方式做进一步的详细描述。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

第一方面：本公开实施例提供了一种基于案件逻辑推理的预警系统，该系统包括如下内容：

构建逻辑知识库：获取历史案例大数据中对非法案件申请行为的知识特征，结合实际场景中可能出现的情况，对以下几点知识特征进行预警：

判断人员是否处在密集人群中；

判断人员的表情是否激动(主要包括愤怒、咆哮、怒视等负面表情)；

判断人员的行为是否过激(主要包括砸、踢等位移较快的危险行为)

所述判断人员是否处在密集人群中，通过YOLOV3网络检测目标区域内所有人员头部，以任意人员为目标，提取此人头部中心点10倍检测框长宽的范围，计算该范围内人头数量，表示人群密集程度，设置密集程度阈值，当人头数量大于阈值时输出1(表示人群密集)，否则输出0(表示人群不密集)；

传统的YOLOV3网络在训练过程中，所有锚框都平等地参与模型的优化更新中，而大多数锚框中不含目标，只有少部分锚框中包含目标，这种不平衡会导致模型很难收敛到最优的状态，因此，只选择有效的锚框优化网络参数，能更好地训练网络。

只选择有效的锚框优化网络参数，对于每次训练迭代中网络获得的目标i的锚框集合，计算每个锚框与该目标标签框之间的IOU值，按大小取前k个组成一个候选锚框集合A_i，只使用集合A_i的检测框信息、目标置信度和类别置信度计算损失函数，更新模型参数，每次迭代后选择的集合A_i不断靠近标签。k的取值是一个固定值或一个列表，当是一个固定值时，表示每次训练迭代都取固定长度的候选框集合，当是一个列表时，随着训练的深入，调整候选框集合的长度，加快网络的收敛。

不同于现有模型训练中每次迭代更新所有锚框都会计算损失，本发明的实施例在每次训练中参与网络更新的锚框是动态变化的，且锚框是趋近目标的，不断弱化非目标锚框的干扰，从而使得网络更快更好地向着目标的方向优化。

优选的，为了使得锚框和网络参数一起不断优化更新，直至选择出此目标最佳的锚框和对应的网络参数，构建训练策略可以使得网络更加针对地学习目标特征，解决锚框不平衡的问题。构建网络训练的损失函数如下：

所述判断人员的表情是否激动，是一个表情分类任务，表情分类采用ResNet50网络作为主干网络，根据所述YOLOV3网络检测出的目标区域内所有人员头部，将有脸部信息的人员头部区域划分成n个子块，每个子块和完整头部区域分别作为分类网络的输入，后接一个注意力模块，注意力模块由一个全连接层和sigmoid函数组成，用于给各个子块区域分配权重；之后，每个子块提取的特征会与完整头部区域提取的特征使用聚合映射进行关联，获取每个子块特征在整体上的重要性占比；考虑到相邻区域之间特征相关性更强，先将相邻子块特征进行融合，而后对所有提取的特征在通道上级联，通过一个1×1卷积进行特征融合，再通过一个高效的压缩激励(Squeeze-Excitation)模块关注通道信息，获取通道权重，然后将整合后的特征与完整头部区域特征相加融合，如图1所示。最后所有特征被整合进分类器中进行表情分类；网络输出类别分为0(正常表情)和1(过激表情)，将负面的激动表情只归为一类，便于网络学习所有过激表情的一般规律和通用特征。

判断人员的行为是否过激，行为识别分类使用基于LSTM的骨架行为识别深度模型，将时空信息融合进行为识别中。之所以选择基于骨架的方式，是因为每个节点与其相邻节点之间都具有很强的相关性，骨骼框架则包含了丰富的人体结构信息。由于时间连续性不仅存在于相同的关节中，也存在于身体结构中，且时间与空间信息紧密相连，具有同现性，因此本发明的一个实施例提出一种时空增强LSTM网络，将时空信息融合进行为识别中；优选的，判断人员的行为是否过激，具体为，通过一个人体姿态估计模型获取目标的关节点坐标位置，将关节点的坐标以时间为通道叠加在一起，作为整个模型的输入，通过一个线性网络层将关节点位置转化为空间特征图，采用m个LSTM模块对特征进行学习，得到融合了时空信息的特征，

优选的，每个LSTM模块之前都会先对特征进行时空平均池化，即两个池化分支，分别对通道方向和特征图进行池化操作，对应时间和空间的信息整合，两个分支后分别接一个sigmoid函数后相加，得到融合了时空信息的特征。

增强后的特征可表示为：

F_ts＝f_lstm(concat(P_ts，T_ts))

优选的，行为识别的损失函数使用交叉熵。与表情识别类似，网络输出类别分为0(正常行为)和1(过激行为)。

第二方面，本公开实施例提供了一种基于案件逻辑推理的预警系统的训练方法

通过所有可能的实现方式中任一项所述的一种基于案件逻辑推理的预警系统，获得输出所述人员是否处在密集人群表情是否激动/>行为是否过激/> 的值为1或0，/>和/>的值则为类别概率，将三个输出值与知识库进行关联，关联规则为

在此任务中，表情和行为的特征都较为关键，因此α、β、γ的值分别设为0.2，0.4，0.4。设置逻辑阈值，如果大于阈值，则系统输出标签为1(所述人员发生风险行为)，更新表情分类和行为分类的标签为1；如果/>小于阈值，则系统输出标签为0(所述人员未发生风险行为)，此时更新表情分类和行为分类标签则为0；是否处在密集人群中的目标检测网络则是独立训练获得，在系统训练阶段不参与更新；依次进行系统训练迭代，直到系统输出不再发生变化。

用此种训练方式的意义在于此系统判定人员是否发生风险行为的证据是多维的，具有一定的说服力，如果系统判定人员未发生风险行为，但是行为识别判定为发生过激行为，说明这样的过激行为特征是不符合真实风险行为特征的，则更改其标签，再次训练时就会更新网络权重；同样的，如果系统判定人员发生风险行为，但是行为识别判定为正常行为，说明此时的行为应该标记为过激行为

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于案件逻辑推理的预警系统，其特征在于，该系统包括如下内容：

判断人员的表情是否激动，表情分类采用ResNet50网络作为主干网络，根据所述YOLOV3网络检测出的目标区域内所有人员头部，将有脸部信息的人员头部区域划分成n个子块，每个子块和完整头部区域分别作为分类网络的输入，后接一个注意力模块，注意力模块由一个全连接层和sigmoid函数组成，用于给各个子块区域分配权重；之后，每个子块提取的特征会与完整头部区域提取的特征使用聚合映射进行关联，获取每个子块特征在整体上的重要性占比；先将相邻子块特征进行融合，而后对所有提取的特征在通道上级联，通过一个1×1卷积进行特征融合，再通过一个高效的压缩激励模块关注通道信息，获取通道权重，然后将整合后的特征与完整头部区域特征相加融合；最后所有特征被整合进分类器中进行表情分类；

判断人员的行为是否过激；

2.根据权利要求1所述的一种基于案件逻辑推理的预警系统，其特征在于，在判断人员是否处在密集人群中时，只选择有效的锚框优化网络参数，对于每次训练迭代中网络获得的目标i的锚框集合,计算每个锚框与该目标标签框之间的IOU值，按大小取前k个组成一个候选锚框集合A_i，只使用集合A_i的检测框信息、目标置信度和类别置信度计算损失函数，更新模型参数，每次迭代后选择的集合A_i不断靠近标签；k的取值是一个固定值或一个列表，当是一个固定值时，表示每次训练迭代都取固定长度的候选框集合，当是一个列表时，随着训练的深入，调整候选框集合的长度，加快网络的收敛。

3.根据权利要求2所述的一种基于案件逻辑推理的预警系统，其特征在于，构建YOLOV3网络训练的损失函数如下：

其中θ为网络参数，a_j为集合A_i中的任一锚框，a_i为最优锚框，表示使损失函数最小时的a_j的取值，表示目标i的标签框对应的类别，/>表示目标i的标签框对应的位置信息，δ为正则化因子，/>和/>分别对应YOLOV3的分类和检测损失函数。

4.根据权利要求1-3任一项所述的一种基于案件逻辑推理的预警系统，其特征在于，判断人员的行为是否过激，行为识别分类使用基于LSTM的骨架行为识别深度模型，将时空信息融合进行为识别中。

5.根据权利要求4所述的一种基于案件逻辑推理的预警系统，其特征在于，判断人员的行为是否过激，具体为，通过一个人体姿态估计模型获取目标的关节点坐标位置，将关节点的坐标以时间为通道叠加在一起，作为整个模型的输入，通过一个线性网络层将关节点位置转化为空间特征图，采用m个LSTM模块对特征进行学习，得到融合了时空信息的特征。

6.根据权利要求5所述的一种基于案件逻辑推理的预警系统，其特征在于，在每个LSTM模块之前都会先对特征进行时空平均池化，即两个池化分支，分别对通道方向和特征图进行池化操作，对应时间和空间的信息整合，两个分支后分别接一个sigmoid函数后相加，得到融合了时空信息的特征，表示为：

F_ts＝f_lstm(concat(P_ts,T_ts))

其中，F_ts表示关节点s在时间点t的强化特征，P_ts,T_ts分别表示对应关节点s在时间点t的空间和时间表达，f_lstm表示LSTM模块。

7.根据权利要求5-6任一项所述的一种基于案件逻辑推理的预警系统，其特征在于，行为识别的损失函数使用交叉熵。

8.一种基于案件逻辑推理的预警系统的训练方法，其特征在于，包括如下步骤：

通过权利要求1-7任一项所述的一种基于案件逻辑推理的预警系统，获得输出所述人员是否处在密集人群表情是否激动/>行为是否过激/>的值为1或0，/>和/>的值则为类别概率，将三个输出值与知识库进行关联，关联规则为

其中α、β、γ为系数，它们的值分别设为0.2，0.4，0.4，在此任务中，设置逻辑阈值，如果大于阈值，则系统输出标签为1，表示所述人员发生风险行为，更新表情分类和行为分类的标签为1；如果/>小于阈值，则系统输出标签为0，表示所述人员未发生风险行为，此时更新表情分类和行为分类的标签则为0；

是否处在密集人群中的目标检测网络则是独立训练获得，在系统训练阶段不参与更新；依次进行系统训练迭代，直到系统输出不再发生变化。