CN113807587A

CN113807587A - 一种基于多梯核深度神经网络模型积分预警方法以及系统

Info

Publication number: CN113807587A
Application number: CN202111101411.6A
Authority: CN
Inventors: 史晨昱; 牛娜; 管国权; 陈伟明
Original assignee: XI'AN FUTURE INTERNATIONAL INFORMATION CO Ltd
Current assignee: XI'AN FUTURE INTERNATIONAL INFORMATION CO Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-17
Anticipated expiration: 2041-09-18
Also published as: CN113807587B

Abstract

本发明涉及公共安全技术领域，且公开了一种基于多梯核深度神经网络模型积分预警方法，包括数据存储模块，用于从多种数据源采集多种结构的数据并进行存储，所述的数据根据内容分为基本信息数据，财务信息数据、社会信息数据和轨迹信息；数据中心处理模块，用于将数据存储模块中保存的数据统一结构化，所述统一结构化的数据经过特征量化、特征分箱、特征提取、特征分梯后导入多梯核神经网络模型中生成具体的预警积分。通过设置的多梯核神经网络模型，应用于公共领域过程中，来对行为人进行其数据特征的识别和判断，最终来实现对个人行为进行实时预警，实现对公共安全事故的及时布控，及时防范，及时打击，降低公共安全事故的发生概率。

Description

一种基于多梯核深度神经网络模型积分预警方法以及系统

技术领域

本发明涉及公共安全技术领域，具体为一种基于多梯核深度神经网络模型积分预警方法以及系统。

背景技术

现有公共安全领域通过积分结果匹配“红”、“橙”、“黄”、“绿”进行预警，其计算模型存在机械化、准确率低、自适应能力差等问题，无法实现实时化、精准化、智能化的积分计算。机械化主要体现在计算规则必须设定好、准确率低主要体现在人为主观判定、自适应能力差主要体现在规则之间存在相关性，规则无法完全覆盖。

中国专利公开号CN202110427225.5公开了“公共安全风险预警系统和方法”，公共安全风险预警系统利用双目摄像机对公共安全隐患区域进行风险监测，其可遍及的范围广且监测精度高，是采用双目摄像机进行视觉监测，双目摄像机能够识别待测物体的深度信息，而双目摄像机能够像人类的双眼一样通过视差计算对象的深度信息，从而更加精确和快速地识别对象的动作信息，进而实现更精准的预警。

但上述发明的缺陷在于，只针对即将发生的危害公共安全的行为本身进行预警，无法进行较早的主动预警。现实生活中需要对一个关注对象的多维历史信息数据进行分析，以得出其实施危害公共安全行为的概率。而目前是根据人为经验整理衡量规则，设定权重，累加权重结果，确定关注对象的积分情况，结合预警四色确定关注对象是否将要实施危害公共安全行为。其中规则是动态变化的，不能涵盖所有规则，同时规则之间也存在相互关联性，无法实现自适应能力，导致安全预警效果比较低。故而本申请提出一种基于多梯核深度神经网络模型积分预警方法以及系统来解决上述所提出的问题。

发明内容

解决的技术问题

针对现有技术的不足，本发明提供了一种基于多梯核深度神经网络模型积分预警方法以及系统，解决了安全预警效果低，防范不及时的问题。

技术方案

为实现上述目的，本发明提供如下技术方案：一种基于多梯核深度神经网络模型积分预警方法，包括数据存储模块，用于从多种数据源采集多种结构的数据并进行存储，所述的数据根据内容分为基本信息数据，财务信息数据、社会信息数据和轨迹信息；

数据中心处理，用于将数据存储模块中保存的数据统一结构化，所述统一结构化的数据经过特征量化、特征分箱、特征提取、特征分梯后导入多梯核神经网络模型中生成具体的预警积分；

阈值生成，用于产生多个动态的风险预警阈值区间；

通过如下步骤，产生风险预警信息：

步骤一：数据分类，将数据根据数据形态分成非数值特征数据和数值特征数据两种类别；

步骤二：特征量化，对步骤一中的非数值特征值数据进行特征量化，并将非数值特征数据根据行为特征划分为依据频次为量化指标的行为数据和依据行为程度为量化指标的行为数据；

特征分箱，对步骤一中的数值特征数据进行离散化处理；

步骤三：特征提取，对步骤二获取的数据通过方差过滤算法和F检验算法进行特征提取，并对所分别提取的数据特征进行数据特征交集获得数据特征集合；

步骤四：特征分梯，将步骤三所获取的数据特征集合通过特征相关算法将具有相关性的数据特征组合为若干个数据特征组合；

步骤五:将步骤四所获取的数据特征组合输入构建的多梯核神经网络模型当中获取预警积分；

步骤六：区间估计，构建动态的预警状态的置信区间；

步骤七：预警判断，将步骤五中获取的预警积分与步骤六中的置信区间内进行比较，得出预警信息

优选的，所述步骤三中特征提取算法包括，

采用方差过滤法提取数据特征，步骤为：

步骤D1：设定方差因子

步骤D2:通过以下公式计算每一个特征数据的方差，

关注对象的总数、X_i指每一项数据特征中的数值、

特征均值、σ²为方差值；

步骤D3:当所述特征数据的方差值小于设定的方差因子则被剔除否则保该数据特征；

采用F检验法验法提取数据特征，

步骤E1：计算某个数据特征的组间离差，组内离差，

组间离差通过以下公式进行计算：

n_i样本总数，

当前行特征值，

特征均值，S_A为组间离差值；

组内离差通过以下公式进行计算，

n_i样本总数，

当前行特征值，

特征均值，S_E为组内离差值；

计算统计量F,通过以下公式计算，

F为统计量，n为样本总数，r为组数，S_A组间离差,S_E为组内离差；

步骤E2:根据F分布表确定保留系数F_表，

当F<F_表表明两组数据没有显著差异，

当F≥F_表表明两组数据存在显著差异，则保留显著差异的特征；

采用互信息法提取数据特征，

步骤F1：计算每个特征与标签之间的线性关系和非线性关系，即量化分布p(x,y)，边缘分布分别为p(x),p(y)，互信息I(X,Y)是联合分布p(x,y)与边缘分布p(x),p(y)的相对熵，

得出具体数值；

步骤F2:当互信息结果>0的值，表示该数据特征保留，代表当前特征与标签有关，

互信息结果＜0的值，表示该数据特征舍弃，代表当前特征与标签无关；

经过如上三种特征提取算法中的至少两种算法所提取的数据特征进行交集，获得数据特征集合。

优选的，所述步骤四中所述特征相关算法如下：

x²值表示观察值与理论值之间的偏离程度，设A代表某个类别的观察频数， E表示期望频数，A与E之差为残差；

将残差平方除以期望频数求和，估计观察频数与期望频数的差别。

优选的，构建多梯核神经网络模型的方法如下：

所述多梯核神经网络模型包括多个层级的神经网络单元，所述上一层神经网络单元与多个下一层神经网络单元链接；

每一层神经网络单元均由一个全连接层、一个第一dropout层、多个多梯核和一个第二dropout依次链接，其中，

所述全连接层用于将输入的多组数据特征进行分析，

所述第一dorpout层用于随机删除数据连接的特征关系，

所述多梯核接收所述第一dorpout层制造的新的数据特征进行处理产生新的数据特征组合，

所述第二个dorpout层接收由所述多梯核产生的数据结果再次进行多组数据特征的连接关系随机删除重复的特征并制造新的数据特征；

上一层神经网络单元的全连接层将会接收下一层神经网络单元的第二个dorpout层所产生的数据特征的连接关系，并依次传递给该层的第一dropout 层和多个多梯核和第二dorpout层；

最低层的神经网络单元中的全连接层将会接收由步骤四所产生的数据特征组合。

优选的，所述步骤六中所述置信区间的区间数值通过以下公式进行计算，获取置信区间的具体数值，每个数值之间为一个预警区间，

Z表示置信区间，

表示积分均值，n为样本总数，σ为积分标准差，

为置信水平。

一种预警系统，应用上述基于多梯核深度神经网络模型积分预警方法，

包括，

存储数据信息的多种类型的数据源数据库；

用于将多种类型的数据源转换为同一种数据源的转换单元；

用于执行多梯核深度神经网络模型积分预警方法并生成具体的预警积分得出预警的信息的积分预警单元；

报警装置，根据预警的信息给出可被识别的预警信号。

一种电子设备，应用上述基于多梯核深度神经网络模型积分预警方法，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来上述任意一项所述的基于多梯核深度神经网络模型积分预警方法。

一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时应用上述基于多梯核深度神经网络模型积分预警方法。

有益效果

与现有技术相比，本发明提供了一种基于多梯核深度神经网络模型积分预警方法以及系统，具备以下有益效果：

替代人的经验构建机械学习的预警方法，有效提升预警积分的获取的准确性和效率。具体为：

对数据进行划分成为非数值特征数据和数值特征数据并进行量化和离散化处理，使得满足机器算法运算的数据要求以实现通过机器算法的方式得出具体的预警数值。数值特征数据中的连续数值特征进行分箱处理，将一个完整的连续数据分箱成若干个数据包，以减小模型训练中的计算负担。

本专利采用至少两种的并行特征提取算法产生数据特征，特征交集之后，产生数据特征集合。算法所提取的数据特征，具有科学的解释性，且算法可以不断的被优化，保证数据特征的提取，能够被不断迭代优化。同时采用两种以上的算法，所交集提取的数据特征更加的准确。

将多个类别的数据特征，经过卡方检验关联成为若干个数据特征组合，这些数据特征组合中的数据特征，具有相关性，使得数据代入模型计算中模型运算效率更高更准确。

本发明中的多梯核神经网络模型包括一个全连接层，在于识别使用输入的特征，保障特征首次的不丢失；经过全连接层的前向传播后经过Dropout 层在此制造并随机丢弃重复的特征；多梯核接收Dropout层建立的新特征，在多梯核内部技术特征权重完成多梯核的前向传播；第二个Dropout将多梯核前向传播结果进行二次特征提升，此层可以有效避免过拟合问题；模型最后一个全连接层完成模型最终的输出，通过交叉熵损失函数不断优化反向传播，当模型达到最优后保存模型权重，通过对数几率最终获取积分，将积分结果作为预警评估的最终指标。

再通过设置的置信区间，以此来获取一个合理的连续数据与等级对应关系的算法，这样才能使得判读与条件和环境相动态适应而不是静止的，有效提升判断的准确性预警更加准确和科学。

本发明通过设置的多梯核神经网络模型，应用于公共领域过程中，来对行为人进行其数据特征的识别和判断，最终来实现对个人行为进行实时预警，实现对公共安全事故的及时防范的效果。

附图说明

图1为传统的积分计算规则结构示意图；

图2为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的全连接层示意图；

图3为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的Dropout层的结构示意图；

图4为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的多梯核深度神经网络结构示意图；

图5为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的关注对象数据特征分类示意图；

图6为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的权重分配示意图；

图7为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的F分布表的部分示意图；

图8为本发明提出的一种基于多梯核深度神经网络模型积分预警方法以及系统的置信区间的分数示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1-8，数据存储模块，用于从多种数据源采集多种结构的数据并进行存储，所述的数据根据内容分为基本信息数据，财务信息数据、社会信息数据和轨迹信息；

数据中心处理模块，用于将数据存储模块中保存的数据统一结构化，所述统一结构化的数据经过特征量化、特征分箱、特征提取、特征分梯后导入多梯核神经网络模型中生成具体的预警积分；

阈值生成模块，用于产生多个动态的风险预警阈值区间；

通过如下步骤，产生风险预警信息：

特征分箱，对步骤一中的数值特征数据进行离散化处理；

而方差过滤法这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。所以无论接下来的特征工程要做什么，都要优先消除方差为0的特征；

而F检验法用于两个以上随机变量平均数差异显著性的检验，主要通过比较两组数据的方差，以确定他们的精密度是否有显著性差异。

步骤六：区间估计，构建动态的预警状态的置信区间，对于一个未知量，通常在测量或计算时，常不以得到近似值为满足条件，还需估计误差，即要求知道近似值的精准程度(亦即所求真值所在的范围)。类似地，对于位置参数θ，除了求出它的点估计外，我们还希望估计出一个范围，并希望知道这个范围包含参数θ真值的可信程度。这样的范围通常以区间形式给出，同时还给出此区间包含参数θ真值的可信程度。这种形式的估计称为区间估计，这样的区间即所谓置信区间。

步骤七：预警判断，将步骤五中获取的预警积分与步骤六中的置信区间内进行比较，得出预警信息；只有积分结果一个因素是不能完全衡量人物、事件行为，在积分结果上通过算法将积分结果科学的划分不同的等级，根据等级结果产生不同的预警，增强预警可信度。积分结果是一个连续型变量，并且实践证明服从正太分布，通过区间估计算法从中随机抽检出一部分样本数据进行区间划分，得出不同等级对应的不同区间，称之为置信区间。

本实施例中，所述步骤二中依据频次为量化指标的行为数据采用统计结果量化法进行量化步骤为：

步骤A1：统计一种行为发生的频次；

步骤A2：计算该种行为在全部行为中的发生率；

步骤A3:并根据发生率依据赋值规则给予具体的数值；

例如关注对象所存在的轨迹信息，进行统计结果量化；

所述步骤二中依据行为程度为量化指标的行为数据采用分段赋值法进行量化步骤为：

步骤B1:统计一种行为发生的程度；

步骤B2:预设行为程度区间所赋予的具体的数值；

步骤B3:将步骤B1中的该种行为发生的程度与步骤B2中的程度区间进比较后得出该种行为发生程度对应的具体数值；

所述步骤二中的特征分箱的步骤为：

步骤C1：将连续的数值特征数据分成N个区间，且N≥2；

步骤C2：对相邻的组中的数据包进行卡方检验，

卡方检验的公式为：

A为相关数据特征的数值，T为相关特征落在区间内的概率值，n为关注对象的总数；

步骤C3:对相邻两组数据卡方检验后的数值进行差值计算，差值的绝对值小于设定系数则判定两组数据可以合并；

步骤C4:改变N值，重复步骤C1至步骤C3直至确定最优数据包个数；

步骤C5：分箱完成后，按照当前箱的最大值结果给于每个箱的权重值，

得出每个箱的最大值结果。

进一步的是，所述步骤三中特征提取算法包括，

采用方差过滤法提取数据特征，步骤为：

步骤D1：设定方差因子

步骤D2:通过以下公式计算每一个特征数据的方差，

关注对象的总数、X_i指每一项数据特征中的数值、

特征均值、σ²为方差值；

采用F检验法验法提取数据特征，

步骤E1：计算某个数据特征的组间离差，组内离差，

组间离差通过以下公式进行计算：

n_i样本总数，

当前行特征值，

特征均值，S_A为组间离差值；

组内离差通过以下公式进行计算，

n_i样本总数，

当前行特征值，

特征均值，S_E为组内离差值；

计算统计量F,通过以下公式计算，

步骤E2:根据F分布表确定保留系数F_表，

当F<F_表表明两组数据没有显著差异，

采用互信息法提取数据特征，

得出具体数值；

更进一步的是，所述步骤四中所述特征相关算法如下：

将残差平方除以期望频数求和，估计观察频数与期望频数的差别，具体可以根据图7进行查表得出具体的估计观察频数与期望频数差别。

构建多梯核神经网络模型的方法如下：

所述全连接层用于将输入的多组数据特征进行分析，

所述第一dorpout层用于随机删除数据连接的特征关系，

最低层的神经网络单元中的全连接层将会接收由步骤四所产生的数据特征组合；

多梯核深度神经网络模型是自主设计用于计算多场景关注人员积分的深度神经网络模型结构，全连接网络指的是神经网络模型中相邻两层单元间的连接方式。使用全连接方式时，网络当前层的单元与网络上一层的每个单元都存在连接，Dropout指的是为了解决过拟合问题，在原始网络中去掉一个不属于输出层的单元后形成的子网络，多梯核的组成成分来自于特征分梯的卡方检验的结果，卡方检验的k代表多梯核的个数，每一个k中包含的特征数量代表多梯核中网络的层数；而在公共安全领域当中，多梯核深度神经网络模型存在一个全连接层，在于识别使用输入的特征，保障特征首次的不丢失，经过全连接层的前向传播后经过第一个Dropout层在此制造并随机丢弃重复的特征，多梯核接收第一个Dropout层建立的新特征，在多梯核内部技术特征权重完成多梯核的前向传播，第二个Dropout将多梯核前向传播结果进行二次特征提升，此层可以有效避免过拟合问题，模型最后一个全连接层完成模型最终的输出，通过交叉熵损失函数不断优化反向传播，当模型达到最优后保存模型权重，保存的模型可以输出结果为0或1，0代表预测结果为正常关注对象，1代表预测结果为需要预警的关注对象，通过对数几率获取积分，将积分结果作为预警评估的最终指标；而对数几率函数简称几率函数，而我们知道线性回归模型预测的是一个值，而在分类过程，就是要找广义线性模型的"联系函数"，让这个函数将分类任务的真实标记与线性回归的预测值联系起来即可，而实用对数几率函数，它是直接对分类可能性进行建模，无需事先假设数据分布，这样就避免了假设分布不准确所带来的问题；它不仅预测类别，也可得到近似概率预测，这对许多需利用概率辅助决策的任务很有用；对率回归求解的目标函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。此外，所述步骤六中所述置信区间的区间数值通过以下公式进行计算，获取置信区间的具体数值，每个数值之间为一个预警区间，

Z表示置信区间，

表示积分均值，n为样本总数，σ为积分标准差，

为置信水平；对于一个未知量，通常在测量或计算时，常不以得到近似值为满足条件，还需估计误差，即要求知道近似值的精准程度(亦即所求真值所在的范围)。类似地，对于位置参数θ，除了求出它的点估计外，我们还希望估计出一个范围，并希望知道这个范围包含参数θ真值的可信程度。这样的范围通常以区间形式给出，同时还给出此区间包含参数θ真值的可信程度。这种形式的估计称为区间估计，这样的区间即所谓置信区间。

以下举例解释积分预警的计算方法：

如图5所述，如果关注对象数据是一些非数值数据特征，例如关注对象的学历，这些非数值数据特征，会由步骤二中特征量化来对特征进行数据处理，而特征量化存在很多种量化方法，比如统计结果量化方法、分段赋值量化方法、行为锚定量方法，而统计结果量化方法是根据某一行为特征的实际情况，直接给出数字化的统计结果，根据基本信息的一些信息数据进行叠加积累，而分段赋值量化方法：根据行为特征的不同程度的表现情况进行区间赋值，通过对应区间直接找出量化分值的一种计量方法，例如：对象失轨≤ 12小时，为2，12小时≤对象失轨≤24小时，为1，而行为锚定量化是将行为特征指标中不同的行为定义不同的水平刻度的一种量化方法，把定性的事情通过行为刻度给出结果，例如将某个区域定义为区域A,而关注对象频繁出入区域A，可以根据出入的次数，比如2-5次，定义为1等，5-10次定义为2 等，10-20次定义此种结果为3等，以此将所有非数值数据特征，转化为系统可识别的数值数据特征，而特征分箱则是对一些连续性的数值特征，进行离散化处理，离散化连续变量必然伴随着信息的损失，并且箱子越少，信息损失越大，将几万个样本分成100组或50组，例如不同关注对象的薪资水平是不一样的，有的人月工资在2千元至5千元，有的人月工资在5千元至1万元，有的人月工资在1万元至10万元，甚至有的人工资在10万元至100万元，所以当关注对象总数存在这些跨度过大的数值特征，会由特征分箱将关注对象的样本数据分组，当将所有的数值数据特征和非数值数据特征处理完成后，在对数据特征进行提取，并对所分别提取的数据特征进行数据特征交集获得数据特征集合，之后将量化提取后的特征通过卡方检验、Apriori关联规则分析等算法划分到不同的类，不同类按照特征的数量划分成梯形组合， Apriori算法是发现频繁项集的一种方法priori算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个物品的项集列表。接着扫描项集数据来查看哪些项集满足最小支持度要求，那些不满足最小支持度的集合会被去掉，然后，对剩下来的集合进行组合以生成包含两个元素的项集。该过程重复进行直到所有项集都被去掉，例如个人基本信息为一个项集，财务信息等特征为另一个项集，根据梯态结果，使用keras搭建多梯核网络架构，在不断的输入特征数据进行模型训练，最终获得最优化的梯态网络架构模型。

工作原理，建立一个数据库，对关注对象的数据特征实现特征提取、特征量化、特征分箱、特征分梯、特征建模、模型训练与评估、模型应用等步骤，结合模型分析结果研发预警系统，预警系统提供可视化研判能力+实时预警机制，进一步对关注对象实现实时化、精准化、智能化的预警；特征提取，通过专家经验结合数据融合补全技术提取全面的特征，建立基础特征指标体系库；特征量化，是将计算机无法直接计算的特征，通过现有的量化办法将其量化后可以直接用于计算机计算的一种手段，主要使用统计指标量化、数据挖掘指标量化、时间序列分析指标量化、动态权重确定方法等；特征分箱，是在特征量化基础上，分析发现其中的连续型数据，将其离散化的过程。离散化连续变量必然伴随着信息的损失，并且箱子越少，信息损失越大；特征分梯，特征分梯主要实现将量化后的特征通过卡方检验、Apriori关联规则分析等算法划分到不同的类，不同类按照特征的数量划分成梯形组合，及特征分梯。计算过程通过设计实现最优算法保障同一阶梯的特征具备科学的相识性；多梯核深度神经网络模型训练，是通过分梯结果搭建的多梯核网络模型；模型训练，通过输入特征数据训练的机器学习模型；模型应用，选择最优模型后通过服务形式对外提供模型预测的能力，预警系统通过接入模型服务，模型对每一个关注对象建立一个评分卡信息，实时计算积分情况，预警系统根据积分上限实时推送信息。