CN114118507A

CN114118507A - 一种基于多维信息融合的风险评估预警方法和装置

Info

Publication number: CN114118507A
Application number: CN202110795204.9A
Authority: CN
Inventors: 刘保臣; 孙国强; 杨阳; 杨志刚
Original assignee: Qingdao Bo Tian Tian Tong Information Technology Co ltd
Current assignee: Qingdao Bo Tian Tian Tong Information Technology Co ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2022-03-01

Abstract

本发明公开一种基于多维信息融合的风险评估预警方法和装置，属于数据处理技术领域，对预定场所多维异构数据采用了基于T‑SNE降维和K‑Means聚类算法的数据处理方式，降低了不同量纲的数据融合困难、各维度数据的非线性相关影响预测结果的问题；而且采用了模型学习和专家经验相结合的方式进行风险的评估和预警，利用K‑means聚类算法及LSTM进行模型的评估和预测，可以充分挖掘数据中的数学规律，而结合专家经验进行打分又增加了评估和预测结果的合理性和可解释性；采用了置信度的计算预测方式，数据处理模块完成风险的预测后得到的只是一个高、中、低风险值的结果，为预定场所内提出合理、科学的决策提供保障。

Description

一种基于多维信息融合的风险评估预警方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多维信息融合的风险评估预警方法和装置。

背景技术

随着机器学习算法的不断优化，人工智能技术的应用领域越来越广泛，渗透在了金融、工程和司法体系的各个方面。近年来，人工智能技术在风险的评估和预警方面也有了长足的发展，但它在预定场所应用中依然存在这一些不足：由于预定场所数据的特殊性和局限性，在进行分析时存在数据体系不够全面、预测模型单一的问题，并不能充分挖掘数据与风险的相关性。

预定场所的风险评估和预警是指针对预定场所内当前时刻风险场景、风险等级的评判以及对风险场景中进行可能出现的各种情况的预测和评估。智慧预定场所是当前时代在人工智能领域的一个新的重要应用，在预定场所的智慧场景模式下，预定场所整合监管改造信息资源和社会信息资源，如何将大数据、物联网、人工智能等现代科技与预定场所各项业务相融合，对监管安全风险采取评估定量定性的评判，提高预定场所监管安全方面的防范能力，推进预定场所治理体系的创新，是当前亟待解决的技术难题。

发明内容

本发明提供一种基于多维信息融合的风险评估预警方法和装置，融合了预定场所内包括人员、设备等多个维度的业务数据并通过模型训练与专家经验相结合的方式，采用T-SNE降维和K均值聚类算法进行数据处理，通过长短期记忆神经网络进行数据预测来对预定场所的风险进行评估和预测，增强了预测结果的可解释性和合理性，可以对监管人员在风险防范、处置决策方面提供参考和支持。

本发明提供的具体技术方案如下：

一方面，本发明提供一种基于多维信息融合的风险评估预警方法包括：

采集预定场所内的人员和设备的各个维度的数据，其中，所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据；

对采集的数据进行融合预处理，其中，所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理；

结合专家经验构建预定场所风险评估的先验知识库，并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级，其中，所述预定场所风险等级包括高风险、中风险和低风险。

可选的，所述根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级具体为：

结合当前时刻采集到的数据及先验知识库中前N天的历史数据，通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测；

将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测，得到与原始数据相同格式的未来一段时间的可能数据；

根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据，评估当前时刻的风险等级和预测预定场所的未来风险等级。

可选的，所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据，评估当前时刻的风险等级和预测预定场所的未来风险等级，具体为：

在获得当前时刻的业务数据后，将其输入至先验知识库，得到当前场景的预定场所风险结果；

之后将当前时刻的业务数据与风险评估结果输入数据库，同时结合当前时刻的输入数据及数据库中前N天的历史数据，通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测，并将未来一段时间内的预测数据输入先验知识库，得到未来场景的预定场所风险结果。

可选的，所述对采集的数据进行融合预处理具体为：

每次采集到所有维度的业务数据后，对其进行数据填充和清洗，之后将其存储到数据库；

对存储数据的数据进行T-SNE降维处理，通过T-SNE降维算法将我们的非线性的相关的数据降低到2维；

对降维处理之后的数据通过K-Means聚类算法进行聚类，得到分为三簇的聚类数据，其中，三簇聚类数据分别对应预定场所的高、中、低风险，其中的对应关系由专家结合其先验知识打分决定。

可选的，所述对降维处理之后的数据通过K-Means聚类算法进行聚类，得到分为三簇的聚类数据具体为：

(1)令t＝0，随机选取3个样本点作为初始聚类中心

(2)对固定的类中心

其中，

为类G_i的中心，计算样本X′_ij到类中心的距离，距离的计算公式为

将每个样本指派到与其最近的中心的类中，构成聚类结果C^(t)；

(3)对聚类结果C^(t)，计算当前各个类中样本的均值，作为新的类中心

(4)如果迭代收敛或者符合停止条件，输出C^*＝C^(t)，得到

三个类，否则t＝t+1，返回步骤(2)循环执行。

另一方面，本发明还提供一种基于多维信息融合的风险评估预警装置包括：

采集单元，配置为采集预定场所内的人员和设备的各个维度的数据，其中，所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据；

处理单元，配置为对采集的数据进行融合预处理，其中，所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means 聚类处理；

评估和预警单元，配置为结合专家经验构建预定场所风险评估的先验知识库，并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级，其中，所述预定场所风险等级包括高风险、中风险和低风险。

可选的，所述评估和预警单元具体配置为：

可选的，所述处理单元具体配置为：

(1)令t＝0，随机选取3个样本点作为初始聚类中心

(2)对固定的类中心

其中，

(4)如果迭代收敛或者符合停止条件，输出C^*＝C^(t)，得到

三个类，否则t＝t+1，返回步骤(2)循环执行。

本发明的有益效果如下：

本发明实施例提供的一种基于多维信息融合的风险评估预警方法和装置，对预定场所多维异构数据采用了基于T-SNE降维和K- Means聚类算法的数据处理方式，降低了不同量纲的数据融合困难、各维度数据的非线性相关影响预测结果的问题；而且采用了模型学习和专家经验相结合的方式进行风险的评估和预警，利用K-means 聚类算法及LSTM进行模型的评估和预测，可以充分挖掘数据中的数学规律，而结合专家经验进行打分又增加了评估和预测结果的合理性和可解释性；对未来风险场景的预测是对原始数据的预测，而不是对通过T-SNE降维后的数据或者直接对风险值进行预测，不同维度的业务数据有其特有的规律性，对原始数据进行预测的方法可以充分挖掘每个维度不同的规律而不是得到一个融合后的结果，对多个维度的数据预测也增加了模型的容错能力，在提高准确率的同时也增加了模型预测过程的可视化能力；同时，采用了置信度的计算预测方式，数据处理模块完成风险的预测后得到的只是一个高、中、低风险值的结果，通过欧几里得距离和标准化的方法计算预测数据与聚类中心点的距离得到预测结果的置信度，可以更直观的量化预测结果，为预定场所内提出合理、科学的决策提供保障。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于多维信息融合的风险评估预警方法的流程示意图；

图2是本发明实施例提供的一种基于多维信息融合的风险评估预警装置的结构框图；

图3是本发明实施例提供的一种构建多维数据融合的预定场所风险评估先验知识库示意图；

图4为本发明实施例提供的长短时记忆网络算法结构框图；

图5为本发明实施例提供的风险预警结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

下面将结合附图1～附图5，对本发明实施例的一种基于多维信息融合的风险评估预警方法和装置进行详细说明。

参考图1和图3所示，本发明实施例提供的一种基于多维信息融合的风险评估预警方法包括：

100：采集预定场所内的人员和设备的各个维度的数据，其中，所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据；

采集预定场所内的人员和设备的各个维度的数据，为了保证聚类结果的准确率，从预定场所大数据平台中汇聚三十天的预定场所内的业务数据，对数据的采集按照最高采集量进行采集，即每五分钟进行一次采集，这样一共采集30天的数据，每天288条，共有 30×288＝8640条数据，每条数据包含了预设人员的基本情况、计分考评、预设人员危险性等级、预设人员的行为基准数据、预定场所内黑白名单通话数量、激光周界报警数据、现有安防系统报警数据、现有视频监控数据在内的11个维度的业务数据，其数据格式为 X_ij＝[x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁]。其中，X_ij表示第i(0＜i≤30)天的第j(0＜j≤288)条数据，在进行数据填充、清洗等数据预处理工作后得到数据集

并将其存储到MySQL数据库中。

MySQL是一种开放源代码的关系型数据库管理系统(RDBMS)，使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理。

200：对采集的数据进行融合预处理，其中，所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理；

具体的，每次采集到所有维度的业务数据后，对其进行数据填充和清洗，之后将其存储到数据库；对存储数据的数据进行T-SNE 降维处理，通过T-SNE降维算法将我们的非线性的相关的数据降低到2维；对降维处理之后的数据通过K-Means聚类算法进行聚类，得到分为三簇的聚类数据，其中，三簇聚类数据分别对应预定场所的高、中、低风险，其中的对应关系由专家结合其先验知识打分决定。

需要说明的是，T-SNE，全称为T-distributed Stochastic Neighbor Embedding，T分布-随机邻近嵌入算法，T-SNE是一种非线性降维算法，非常适用于高维数据降维到2维或者3维，进行可视化。K-Means，又称为K均值聚类算法，是最常用的一种聚类算法，算法的输入为一个样本集(或者称为点集)，通过该算法可以将样本进行聚类，具有相似特征的样本聚为一类。

其中，所述对降维处理之后的数据通过K-Means聚类算法进行聚类，得到分为三簇的聚类数据具体为：

(1)令t＝0，随机选取3个样本点作为初始聚类中心

(2)对固定的类中心

其中，

(4)如果迭代收敛或者符合停止条件，输出C^*＝C^(t)，得到

三个类，否则t＝t+1，返回步骤(2)循环执行。

对采集的数据进行融合预处理分为两部分，第一部分为T-SNE 降维，T-SNE是一种非线性的降维方法，非线性降维算法通常更重视保持相似性，使低维空间中的相似的点之间的距离较小。T-SNE 降维将数据点之间的相似度转换为概率，原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生T分布”表示。将融合的数据集X中的每一条数据经过T-SNE降低到二维空间后得到了新的数据集

其中X′_ij＝[x′₁，x′₂]，x′₁，x′₂为降维后的数据项。

对采集的数据进行融合预处理的第二步是把降维后的数据通过 K-Means聚类算法进行聚类。K-Means算法的输入为一个样本集 (或者称为点集)，通过该算法可以将样本进行聚类，具有相似特征的样本聚为一类。针对每个点，计算这个点距离所有中心点最近的那个中心点，然后将这个点归为这个中心点代表的簇。一次迭代结束之后，针对每个簇类，重新计算中心点，然后针对每个点，重新寻找距离自己最近的中心点。如此循环，直到前后两次迭代的簇类没有变化。K的含义就是将样本集合划分为K类，示例的，K取3 对应预定场所的高、中、低风险值。

得到业务数据的聚类结果后，原始数据X与聚类结果C^*融合构成带有标签的数据

为X_ij对应的聚类结果。预定场所监管人员将结合原始数据X_ij对得到的聚类结果

进行判断，对应为高、中、低风险。其中，

即为构建的先验知识库，并将其存入数据库。

300：结合专家经验构建预定场所风险评估的先验知识库，并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级，其中，所述预定场所风险等级包括高风险、中风险和低风险。

具体的，结合当前时刻采集到的数据及先验知识库中前N天的历史数据，通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测；将各个维度的历史数据输入时序的LSTM 模型中对未来一段时间的不同维度的数据进行预测，得到与原始数据相同格式的未来一段时间的可能数据；根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据，评估当前时刻的风险等级和预测预定场所的未来风险等级。

需要说明的是，LSTM模型的全称为长短时记忆网络(Long short-term memory，LSTM)是一种特殊的RNN模型，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，是一个用于解决包含时间维度数据的深度学习模型。本发明实施例的数据处理过程由T-SNE降维算法和K-Means聚类算法处理预定场所异构数据。先验知识库是将历史数据通过数据处理模块在加之专家经验而形成带带有标签的数据库，用于之后风险评估和预测。

进一步的，在获得当前时刻的业务数据后，将其输入至先验知识库，得到当前场景的预定场所风险结果；之后将当前时刻的业务数据与风险评估结果输入数据库，同时结合当前时刻的输入数据及数据库中前N天的历史数据，通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测，并将未来一段时间内的预测数据输入先验知识库，得到未来场景的预定场所风险结果。

在对预定场所场景进行风险的评估时，从预定场所大数据平台获取当前时刻的11个维度的业务数据并进行融合，得到 X_n＝[x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁]，其中x₁到x₁₁分别代表预设人员的基本情况、计分考评、预设人员危险性等级、预设人员的行为基准数据、预定场所内黑白名单通话数量、激光周界报警数据、现有安防系统报警数据、现有视频监控数据。将X_n输入到上述的数据处理模块，经过降维和聚类后，得到其聚类结果

根据专家的先验知识对应到它的高、中、低风险便是其风险评估结果。并将风险评估结果返回预定场所大数据平台并进行显示。

参考图4所示，在对未来风险进行预警时，结合当前时刻的输入数据及数据库中前N天的历史数据，通过长短期记忆人工神经网络对未来一段时间内的各个数据进行预测，预定场所场景的各种情况具有一定的时间规律性，通过将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测，得到与原始数据相同格式的未来的可能数据。所有递归神经网络都具有神经网络的链式重复模块，LSTM具有同样的结构，但是重复的模块拥有不同的结构，如图5所示。LSTM与RNN的单一神经网络层不同，LSTM模型有四个网络层，并且以一种非常特殊的方式进行交互，LSTM的网络算法结构图如图5所示。实现步骤为：

(1)遗忘门：LSTM的第一步要决定从细胞状态中舍弃哪些信息。这一决定由所谓“遗忘门层”的S形网络层做出。它接收 h_t-1和x_t并对细胞状态C_t-1中的每一个数来说输出值都介于0和1之间。1表示“完全接受这个”，0表示“完全忽略这个”。计算公式为： f_m＝σ_f(W_f·[h_t-1，x_t]+b_f)

(2)输入门：下一步就是要确定需要在细胞状态中保存哪些新信息。这里分成两部分。第一部分，一个所谓“输入门层”的S形网络层确定哪些信息需要更新。第二部分，一个tanh形网络层创建一个新的备选值向量C′_t，可以用来添加到细胞状态。在下一步中我们将上面的两部分结合起来，产生对状态的更新。计算公式为： i_t＝σ_i(W_i[h_t-1，x_t]+b_i)；C′_t＝tanh(W_c[h_t-1，x_t]+b_c)。

(3)细胞状态更新：现在更新旧的细胞状态C_t-1更新到C_t。对旧的状态乘以f_t，用来忘记决定忘记的事。然后加上i_t⊙C′_t这是新的候选值，根据对每个状态决定的更新值按比例进行缩放。计算公式为： C_t＝f_t⊙C_t-1+i_t⊙C′_t。

(4)输出门：最后，需要确定输出值。输出依赖于细胞状态，但会是一个“过滤的”版本。首先运行S形网络层，用来确定细胞状态中的哪些部分可以输出。然后，把细胞状态输入tanh(把数值调整到-1和1之间)再和S形网络层的输出值相乘，这样就可以输出想要输出的分。计算公式为：o_t＝σ₀(W₀[h_t-1，x_t]+b₀)； h_t＝o_t⊙tanh(C_t)。

将数据库中原始业务数据的数据集X通过LSTM，得到未来时刻的预定场所业务数据的预测值y＝[y₁，y₂，y₃，y₄，y₅，y₆，y₇，y₈，y₉，y₁₀，y₁₁]，其中y₁到y₁₁分别代表X_n＝[x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁]对应的预测值，得到预测之后依然将y通过T-SNE降维后得到y′＝[y′₁，y′₂]，再进行K-Means聚类后得到的聚类结果

根据专家的先验知识对应到它的高、中、低风险便是其风险预警的结果。得到预警等级后，要进行置信度的求解，其主要步骤为：

(1)与聚类中心点距离。在构建先验知识库时，我们得到了

三类结果的聚类中心

其中

则预测值经过T-SNE降维后的结果y′＝[y′₁，y′₂]与各聚类中心点的距离为：为

(2)置信度。预测值对于某一风险等级的置信度可以通过与该类点的极限值对比的方式来计算，计算方法为：首先通过先验知识库找到每类点到聚类中心

的最远点到聚类中心的距离

则该预测值y属于

类的置信度为：

置信度取值范围为p_i≤1。当置信度大于0时为可信，表示该预测值y属于

类风险，且p_i越接近1可信度越高，越接近于0可信度越低。当置信度小于0时为不可信，表示该预测值y不属于

类风险，且p_i越小表示属于

类风险的概率越小。

基于相同的发明构思，参考图2所示，本发明实施例还提供一种基于多维信息融合的风险评估预警装置包括：

采集单元110，配置为采集预定场所内的人员和设备的各个维度的数据，其中，所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据；

处理单元120，配置为对采集的数据进行融合预处理，其中，所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K- Means聚类处理；

评估和预警单元130，配置为结合专家经验构建预定场所风险评估的先验知识库，并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级，其中，所述预定场所风险等级包括高风险、中风险和低风险。

可选的，所述评估和预警单元130具体配置为：

可选的，所述处理单元120具体配置为：

(1)令t＝0，随机选取3个样本点作为初始聚类中心

(2)对固定的类中心

其中，

(4)如果迭代收敛或者符合停止条件，输出C^*＝C^(t)，得到

三个类，否则t＝t+1，返回步骤(2)循环执行。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。