CN114118507A - 一种基于多维信息融合的风险评估预警方法和装置 - Google Patents

一种基于多维信息融合的风险评估预警方法和装置 Download PDF

Info

Publication number
CN114118507A
CN114118507A CN202110795204.9A CN202110795204A CN114118507A CN 114118507 A CN114118507 A CN 114118507A CN 202110795204 A CN202110795204 A CN 202110795204A CN 114118507 A CN114118507 A CN 114118507A
Authority
CN
China
Prior art keywords
data
risk
time
future
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110795204.9A
Other languages
English (en)
Inventor
刘保臣
孙国强
杨阳
杨志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Bo Tian Tian Tong Information Technology Co ltd
Original Assignee
Qingdao Bo Tian Tian Tong Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Bo Tian Tian Tong Information Technology Co ltd filed Critical Qingdao Bo Tian Tian Tong Information Technology Co ltd
Priority to CN202110795204.9A priority Critical patent/CN114118507A/zh
Publication of CN114118507A publication Critical patent/CN114118507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于多维信息融合的风险评估预警方法和装置,属于数据处理技术领域,对预定场所多维异构数据采用了基于T‑SNE降维和K‑Means聚类算法的数据处理方式,降低了不同量纲的数据融合困难、各维度数据的非线性相关影响预测结果的问题;而且采用了模型学习和专家经验相结合的方式进行风险的评估和预警,利用K‑means聚类算法及LSTM进行模型的评估和预测,可以充分挖掘数据中的数学规律,而结合专家经验进行打分又增加了评估和预测结果的合理性和可解释性;采用了置信度的计算预测方式,数据处理模块完成风险的预测后得到的只是一个高、中、低风险值的结果,为预定场所内提出合理、科学的决策提供保障。

Description

一种基于多维信息融合的风险评估预警方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多维信息融合的风险评估预警方法和装置。
背景技术
随着机器学习算法的不断优化,人工智能技术的应用领域越来越广泛,渗透在了金融、工程和司法体系的各个方面。近年来,人工智能技术在风险的评估和预警方面也有了长足的发展,但它在预定场所应用中依然存在这一些不足:由于预定场所数据的特殊性和局限性,在进行分析时存在数据体系不够全面、预测模型单一的问题,并不能充分挖掘数据与风险的相关性。
预定场所的风险评估和预警是指针对预定场所内当前时刻风险场景、风险等级的评判以及对风险场景中进行可能出现的各种情况的预测和评估。智慧预定场所是当前时代在人工智能领域的一个新的重要应用,在预定场所的智慧场景模式下,预定场所整合监管改造信息资源和社会信息资源,如何将大数据、物联网、人工智能等现代科技与预定场所各项业务相融合,对监管安全风险采取评估定量定性的评判,提高预定场所监管安全方面的防范能力,推进预定场所治理体系的创新,是当前亟待解决的技术难题。
发明内容
本发明提供一种基于多维信息融合的风险评估预警方法和装置,融合了预定场所内包括人员、设备等多个维度的业务数据并通过模型训练与专家经验相结合的方式,采用T-SNE降维和K均值聚类算法进行数据处理,通过长短期记忆神经网络进行数据预测来对预定场所的风险进行评估和预测,增强了预测结果的可解释性和合理性,可以对监管人员在风险防范、处置决策方面提供参考和支持。
本发明提供的具体技术方案如下:
一方面,本发明提供一种基于多维信息融合的风险评估预警方法包括:
采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理;
结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
可选的,所述根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级具体为:
结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;
将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;
根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
可选的,所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级,具体为:
在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;
之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
可选的,所述对采集的数据进行融合预处理具体为:
每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;
对存储数据的数据进行T-SNE降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;
对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
可选的,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-GDA0003328607280000031
(2)对固定的类中心
Figure RE-GDA0003328607280000032
其中,
Figure RE-GDA0003328607280000033
为类Gi的中心,计算样本X′ij到类中心的距离,距离的计算公式为
Figure RE-GDA0003328607280000041
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-GDA0003328607280000042
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-GDA0003328607280000043
Figure RE-GDA0003328607280000044
三个类,否则t=t+1,返回步骤(2)循环执行。
另一方面,本发明还提供一种基于多维信息融合的风险评估预警装置包括:
采集单元,配置为采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
处理单元,配置为对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means 聚类处理;
评估和预警单元,配置为结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
可选的,所述评估和预警单元具体配置为:
结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;
将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;
根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
可选的,所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级,具体为:
在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;
之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
可选的,所述处理单元具体配置为:
每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;
对存储数据的数据进行T-SNE降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;
对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
可选的,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-GDA0003328607280000061
(2)对固定的类中心
Figure RE-GDA0003328607280000062
其中,
Figure RE-GDA0003328607280000063
为类Gi的中心,计算样本X′ij到类中心的距离,距离的计算公式为
Figure RE-GDA0003328607280000064
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-GDA0003328607280000065
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-GDA0003328607280000066
Figure RE-GDA0003328607280000067
三个类,否则t=t+1,返回步骤(2)循环执行。
本发明的有益效果如下:
本发明实施例提供的一种基于多维信息融合的风险评估预警方法和装置,对预定场所多维异构数据采用了基于T-SNE降维和K- Means聚类算法的数据处理方式,降低了不同量纲的数据融合困难、各维度数据的非线性相关影响预测结果的问题;而且采用了模型学习和专家经验相结合的方式进行风险的评估和预警,利用K-means 聚类算法及LSTM进行模型的评估和预测,可以充分挖掘数据中的数学规律,而结合专家经验进行打分又增加了评估和预测结果的合理性和可解释性;对未来风险场景的预测是对原始数据的预测,而不是对通过T-SNE降维后的数据或者直接对风险值进行预测,不同维度的业务数据有其特有的规律性,对原始数据进行预测的方法可以充分挖掘每个维度不同的规律而不是得到一个融合后的结果,对多个维度的数据预测也增加了模型的容错能力,在提高准确率的同时也增加了模型预测过程的可视化能力;同时,采用了置信度的计算预测方式,数据处理模块完成风险的预测后得到的只是一个高、中、低风险值的结果,通过欧几里得距离和标准化的方法计算预测数据与聚类中心点的距离得到预测结果的置信度,可以更直观的量化预测结果,为预定场所内提出合理、科学的决策提供保障。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于多维信息融合的风险评估预警方法的流程示意图;
图2是本发明实施例提供的一种基于多维信息融合的风险评估预警装置的结构框图;
图3是本发明实施例提供的一种构建多维数据融合的预定场所风险评估先验知识库示意图;
图4为本发明实施例提供的长短时记忆网络算法结构框图;
图5为本发明实施例提供的风险预警结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
下面将结合附图1~附图5,对本发明实施例的一种基于多维信息融合的风险评估预警方法和装置进行详细说明。
参考图1和图3所示,本发明实施例提供的一种基于多维信息融合的风险评估预警方法包括:
100:采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
采集预定场所内的人员和设备的各个维度的数据,为了保证聚类结果的准确率,从预定场所大数据平台中汇聚三十天的预定场所内的业务数据,对数据的采集按照最高采集量进行采集,即每五分钟进行一次采集,这样一共采集30天的数据,每天288条,共有 30×288=8640条数据,每条数据包含了预设人员的基本情况、计分考评、预设人员危险性等级、预设人员的行为基准数据、预定场所内黑白名单通话数量、激光周界报警数据、现有安防系统报警数据、现有视频监控数据在内的11个维度的业务数据,其数据格式为 Xij=[x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11]。其中,Xij表示第i(0<i≤30)天的第j(0<j≤288)条数据,在进行数据填充、清洗等数据预处理工作后得到数据集
Figure RE-GDA0003328607280000081
并将其存储到MySQL数据库中。
MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理。
200:对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理;
具体的,每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;对存储数据的数据进行T-SNE 降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
需要说明的是,T-SNE,全称为T-distributed Stochastic Neighbor Embedding,T分布-随机邻近嵌入算法,T-SNE是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。K-Means,又称为K均值聚类算法,是最常用的一种聚类算法,算法的输入为一个样本集(或者称为点集),通过该算法可以将样本进行聚类,具有相似特征的样本聚为一类。
其中,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-GDA0003328607280000091
(2)对固定的类中心
Figure RE-GDA0003328607280000092
其中,
Figure RE-GDA0003328607280000093
为类Gi的中心,计算样本X′ij到类中心的距离,距离的计算公式为
Figure RE-GDA0003328607280000094
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-GDA0003328607280000095
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-GDA0003328607280000096
Figure RE-GDA0003328607280000097
三个类,否则t=t+1,返回步骤(2)循环执行。
对采集的数据进行融合预处理分为两部分,第一部分为T-SNE 降维,T-SNE是一种非线性的降维方法,非线性降维算法通常更重视保持相似性,使低维空间中的相似的点之间的距离较小。T-SNE 降维将数据点之间的相似度转换为概率,原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生T分布”表示。将融合的数据集X中的每一条数据经过T-SNE降低到二维空间后得到了新的数据集
Figure RE-GDA0003328607280000101
其中X′ij=[x′1,x′2],x′1,x′2为降维后的数据项。
对采集的数据进行融合预处理的第二步是把降维后的数据通过 K-Means聚类算法进行聚类。K-Means算法的输入为一个样本集 (或者称为点集),通过该算法可以将样本进行聚类,具有相似特征的样本聚为一类。针对每个点,计算这个点距离所有中心点最近的那个中心点,然后将这个点归为这个中心点代表的簇。一次迭代结束之后,针对每个簇类,重新计算中心点,然后针对每个点,重新寻找距离自己最近的中心点。如此循环,直到前后两次迭代的簇类没有变化。K的含义就是将样本集合划分为K类,示例的,K取3 对应预定场所的高、中、低风险值。
得到业务数据的聚类结果后,原始数据X与聚类结果C*融合构成带有标签的数据
Figure RE-GDA0003328607280000102
Figure RE-GDA0003328607280000103
为Xij对应的聚类结果。预定场所监管人员将结合原始数据Xij对得到的聚类结果
Figure RE-GDA0003328607280000104
进行判断,对应为高、中、低风险。其中,
Figure RE-GDA0003328607280000105
即为构建的先验知识库,并将其存入数据库。
300:结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
具体的,结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;将各个维度的历史数据输入时序的LSTM 模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
需要说明的是,LSTM模型的全称为长短时记忆网络(Long short-term memory,LSTM)是一种特殊的RNN模型,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,是一个用于解决包含时间维度数据的深度学习模型。本发明实施例的数据处理过程由T-SNE降维算法和K-Means聚类算法处理预定场所异构数据。先验知识库是将历史数据通过数据处理模块在加之专家经验而形成带带有标签的数据库,用于之后风险评估和预测。
进一步的,在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
在对预定场所场景进行风险的评估时,从预定场所大数据平台获取当前时刻的11个维度的业务数据并进行融合,得到 Xn=[x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11],其中x1到x11分别代表预设人员的基本情况、计分考评、预设人员危险性等级、预设人员的行为基准数据、预定场所内黑白名单通话数量、激光周界报警数据、现有安防系统报警数据、现有视频监控数据。将Xn输入到上述的数据处理模块,经过降维和聚类后,得到其聚类结果
Figure RE-GDA0003328607280000121
根据专家的先验知识对应到它的高、中、低风险便是其风险评估结果。并将风险评估结果返回预定场所大数据平台并进行显示。
参考图4所示,在对未来风险进行预警时,结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个数据进行预测,预定场所场景的各种情况具有一定的时间规律性,通过将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来的可能数据。所有递归神经网络都具有神经网络的链式重复模块,LSTM具有同样的结构,但是重复的模块拥有不同的结构,如图5所示。LSTM与RNN的单一神经网络层不同,LSTM模型有四个网络层,并且以一种非常特殊的方式进行交互,LSTM的网络算法结构图如图5所示。实现步骤为:
(1)遗忘门:LSTM的第一步要决定从细胞状态中舍弃哪些信息。这一决定由所谓“遗忘门层”的S形网络层做出。它接收 ht-1和xt并对细胞状态Ct-1中的每一个数来说输出值都介于0和1之间。1表示“完全接受这个”,0表示“完全忽略这个”。计算公式为: fm=σf(Wf·[ht-1,xt]+bf)
(2)输入门:下一步就是要确定需要在细胞状态中保存哪些新信息。这里分成两部分。第一部分,一个所谓“输入门层”的S形网络层确定哪些信息需要更新。第二部分,一个tanh形网络层创建一个新的备选值向量C′t,可以用来添加到细胞状态。在下一步中我们将上面的两部分结合起来,产生对状态的更新。计算公式为: it=σi(Wi[ht-1,xt]+bi);C′t=tanh(Wc[ht-1,xt]+bc)。
(3)细胞状态更新:现在更新旧的细胞状态Ct-1更新到Ct。对旧的状态乘以ft,用来忘记决定忘记的事。然后加上it⊙C′t这是新的候选值,根据对每个状态决定的更新值按比例进行缩放。计算公式为: Ct=ft⊙Ct-1+it⊙C′t
(4)输出门:最后,需要确定输出值。输出依赖于细胞状态,但会是一个“过滤的”版本。首先运行S形网络层,用来确定细胞状态中的哪些部分可以输出。然后,把细胞状态输入tanh(把数值调整到-1和1之间)再和S形网络层的输出值相乘,这样就可以输出想要输出的分。计算公式为:ot=σ0(W0[ht-1,xt]+b0); ht=ot⊙tanh(Ct)。
将数据库中原始业务数据的数据集X通过LSTM,得到未来时刻的预定场所业务数据的预测值y=[y1,y2,y3,y4,y5,y6,y7,y8,y9,y10,y11],其中y1到y11分别代表Xn=[x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11]对应的预测值,得到预测之后依然将y通过T-SNE降维后得到y′=[y′1,y′2],再进行K-Means聚类后得到的聚类结果
Figure RE-GDA0003328607280000131
根据专家的先验知识对应到它的高、中、低风险便是其风险预警的结果。得到预警等级后,要进行置信度的求解,其主要步骤为:
(1)与聚类中心点距离。在构建先验知识库时,我们得到了
Figure RE-GDA0003328607280000132
Figure RE-GDA0003328607280000133
三类结果的聚类中心
Figure RE-GDA0003328607280000134
其中
Figure RE-GDA0003328607280000135
则预测值经过T-SNE降维后的结果y′=[y′1,y′2]与各聚类中心点的距离为:为
Figure RE-GDA0003328607280000141
(2)置信度。预测值对于某一风险等级的置信度可以通过与该类点的极限值对比的方式来计算,计算方法为:首先通过先验知识库找到每类点到聚类中心
Figure RE-GDA0003328607280000142
的最远点到聚类中心的距离
Figure RE-GDA0003328607280000148
则该预测值y属于
Figure RE-GDA0003328607280000143
类的置信度为:
Figure RE-GDA0003328607280000144
置信度取值范围为pi≤1。当置信度大于0时为可信,表示该预测值y属于
Figure RE-GDA0003328607280000145
类风险,且pi越接近1可信度越高,越接近于0可信度越低。当置信度小于0时为不可信,表示该预测值y不属于
Figure RE-GDA0003328607280000146
类风险,且pi越小表示属于
Figure RE-GDA0003328607280000147
类风险的概率越小。
本发明实施例提供的一种基于多维信息融合的风险评估预警方法和装置,对预定场所多维异构数据采用了基于T-SNE降维和K- Means聚类算法的数据处理方式,降低了不同量纲的数据融合困难、各维度数据的非线性相关影响预测结果的问题;而且采用了模型学习和专家经验相结合的方式进行风险的评估和预警,利用K-means 聚类算法及LSTM进行模型的评估和预测,可以充分挖掘数据中的数学规律,而结合专家经验进行打分又增加了评估和预测结果的合理性和可解释性;对未来风险场景的预测是对原始数据的预测,而不是对通过T-SNE降维后的数据或者直接对风险值进行预测,不同维度的业务数据有其特有的规律性,对原始数据进行预测的方法可以充分挖掘每个维度不同的规律而不是得到一个融合后的结果,对多个维度的数据预测也增加了模型的容错能力,在提高准确率的同时也增加了模型预测过程的可视化能力;同时,采用了置信度的计算预测方式,数据处理模块完成风险的预测后得到的只是一个高、中、低风险值的结果,通过欧几里得距离和标准化的方法计算预测数据与聚类中心点的距离得到预测结果的置信度,可以更直观的量化预测结果,为预定场所内提出合理、科学的决策提供保障。
基于相同的发明构思,参考图2所示,本发明实施例还提供一种基于多维信息融合的风险评估预警装置包括:
采集单元110,配置为采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
处理单元120,配置为对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K- Means聚类处理;
评估和预警单元130,配置为结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
可选的,所述评估和预警单元130具体配置为:
结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;
将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;
根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
可选的,所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级,具体为:
在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;
之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
可选的,所述处理单元120具体配置为:
每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;
对存储数据的数据进行T-SNE降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;
对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
可选的,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-GDA0003328607280000161
(2)对固定的类中心
Figure RE-GDA0003328607280000171
其中,
Figure RE-GDA0003328607280000172
为类Gi的中心,计算样本X′ij到类中心的距离,距离的计算公式为
Figure RE-GDA0003328607280000173
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-GDA0003328607280000174
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-GDA0003328607280000175
Figure RE-GDA0003328607280000176
三个类,否则t=t+1,返回步骤(2)循环执行。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于多维信息融合的风险评估预警方法,其特征在于,所述风险评估预警方法包括:
采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理;
结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
2.根据权利要求1所述的风险评估预警方法,其特征在于,所述根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级具体为:
结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;
将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;
根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
3.根据权利要求2所述的风险评估预警方法,其特征在于,所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级,具体为:
在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;
之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
4.根据权利要求1所述的风险评估预警方法,其特征在于,所述对采集的数据进行融合预处理具体为:
每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;
对存储数据的数据进行T-SNE降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;
对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
5.根据权利要求4所述的风险评估预警方法,其特征在于,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-FDA0003328607270000021
(2)对固定的类中心
Figure RE-FDA0003328607270000022
其中,
Figure RE-FDA0003328607270000023
为类Gi的中心,计算样本x′ij到类中心的距离,距离的计算公式为
Figure RE-FDA0003328607270000031
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-FDA0003328607270000032
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-FDA0003328607270000033
Figure RE-FDA0003328607270000034
三个类,否则t=t+1,返回步骤(2)循环执行。
6.一种基于多维信息融合的风险评估预警装置,其特征在于,所述风险评估预警装置包括:
采集单元,配置为采集预定场所内的人员和设备的各个维度的数据,其中,所述数据包括预设人员基本情况数据、计分考评数据、预设人员危险性等级数据、预设人员的行为基准数据、预定场所内黑白名单通话数量数据、激光周界报警数据、安防系统报警数据、视频监控数据;
处理单元,配置为对采集的数据进行融合预处理,其中,所述融合预处理包括数据填充、数据清洗、T-SNE降维处理、K-Means聚类处理;
评估和预警单元,配置为结合专家经验构建预定场所风险评估的先验知识库,并根据先验知识库和融合预处理之后的数据评估和预测预定场所风险等级,其中,所述预定场所风险等级包括高风险、中风险和低风险。
7.根据权利要求6所述的风险评估预警装置,其特征在于,所述评估和预警单元具体配置为:
结合当前时刻采集到的数据及先验知识库中前N天的历史数据,通过长短期记忆人工神经网络对未来一段时间内的各个课题的数据进行预测;
将各个维度的历史数据输入时序的LSTM模型中对未来一段时间的不同维度的数据进行预测,得到与原始数据相同格式的未来一段时间的可能数据;
根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级。
8.根据权利要求7所述的风险评估预警装置,其特征在于,所述根据先验知识库和融合预处理之后的当前数据、未来一段时间内的预测数据,评估当前时刻的风险等级和预测预定场所的未来风险等级,具体为:
在获得当前时刻的业务数据后,将其输入至先验知识库,得到当前场景的预定场所风险结果;
之后将当前时刻的业务数据与风险评估结果输入数据库,同时结合当前时刻的输入数据及数据库中前N天的历史数据,通过长短时记忆人工神经网络对未来一段时间内的各个维度的业务数据分别进行预测,并将未来一段时间内的预测数据输入先验知识库,得到未来场景的预定场所风险结果。
9.根据权利要求6所述的风险评估预警装置,其特征在于,所述处理单元具体配置为:
每次采集到所有维度的业务数据后,对其进行数据填充和清洗,之后将其存储到数据库;
对存储数据的数据进行T-SNE降维处理,通过T-SNE降维算法将我们的非线性的相关的数据降低到2维;
对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据,其中,三簇聚类数据分别对应预定场所的高、中、低风险,其中的对应关系由专家结合其先验知识打分决定。
10.根据权利要求9所述的风险评估预警装置,其特征在于,所述对降维处理之后的数据通过K-Means聚类算法进行聚类,得到分为三簇的聚类数据具体为:
(1)令t=0,随机选取3个样本点作为初始聚类中心
Figure RE-FDA0003328607270000051
(2)对固定的类中心
Figure RE-FDA0003328607270000052
其中,
Figure RE-FDA0003328607270000053
为类Gi的中心,计算样本x′ij到类中心的距离,距离的计算公式为
Figure RE-FDA0003328607270000054
将每个样本指派到与其最近的中心的类中,构成聚类结果C(t)
(3)对聚类结果C(t),计算当前各个类中样本的均值,作为新的类中心
Figure RE-FDA0003328607270000055
(4)如果迭代收敛或者符合停止条件,输出C*=C(t),得到
Figure RE-FDA0003328607270000056
Figure RE-FDA0003328607270000057
三个类,否则t=t+1,返回步骤(2)循环执行。
CN202110795204.9A 2021-07-14 2021-07-14 一种基于多维信息融合的风险评估预警方法和装置 Pending CN114118507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795204.9A CN114118507A (zh) 2021-07-14 2021-07-14 一种基于多维信息融合的风险评估预警方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795204.9A CN114118507A (zh) 2021-07-14 2021-07-14 一种基于多维信息融合的风险评估预警方法和装置

Publications (1)

Publication Number Publication Date
CN114118507A true CN114118507A (zh) 2022-03-01

Family

ID=80359454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795204.9A Pending CN114118507A (zh) 2021-07-14 2021-07-14 一种基于多维信息融合的风险评估预警方法和装置

Country Status (1)

Country Link
CN (1) CN114118507A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN115374173A (zh) * 2022-10-24 2022-11-22 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 食品从业人员的信息处理方法、装置及电子设备
CN115801471A (zh) * 2023-02-10 2023-03-14 江西和盾技术股份有限公司 基于大数据处理的网络安全数据处理方法
CN115994713A (zh) * 2023-03-22 2023-04-21 中国人民解放军火箭军工程大学 一种基于多源数据的操作训练效果评估方法及系统
CN117078022A (zh) * 2023-10-16 2023-11-17 中钢集团武汉安全环保研究院有限公司 基于多源数据融合的钢铁厂区人员风险预警系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN115374173A (zh) * 2022-10-24 2022-11-22 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) 食品从业人员的信息处理方法、装置及电子设备
CN115801471A (zh) * 2023-02-10 2023-03-14 江西和盾技术股份有限公司 基于大数据处理的网络安全数据处理方法
CN115994713A (zh) * 2023-03-22 2023-04-21 中国人民解放军火箭军工程大学 一种基于多源数据的操作训练效果评估方法及系统
CN117078022A (zh) * 2023-10-16 2023-11-17 中钢集团武汉安全环保研究院有限公司 基于多源数据融合的钢铁厂区人员风险预警系统及方法
CN117078022B (zh) * 2023-10-16 2024-02-23 中钢集团武汉安全环保研究院有限公司 基于多源数据融合的钢铁厂区人员风险预警系统及方法

Similar Documents

Publication Publication Date Title
CN114118507A (zh) 一种基于多维信息融合的风险评估预警方法和装置
Yerpude Predictive modelling of crime data set using data mining
Zhuang et al. Crime hot spot forecasting: A recurrent model with spatial and temporal information
CN110647900A (zh) 基于深度神经网络的安全态势智能预测方法、装置及系统
Zhang et al. A novel case adaptation method based on an improved integrated genetic algorithm for power grid wind disaster emergencies
Nitta et al. LASSO-based feature selection and naïve Bayes classifier for crime prediction and its type
CN112966714B (zh) 一种边缘时序数据异常检测和网络可编程控制方法
CN110837523A (zh) 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法
CN112085869A (zh) 一种基于飞参数据的民机飞行安全性分析方法
US20230071240A1 (en) Methods, systems, and media for robust classification using active learning and domain knowledge
CN115982646B (zh) 一种基于云平台的多源测试数据的管理方法及系统
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN114116692B (zh) 一种基于mask和双向模型的缺失POI轨迹补全方法
KIM et al. A study on crime prediction to reduce crime rate based on artificial intelligence
CN114358186A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
Termritthikun et al. Neural architecture search and multi-objective evolutionary algorithms for anomaly detection
CN112949745A (zh) 多源数据的融合处理方法、装置、电子设备及存储介质
Fonseca et al. An application for risk of crime prediction using machine learning
CN113255527A (zh) 混凝土卸料过程操作规范性监测方法及设备
CN113742495A (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
David et al. Crime Forecasting using Interpretable Regression Techniques
Niskanen A statistical random variable approach to fuzzy cognitive map modeling
CN113034316A (zh) 一种专利价值转换的分析方法及系统
CN116028881B (zh) 基于多维数据库的再次出现限制行为的预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination