CN114064886A

CN114064886A - 基于深度学习的矿山项目风险应对措施推荐方法及系统

Info

Publication number: CN114064886A
Application number: CN202111414495.9A
Authority: CN
Inventors: 许林英; 陈云凌
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-18
Anticipated expiration: 2041-11-25
Also published as: CN114064886B

Abstract

本发明属于信息管理的技术领域，具体涉及基于深度学习的矿山项目风险应对措施推荐方法，包括提取数据表格的特征，从数据表格中获取并处理连续型数据、离散型数据和风险应对措施本文数据，计算风险应对措施的推荐概率，可视化输出所需数据。本发明将深度学习技术引入矿山项目风险应对措施，能够智能推荐所需的风险应对措施。此外，本发明还提供了基于深度学习的矿山项目风险应对措施推荐系统。

Description

基于深度学习的矿山项目风险应对措施推荐方法及系统

技术领域

本发明属于信息管理的技术领域，具体涉及基于深度学习的矿山项目风险应对措施推荐方法及系统。

背景技术

现有的矿产资源开采过程中，没有充分利用已知的数据知识，没有充分利用连续型数据知识，没有考虑文本的语义内容，使得对风险应对措施的推荐造成了巨大的误差。

并且，当某些风险指标与风险应对措施的交互行为较少时，推荐过程容易出现热门推荐的偏差，所以，现有技术难以解决矿山信息化时不能充分利用数据、多系统数据交互联动性差的问题，难以解决在矿山项目风险应对措施推荐中多源异构数据的利用不充分的问题。为此，亟需提出一种新型的技术方案以解决上述问题。

发明内容

本发明的目的之一在于：针对现有技术的不足，提供基于深度学习的矿山项目风险应对措施推荐方法，其能够学习和解释各个特征数据的内在联系，通过充分利用数据进而获得更高准确率的推荐效果。

为了实现上述目的，本发明采用如下技术方案：

基于深度学习的矿山项目风险应对措施推荐方法，包括以下步骤：

S1、数据输入：根据项目的标识，对数据库中的多张数据库表格进行联合查询，获取相关数据表格集合，分析各个数据表格的属性和相关性，提取所需的特征；

S2、特征工程：根据相关性直接从各个数据表格中获取连续型数据和离散型数据，针对风险应对措施查询获取风险应对措施文本数据集合，使用降维技术在风险应对措施文本数据集合中将文本内容用低维稠密的向量表示，将向量矩阵输入到文本卷积神经网络中实现文本的多分类，提取风险应对措施的文本数据特征，生成文本特征集合；

S3、特征计算：将连续型数据、离散型数据和文本特征集合输入到DeepFM模型，对连续型数据进行归一化处理，使离散型数据通过Embedding降维，将处理好的数据放入深度神经网络和因子分解机中进行特征交互，通过因子分解机完成二阶特征以内的交叉，通过深度神经网络完成高阶特征交叉，再使用逻辑回归函数将高阶特征交叉值与低阶特征交叉值连接起来；

S4、点击率预测：获取逻辑回归函数的值，使用函数实现二分类，计算风险应对措施的推荐概率，预测在预设条件下是否会点击所需的风险应对措施，根据计算的数据值，将被点击概率大的风险应对措施返回给风险评估业务模型，预测值与实际值进行反馈更新系统模型，通过可视化将列表展示从而获得所需的矿山项目风险应对措施。

进一步地，所述S1中包括：

S1-1、获取项目风险评估信息表、矿山资源数据表、项目内容信息表、项目经济数据表、项目技术数据表、风险指标信息表、风险应对措施库表、风险等级对照表、风险影响概率表、风险影响等级表的属性数据，构建表格E-R图；

S1-2、根据表格E-R图中的属性与相关性提取所需的特征。

进一步地，所述S2中的文本数据特征的提取过程包括以下步骤：

(1)从风险应对措施文本数据集合中获取一条文本数据，对该文本数据进行one-hot编码，形成稀疏高维向量矩阵，使用Word2Vec模型进行数据降维，形成一个n*k的低维稠密的词向量矩阵，其中，k表示词向量矩阵的维度，当句子的长度为n时，词语从X₁到X_n的串联连接按照输入顺序表示为：

(2)将词向量矩阵作为特征向量输入到一维卷积层中，使用CNN模型处理文本，使用滤波器w∈R^h*k进行一维卷积，其中，R为系数矩阵，滤波器应用于单词的窗口产生的新特征，卷积时的滤波器长度h分别为3、4、5，使卷积核为h*k向量与n*k向量进行运算，特征c_i从单词X_i:i+h-1窗口生成，使用ReLU函数作为激活函数输出所需的特征图c，激活函数的计算公式为：f(x)＝f(w*X_i:i+h-1+b)，其中，b表示一个偏置参数；

(3)对每个滤波器取得的特征图c的特征映射取最大值max{c}作为此滤波器的特征，将3个滤波器连接在一起得到新的一维向量组；

(4)所有的向量组经过最大池化层后全连接在一起，使用softmax分类器进行分类计算，生成类别特征s_i，每条文本得到的类别s_i组成文本特征集合。

进一步地，所述S3中包括：

S3-1、使用one-hot编码技术对离散型数据进行数据编码，将所有离散值进行全连接，并使用Embedding技术进行降维，对连续型数据进行归一化处理，归一化处理的公式为：

其中，X^*为归一化后的数据，X为原始数据集，X_max为原始数据集的最大值，X_min为原始数据集的最小值；

S3-2、将计算好的数据值进行全连接后输入到因子分解机完成低阶部分的计算得到y_FM，计算公式为：

其中，w为滤波器的参数，d表示向量的维度，V∈R^d*k，V_i表示的是系数矩阵V的第i维向量，V_j表示的是系数矩阵V的第j维向量，<V_i,V_j>表示的是向量V_i和向量V_j的点积，x、x_j1、x_j2分别为不同的特征分量；

S3-3、采用深度神经网络完成高阶部分计算，m个离散特征经过Embedding层后得到a⁽⁰⁾＝[e₁，e₂，…，e_m]，将a⁽⁰⁾输入到深度神经网络中进行计算，计算公式为：a(H+1)＝σ(W^H·a^H+b^H)，其中，H为隐藏层的深度，σ为ReLU函数作为激活函数，a^H为第H层的输出值，W^H为第H层的权重，b^H为第H层的偏置，从而生成一个密集的实特征向量y_DNN；

S3-4、使用逻辑回归函数线性融合两部分的值，计算公式为：y＝y_FM+y_DNN。

进一步地，所述S4中使用函数实现二分类的过程包括：使用sigmoid函数对y进行二分类，预测每个风险应对措施是否被点击，计算公式为：

进一步地，所述S3中还包括：在数据输入模型前对数据进行预处理，将获取到的数据集合的空取值补全。

本发明的目的之二在于：提供基于深度学习的矿山项目风险应对措施推荐系统，包括：

逻辑层，设置有多个数据库，每个所述数据库用于提供多张数据库表格；

服务层，通讯连接于所述逻辑层，用于计算风险应对措施的推荐概率；

业务逻辑层，通讯连接于所述服务层，用于提供风险评估业务模型；

应用层，通讯连接于所述业务逻辑层，用于可视化展示列表。

进一步地，所述服务层采用Python、TensorFlow、Java或Spring boot进行搭建。

本发明的有益效果在于：1)本发明通过特征工程和特征计算等手段，可以充分利用大数据、人工智能和深度学习等技术结合先进管理方法解决矿山信息化时不能充分利用数据、多系统数据交互联动性差的问题，实现矿山系统智能服务、自动挖掘数据关联和可视化展示；2)本发明基于深度学习模型算法，计算离散型数据和数值连续型数据，通过深度神经网络模型学习和解释各个特征数据的内在联系，深度学习推进模型更加充分利用了数据，其具有准确率更高的推荐效果，能够融合多源异构的数据，使得深度学习模型应用在矿山项目风险应对措施推荐中的多源异构数据被充分利用；3)本发明的一种基于深度学习的矿山项目风险应对措施智能推荐方法及系统，会依据当时的场景结合矿山项目数据将风险应对措施库的数据进行排序，将排序好的风险应对措施列表展示给用户，其提供的系统使用界面简洁，协助专家高效工作，显著地减少了专家在完成项目风险评估报告时寻找风险应对措施的时间。

附图说明

图1为本发明推荐方法的步骤流程图。

图2为本发明推荐方法的步骤S1所获得的E-R图。

图3为本发明推荐方法的特征工程和特征计算的操作流程框图。

图4为本发明推荐方法的风险应对措施文本数据集合的特征提取流程图。

图5为本发明推荐方法的特征计算步骤的操作流程框图。

图6为本发明推荐系统的结构框图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件，本领域技术人员应可理解，制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，发明人通过对国内外关于推荐系统的研究，与项目风险应对措施智能推荐相关的推荐方法可选方向：基于ItemCF方法，将风险内容作为物品研究其行为和与风险应对措施形成交互矩阵，预测风险指标选择风险应对措施的行为，该方法的缺点是没有充分利用已知的数据知识推荐效率较低、计算复杂；基于内容推荐方法，风险应对措施和风险指标都是文本内容，根据TF-IDF模型对每条风险应对措施文本词语统计，和风险指标计算余弦相似度，进行风险应对措施的推荐，该方法没有充分利用数值型数据知识、没有考虑文本的语义内容，会造成巨大的推荐误差。

同时，风险应对措施数据信息是包含大量专业术语的短文本，具有很强的语义顺序性，某些风险指标与风险应对措施的交互行为较少时，推荐出现热门推荐的偏差。而矿山项目风险应对措施推荐的特征结构容易引起了这种偏差，特征提供了更多的场景特征和风险指标特征，风险应对措施由于是文本数据，但DeepFM模型未涉及处理该数据类型的模型，导致深度学习模型应用在矿山项目风险应对措施推荐中多源异构数据的利用不充分。

为了解决上述问题，以下结合附图1～6和具体实施例对本发明作进一步详细说明，但不作为对本发明的限定。

实施例1

基于深度学习的矿山项目风险应对措施推荐方法，如图1～5所示，包括以下步骤：

S1-2、根据表格E-R图中的属性与相关性提取所需的特征。

其中，E-R图清晰地展示了各个表中的属性值的关联，有助于根据属性与相关性抽取所需的特征。

S2、特征工程：根据提取特征，特征提取分为两个部分，一个部分是根据相关性直接从各个数据表格中获取连续型数据和离散型数据，另一个部分是针对风险应对措施查询获取风险应对措施文本数据集合，使用降维技术在风险应对措施文本数据集合中将文本内容用低维稠密的向量表示，将向量矩阵输入到文本卷积神经网络中实现文本的多分类，提取风险应对措施的文本数据特征，生成文本特征集合；

其中，文本数据特征的提取过程包括以下步骤：

S3、特征计算：在数据输入模型前对数据进行预处理，按照确定规则将获取到的数据集合的空取值补全，避免因为数据导致模型推荐效果差，将连续型数据、离散型数据和文本特征集合输入到DeepFM模型，对连续型数据进行归一化处理，使离散型数据通过Embedding降维，将处理好的数据放入深度神经网络和因子分解机中进行特征交互，通过因子分解机完成二阶特征以内的交叉，通过深度神经网络完成高阶特征交叉，再使用逻辑回归函数将高阶特征交叉值与低阶特征交叉值连接起来；

S4、点击率预测：获取逻辑回归函数的值，使用sigmoid函数对y进行二分类，计算风险应对措施的推荐概率，预测在预设条件下是否会点击所需的风险应对措施或预测每个风险应对措施是否被点击，计算公式为：

根据计算的数据值，将被点击概率大的风险应对措施返回给风险评估业务模型，预测值与实际值进行反馈更新系统模型，通过可视化将列表展示从而获得所需的矿山项目风险应对措施。

显然，本发明克服了现有技术中专家在完成矿山项目风险评估方案过程中，需要在已经存在的风险应对措施数据库里，根据当前场景搜索或者选择风险应对措施，系统收录大量不重复的风险应对措施数据，专家针对风险特征需要在下拉列表中进行搜索查找可能需要风险应对措施，耗费大量时间。

实施例2

基于深度学习的矿山项目风险应对措施推荐系统，如图6所示，包括：

逻辑层，设置有多个数据库，每个数据库用于提供多张数据库表格；

服务层，通讯连接于逻辑层，用于计算风险应对措施的推荐概率；

业务逻辑层，通讯连接于服务层，用于提供风险评估业务模型；

应用层，通讯连接于业务逻辑层，用于可视化展示列表。

优选地，服务层采用Python、TensorFlow、Java或Spring boot进行搭建。

因此，本发明通过计算风险应对措施的推荐概率，根据计算的数据值，将被点击概率大的风险应对措施返回给风险评估模型，再通过可视化将列表展示给专家进行选择，可以更好的辅助工作者进行作业，更多信息的收集能降低在资金投入和矿产资源开采过程中的错误判断，有利于规避风险减少损失，同时，应用深度学习的模型和推荐系统等相关知识，设计实现内嵌智能推荐风险应对措施的智能矿山决策系统，凝聚专家智慧提供优秀风险应对方案，节省了时间和显著地提高了工作效率。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，所述S1中包括：

S1-2、根据表格E-R图中的属性与相关性提取所需的特征。

3.如权利要求1所述的基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，所述S2中的文本数据特征的提取过程包括以下步骤：

4.如权利要求3所述的基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，所述S3中包括：

5.如权利要求4所述的基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，所述S4中使用函数实现二分类的过程包括：

使用sigmoid函数对y进行二分类，预测每个风险应对措施是否被点击，计算公式为：

6.如权利要求1所述的基于深度学习的矿山项目风险应对措施推荐方法，其特征在于，所述S3中还包括：在数据输入模型前对数据进行预处理，将获取到的数据集合的空取值补全。

7.基于深度学习的矿山项目风险应对措施推荐系统，其特征在于，包括：

8.如权利要求7所述的基于深度学习的矿山项目风险应对措施推荐系统，其特征在于：所述服务层采用Python、TensorFlow、Java或Spring boot进行搭建。