CN110069773A - 一种安全隐患智能识别方法、装置以及存储介质 - Google Patents
一种安全隐患智能识别方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN110069773A CN110069773A CN201910185069.9A CN201910185069A CN110069773A CN 110069773 A CN110069773 A CN 110069773A CN 201910185069 A CN201910185069 A CN 201910185069A CN 110069773 A CN110069773 A CN 110069773A
- Authority
- CN
- China
- Prior art keywords
- data
- security risk
- model
- identification
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种安全隐患智能识别方法、装置以及存储介质,包括:获取安全隐患数据集,安全隐患数据集包括多条安全隐患数据;对多条安全隐患数据进行数据处理,得到第一数据;将第一数据输入卷积神经网络得到第二数据;利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整;利用训练后的安全隐患数据识别模型进行安全隐患的识别。达到了机器自动识别典型安全隐患的目的,为智能安全管理提供了崭新的思路。
Description
技术领域
本发明属于大型基础设施施工现场安全隐患识别技术领域,具体涉及一种安全隐患智能识别方法。
背景技术
水利、交通等大型基础设施作为国民经济的命脉,施工现场具有环境复杂、施工期长、参建人员多、作业面空间分布复杂、工种众多且包含特殊工种等特点,现场安全管理的挑战越来越大。随着我国西南地区的开发,大型基础建设自然条件越来越严峻、难度越来越高、建筑市场环境更加复杂,安全管理成为这些基础设施建设、运行、维护过程中的重中之重。国家对安全生产要求越来越严格,要求我们必须革命性地创新安全管理思路与手段。结合新一轮的科技和产业革命,在大型基础设施的建设中,安全管控也必将从传统的依靠人去判断识别隐患危险转向依靠机器利用现有数据自动挖掘分析。实时高效地降低事故发生的可能性,提高建设现场本质安全水平。
现有技术中常规的典型安全隐患识别往往依靠人工,主要具有以下不足:(1)耗费时间长,效率低;(2)人工识别,难免融入一定的主观因素,客观性不够强;(3)智能化水平不高。
发明内容
为此,本发明正是要解决上述技术问题,从而提出一种安全隐患智能识别方法,通过卷积神经网络CNN模型对基础设施建设期典型安全隐患进行数据学习与挖掘,为现场智能安全管控提供方法和依据,提高基础设施建设现场扁平-闭环安全管理的效率,达到了机器自动识别典型安全隐患的目的。
为解决上述技术问题,根据本发明实施例的一个方面,提供了一种安全隐患智能识别方法,所述方法包括:获取安全隐患数据集,所述安全隐患数据集包括多条安全隐患数据;对所述多条安全隐患数据进行数据处理,得到第一数据;将所述第一数据输入卷积神经网络得到第二数据;利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整;利用训练后的所述安全隐患数据识别模型进行安全隐患的识别。
进一步地,所述第一数据的数据形式为数据矩阵,对所述多条安全隐患数据进行数据处理,得到第一数据包括:去掉所述多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;对所述由汉字组成的字符串进行分词处理,得到单词序列;根据所述单词序列生成单词向量和由所述单词向量组成的矩阵,其中,将所述矩阵作为所述第一数据。
进一步地,所述卷积神经网络包括卷积层、池化层和全连接层,将所述第一数据输入卷积神经网络得到第二数据包括:将所述第一数据作为所述卷积层的输入,利用所述卷积层对所述第一数据进行卷积运算,得到第一中间数据;将所述第一中间数据作为所述池化层的输入,利用所述池化层对所述第一中间数据进行特征采样,重到第二中间数据;将所述第二中间数据作为所述全连接层的输入,得到所述全连接层的输出作为所述第二数据。
进一步地,利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整包括:将所述第二数据作为所述安全隐患数据识别模型的输入,获取所述安全隐患数据识别模型的输出结果;对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩。
进一步地,在对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩之前,所述方法还包括:利用专家诊断对所述安全隐患数据识别模型的输出结果进行调整。
进一步地,在利用所述第二数据对安全隐患数据识别模型进行训练之后,所述方法还包括:利用所述第二数据对训练后的所述安全隐患数据识别模型进行测试。
根据本发明实施例的另一方面,还提供了一种安全隐患智能识所述装置包括:获取模块,用于获取安全隐患数据集,所述安全隐患数据集包括多条安全隐患数据;数据处理模块,用于对所述多条安全隐患数据进行数据处理,得到第一数据;卷积神经网络模块,用于将所述第一数据输入卷积神经网络得到第二数据;训练模块,用于利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整;识别模块,用于利用训练后的所述安全隐患数据识别模型进行安全隐患的识别。
进一步地,所述第一数据的数据形式为数据矩阵,所述数据处理模块包括:删除单元,用于去掉所述多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;分词单元,用于对所述由汉字组成的字符串进行分词处理,得到单词序列;生成单元,用于根据所述单词序列生成单词向量和由所述单词向量组成的矩阵,其中,将所述矩阵作为所述第一数据。
进一步地,所述卷积神经网络包括卷积层、池化层和全连接层,所述卷积神经网络模块包括:第一输入单元,用于将所述第一数据作为所述卷积层的输入,利用所述卷积层对所述第一数据进行卷积运算,得到第一中间数据;第二输入单元,用于将所述第一中间数据作为所述池化层的输入,利用所述池化层对所述第一中间数据进行特征采样,重到第二中间数据;第三输入单元,用于将所述第二中间数据作为所述全连接层的输入,得到所述全连接层的输出作为所述第二数据。
进一步地,所述训练模块包括:获取单元,用于将所述第二数据作为所述安全隐患数据识别模型的输入,获取所述安全隐患数据识别模型的输出结果;第一调整单元,用于对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩。
进一步地,所述训练模块还包括:第二调整单元,用于在对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩之前,利用专家诊断对所述安全隐患数据识别模型的输出结果进行调整。
进一步地,所述装置还包括:测试模块,用于在利用所述第二数据对安全隐患数据识别模型进行训练之后,利用所述第二数据对训练后的所述安全隐患数据识别模型进行测试。
根据本发明实施例的另一方面,还提供了一种安全隐患智能识别装置,包括存储器和处理器:所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述的安全隐患智能识别方法。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述的安全隐患智能识别方法。
本发明的上述技术方案基于卷积神经网络CNN的典型安全隐患学习与挖掘模型,相比于传统的人工识别施工现场典型安全隐患的方法,具有以下优势:(1)效率高,识别时间更短;(2)准确度更高,客观性更强;(3)达到了机器自动识别典型安全隐患的目的,为智能安全管理提供了崭新的思路。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是根据本发明实施例的一种可选的安全隐患智能识别方法的流程图;
图2是根据本发明实施例的一种可选的对安全隐患数据进行数据处理的流程图;
图3是根据本发明实施例的一种可选的卷积神经网络的示意图;
图4是根据本发明实施例的一种可选的通过对卷积神经网络进行模型训练的流程图;
图5是根据本发明实施例的一种可选的神经网络反向传播模型示意图;
图6是根据本发明实施例的一种安全隐患智能识别装置。
具体实施方式
根据本发明实施例,提供一种安全隐患智能识别方法,如图1所示,该方法包括如下步骤:
步骤S102,获取安全隐患数据集,安全隐患数据集包括多条安全隐患数据;
步骤S104,对多条安全隐患数据进行数据处理,得到第一数据;
步骤S106,将第一数据输入卷积神经网络得到第二数据;
步骤S108,利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整;
步骤S110,利用训练后的安全隐患数据识别模型进行安全隐患的识别。
本发明的上述技术方案基于卷积神经网络CNN的典型安全隐患学习与挖掘模型,相比于传统的人工识别施工现场典型安全隐患的方法,具有以下优势:(1)效率高,识别时间更短;(2)准确度更高,客观性更强;(3)达到了机器自动识别典型安全隐患的目的,为智能安全管理提供了崭新的思路。
在一个可选的实施例中,可利用Wesafety平台收集、传输、储存与整理安全隐患数据;Wesafety平台是一款结合微信输入前端,整合后台云计算,为安全隐患排查治理提供隐患上报、排查、整改分析利用的实时在线供监管平台。该平台可以通过简单操作,为一线人员隐患及时上报提供便利,同时系统内部成员可对隐患整改治理状况实时跟踪并评价。利用该平台,可以积累大量隐患数据和专业人员标识的那些可能造成事故的典型隐患数据。
可选地,第一数据的数据形式为数据矩阵,对多条安全隐患数据进行数据处理,得到第一数据包括:去掉多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;对由汉字组成的字符串进行分词处理,得到单词序列;根据单词序列生成单词向量和由单词向量组成的矩阵,其中,将矩阵作为第一数据。
对多条安全隐患数据进行数据处理,目的在于将安全隐患数据集预处理成机器便于识别的形式。可选地,如图2所示,数据数理分为去除隐患文本中的非中文字符等,分词,生成词向量和/或向量矩阵三个步骤。在一个可选实施例中,可以采用j ieba分词工具进行分词处理;再采用Word2Vec工具对整个文档的单词序列进行处理,以便每个单词可以用一个固定维度的向量表示,这样,一条文本记录就可以用一个B*h的矩阵表示,其中B为每个单词处理出来的向量的维度,h为该记录中包含的单词的个数,h为非定值,可选地,可以取H为h的最大值,小于H的记录,在后面用0补齐,此时所有的文本记录都可以使用B*H的矩阵表示,作为模型下一部分的输入。
如图3所示,可选的,卷积神经网络包括卷积层、池化层和全连接层,将第一数据输入卷积神经网络得到第二数据包括:将第一数据作为卷积层的输入,利用卷积层对第一数据进行卷积运算,得到第一中间数据;将第一中间数据作为池化层的输入,利用池化层对第一中间数据进行特征采样,重到第二中间数据;将第二中间数据作为全连接层的输入,得到全连接层的输出作为第二数据。
在一个可选实施例中,采用CNN卷积层处理每条文本记录,生成多个维数不同的向量,作为后续池化层的输入。
可选的,对于二维矩阵X和W,将卷积神经网络中二维卷积定义如下式:
S(i,j)=(X*Y)(i,j)=∑m∑nx(i+m,j+n)y(m,n),
其中Y为卷积核,X则为输入,S矩阵为得到的卷积结果,s(i,j)为S矩阵的第i行第j列的元素。卷积层使用不同的卷积核,可以将所关注的“有价值信息”的不同特征提取出来。采用由一系列固定列宽、维度与词向量相同、高度分别为hk=2,3,4,5……的矩阵组成的卷积核Y对安全隐患文本集进行处理,处理的步长为1,第i次卷积运算表示文本集的矩阵中的第i行到第(i+hk-1)进行卷积运算。对每条文本记录,可使用高度为hk的卷积核进行卷积运算后生成维数为H-hk的向量,再将向量通过非线性激活函数的处理得到最终结果。每条文本记录经过卷积层,会生成多个维数不同的向量,作为后续池化层的输入。
可选地,采用CNN池化层生成多维向量,作为后续全连接层的输入。通过卷积获得特征之后,需利用这些特征去做分类。当用所有提取到的特征去训练分类器时,需要极高的计算量,并且容易出现过拟合。故可以计算某个特定特征(概要统计特征)的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度,同时不容易过拟合。这种操作就叫做池化。
在一个可选的实施例中,池化层的输入为一组维数不同的向量,代表了对应的文本记录中不同词语之间组合的特征值。对于每个向量,可采取最大池化的方式提取特征,即将每个向量中的最大值提取出来作为最后的特征,并将其组合成为一个新的多维向量(维度与卷积层的生成的向量个数相同),得到最后全连接层的输入。
可选的,采用CNN全连接层对输入的向量进行一次线性运算,最后将线性运算的结果经过激活函数,得到模型的输出。
全连接层的输入为池化层生成的多维向量,向量的每一维代表该条文本记录对应的某一尺度上的特征。最后的全连接层,相当于对输入的向量进行一次线性运算Ax+b。最后将线性运算的结果经过激活函数,得到的就是模型的输出。可取其中较大的值将其置1,较小的值置0。如果输出的第一维为1则代表该条隐患记录对应“有价值信息”,否则为“无价值信息”。
可选的,为确定需要的结果是否为典型隐患,采用一个二维向量表示,若第一个维度为1,则表示为典型隐患,若第二个维度为1,则表示非典型隐患,将其对应到全连接层的输出,故全连接层的输出包含两个神经元。
可选的,利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整包括:将第二数据作为安全隐患数据识别模型的输入,获取安全隐患数据识别模型的输出结果;对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩。
可选的,在利用第二数据对安全隐患数据识别模型进行训练之后,方法还包括:利用第二数据对训练后的安全隐患数据识别模型进行测试。
在一个可选的实施例中,模型的建立过程分为两个部分:训练和测试。在训练阶段,程序会对模型中的参数进行调整,不断优化损失函数(模型输出和实际结果的差距),分为正向传播和反向传播两部分:正向传播得到模型输出,再计算损失函数,最后利用反向传播,通过损失来调整模型中的参数。
反向传播是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。
反向传播要求对每个输入值想得到的已知输出,来计算损失函数梯度,是一种监督式学习方法,可将其用于卷积神经网络CNN的训练。它是多层前馈网络的Delta规则的推广,可以用链式法则对每层迭代计算梯度。反向传播要求人工神经元的激励函数可微。
用zi (l)表示第1层第i单元输入加权和,其表达式如下式所示:
其向量形式可表示如下:
z(l+1)=W(l)*a(l)+b(l)
a(l+1)=f(z(l+1))
这也就是正向传播模型,表示的是神经网络从输入获取输出的过程。
与之相反的是神经网络的正向传播模型。如图4所示,在一个可选的实施例中,设有一个包含m个样例的固定样本集{(x(1),y(1)),…,(x(m),y(m))},使用批量梯度下降法(BatchGradientDescent)来求解神经网络。具体地,单个样例(x,y),那么整体的代价函数表达式如下:
其中,J(W,b)表示优化目标,第一项是均方差项,第二项是一个正则化项,目的是减小权重的幅度,防止过拟合;n1为神经网络层数,s1为第(l)层神经元个数;梯度下降法中每次迭代都按照如下公式对(W,b)进行更新:
通过此方法,结合链式法则,反向将每层的参数更新,即可完成神经网络的训练。在一个可选的实施例中,其算法格式可以为:
输入:训练集学习率;
过程:
1)在(0,1)范围内随机初始化网络中所有连接权和阈值
2)repeat:
3)for all(xk,yk)∈D do
4)根据当前参数计算当前样本的输出;
5)计算输出层神经元的梯度项;
6)计算隐层神经元的梯度项;
7)更新连接权与阈值;
8)end for;
9)until达到停止条件.
在一个可选的实施例中,将已选出的典型隐患数据和非典型隐患数据输入模型进行训练,调试参数至合适状态。可选的,在对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩之前,方法还包括:利用专家诊断对安全隐患数据识别模型的输出结果进行调整。即:在安全隐患数据识别模型的输出结果基础上,采用专家诊断,利用模型对于该条隐患的预测值和专家对于该条隐患的标记,计算损失函数,并通过反向传播算法,反向逐层更新神经网络中的参数,完成对模型的训练。
下面以一个具体的实施例描述本发明的具体方法。
以某水电站为背景,采用本文的方法进行典型安全隐患的挖掘与分析,最终得到了较好的训练效果,达到了机器自动识别典型隐患的目的,相比于人工识别典型隐患,客观性更强,效率更高。
某水电站工程规模巨大,是一座以发电为主,兼有兼顾防洪、拦沙、航运等综合利用效益的特大型水利水电枢纽工程。该工程施工工期长,人员、设备流动性强,高风险作业项目点多面广,作业环境复杂多变,安全管理制度在贯彻和执行方面效率低,往往呈现管理层特别重视,安全制度逐层传达时效力递减。易将习惯性思维归至安全监督体系去实施落实,但往往由于实施力度不够导致安全管理效果不理想。因此急需提高安全管理工作的权威与效率,同时加强安全数据统计报送以及分析的能力,从安全数据中提高防范安全风险与隐患的能力,安全专项检查和日常检查要注重实效,避免流于形式。真正做到“我要自己安全、我不伤害他人、我要他人安全、他人要我安全”。
Wesafety平台是一款结合微信输入前端,整合后台云计算,为安全隐患排查治理提供隐患上报、排查、整改分析利用的实时在线供监管平台。该平台涵盖告警、流程管理、用户管理、报表、数据管理、日志管理、交互等七个模块。该平台可以通过简单操作,为一线人员隐患及时上报提供便利,同时系统内部成员可对隐患整改治理状况实时跟踪并评价。某电站应用该平台,已经积累了大量隐患数据和专业人员标识的那些可能造成事故的典型隐患数据。现场对依靠机器学习识别典型隐患的需求越来越大,利用卷积算法开展相应数据学习模型和挖掘方法,具有非常重要意义。
通过本发明构建的卷积神经网络模型进行机器学习,利用R语言中的中文文本工具包与NLPIR分词系统对已有七万多条隐患进行文本处理,然后让现场专业管理人员结合高频词汇与高权重词汇挑出典型隐患,进而通过对卷积神经网络进行模型训练。步骤如下,如图5所示:
1)利用Word2vec生成词向量空间;利用Word2vec工具包读取隐患数据文档,生成词向量空间,每个词均对应一个183维的向量,两个词的语义相似度通过向量间的距离表示。由此每个隐患语句对应一个矩阵,找出词语数目最大的句子设计矩阵,长度不足的句子矩阵的空白处设0。
2)在TensorFlow下搭建卷积神经网络,定义4类卷积核;利用TensorFlow搭建卷积神经网络,定义相关的输入参数,采用长度为183,宽度分别为2、3、4、5的四种卷积核对每个句子进行处理,
3)最大子采样法,输出最大特征值;卷积层的输出特征进入池化层,然后采用最大子采样法,捕捉池化层的最大特征值作为输出,由此每个句子将输出一个1×4的矩阵。
4)池化层生成的矩阵×W+b;对上述所得1×4的矩阵乘以一个4×2的矩阵W,再加上一个1×2的向量b,最终可得用来判断是否为典型隐患的1×2向量。其中矩阵W和向量b均通过训练现有的隐患语句所生成。
5)输入训练数据并调试参数;将已选出的典型隐患数据和非典型隐患数据输入模型进行训练,调试参数至合适状态,使计算机实现自动识别典型隐患的功能。
6)输入测试数据,统计结果;调试完成后,输入若干隐患数据至系统内,统计模型对隐患数据的识别结果并计算其准确率。
7)识别隐患数据;对系统内的所有隐患数据进行识别,测试其中典型隐患所占比例并与实际情况做比较分析。
结果分析与评价
利用现有的2000多条典型隐患和150多条非典型隐患,将它们各分为两份,随后输入1377条典型隐患语句和79条非典型隐患语句进行训练。待训练完成后,输入余下的1000条典型隐患和50条非典型隐患进行测试。
尽管目前样本集中元素数量较少,同时,目前训练数量有限,但是输出结果显示:在1000条典型隐患中,954条被识别为典型隐患,46条被识别为非典型隐患正确率为95%;在50条非典型隐患中,36条被识别为非典型隐患,14条被识别为典型隐患,正确率为72%。由此可知总体训练的效果较好,初步达到了机器智能识别典型隐患的目的,随着上报数量的增加,在后续的训练过程中会提高精确度与识别效率。
本发明基于卷积神经网络深度学习法,构建了工程现场数据挖掘与学习模型,结合某水电站的现场安全隐患数据,对施工安全管理问题中的典型隐患进行了学习与挖掘,包括:
1)构建了基于CNN模型的现场安全数据挖掘与学习方法和流程。
2)利用已有的2000多条典型隐患和150多条非典型隐患数据作为训练样本,典型隐患和非典型隐患测试正确率分别达到95%和72%,总体训练效果较好,初步达到了机器智能识别典型隐患的目的,随着上报数量的增加,在后续的训练过程中该模型有望进一步提高精确度与识别效率。
3)本发明提出的安全隐患机器学习挖掘法,可有效提高基础设施建设施工安全闭环管理的效率,为基础建设安全管理提供了一种思路。
根据本发明实施例,还提供一种安全隐患智能识别装置,如图6所示:包括:获取模块601,用于获取安全隐患数据集,安全隐患数据集包括多条安全隐患数据;数据处理模块602,用于对多条安全隐患数据进行数据处理,得到第一数据;卷积神经网络模块603,用于将第一数据输入卷积神经网络得到第二数据;训练模块604,用于利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整;识别模块605,用于利用训练后的安全隐患数据识别模型进行安全隐患的识别。
本发明的上述技术方案基于卷积神经网络CNN的典型安全隐患学习与挖掘模型,相比于传统的人工识别施工现场典型安全隐患的方法,具有以下优势:(1)效率高,识别时间更短;(2)准确度更高,客观性更强;(3)达到了机器自动识别典型安全隐患的目的,为智能安全管理提供了崭新的思路。
可选地,第一数据的数据形式为数据矩阵,数据处理模块包括:删除单元,用于去掉多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;分词单元,用于对由汉字组成的字符串进行分词处理,得到单词序列;生成单元,用于根据单词序列生成单词向量和由单词向量组成的矩阵,其中,将矩阵作为第一数据。
对多条安全隐患数据进行数据处理,目的在于将安全隐患数据集预处理成机器便于识别的形式。可选地,如图2所示,数据数理分为去除隐患文本中的非中文字符等,分词,生成词向量和/或向量矩阵三个步骤。在一个可选实施例中,可以采用jieba分词工具进行分词处理;再采用Word2Vec工具对整个文档的单词序列进行处理,以便每个单词可以用一个固定维度的向量表示,这样,一条文本记录就可以用一个B*h的矩阵表示,其中B为每个单词处理出来的向量的维度,h为该记录中包含的单词的个数,h为非定值,可选地,可以取H为h的最大值,小于H的记录,在后面用0补齐,此时所有的文本记录都可以使用B*H的矩阵表示,作为模型下一部分的输入。
可选地,卷积神经网络包括卷积层、池化层和全连接层,卷积神经网络模块包括:第一输入单元,用于将第一数据作为卷积层的输入,利用卷积层对第一数据进行卷积运算,得到第一中间数据;第二输入单元,用于将第一中间数据作为池化层的输入,利用池化层对第一中间数据进行特征采样,重到第二中间数据;第三输入单元,用于将第二中间数据作为全连接层的输入,得到全连接层的输出作为第二数据。
在一个可选实施例中,采用CNN卷积层处理每条文本记录,生成多个维数不同的向量,作为后续池化层的输入。
可选的,对于二维矩阵X和W,将卷积神经网络中二维卷积定义如下式:S(i,j)=(X*Y)(i,j)=∑m∑nx(i+m,j+n)y(m,n),
其中Y为卷积核,X则为输入,S矩阵为得到的卷积结果,s(i,j)为S矩阵的第i行第j列的元素。卷积层使用不同的卷积核,可以将所关注的“有价值信息”的不同特征提取出来。采用由一系列固定列宽、维度与词向量相同、高度分别为hk=2,3,4,5……的矩阵组成的卷积核Y对安全隐患文本集进行处理,处理的步长为1,第i次卷积运算表示文本集的矩阵中的第i行到第(i+hk-1)进行卷积运算。对每条文本记录,可使用高度为hk的卷积核进行卷积运算后生成维数为H-hk的向量,再将向量通过非线性激活函数的处理得到最终结果。每条文本记录经过卷积层,会生成多个维数不同的向量,作为后续池化层的输入。
可选地,采用CNN池化层生成多维向量,作为后续全连接层的输入。通过卷积获得特征之后,需利用这些特征去做分类。当用所有提取到的特征去训练分类器时,需要极高的计算量,并且容易出现过拟合。故可以计算某个特定特征(概要统计特征)的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度,同时不容易过拟合。这种操作就叫做池化。
在一个可选的实施例中,池化层的输入为一组维数不同的向量,代表了对应的文本记录中不同词语之间组合的特征值。对于每个向量,可采取最大池化的方式提取特征,即将每个向量中的最大值提取出来作为最后的特征,并将其组合成为一个新的多维向量(维度与卷积层的生成的向量个数相同),得到最后全连接层的输入。
可选的,采用CNN全连接层对输入的向量进行一次线性运算,最后将线性运算的结果经过激活函数,得到模型的输出。
全连接层的输入为池化层生成的多维向量,向量的每一维代表该条文本记录对应的某一尺度上的特征。最后的全连接层,相当于对输入的向量进行一次线性运算Ax+b。最后将线性运算的结果经过激活函数,得到的就是模型的输出。可取其中较大的值将其置1,较小的值置0。如果输出的第一维为1则代表该条隐患记录对应“有价值信息”,否则为“无价值信息”。
可选的,为确定需要的结果是否为典型隐患,采用一个二维向量表示,若第一个维度为1,则表示为典型隐患,若第二个维度为1,则表示非典型隐患,将其对应到全连接层的输出,故全连接层的输出包含两个神经元。
可选地,训练模块包括:获取单元,用于将第二数据作为安全隐患数据识别模型的输入,获取安全隐患数据识别模型的输出结果;第一调整单元,用于对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩。
可选地,装置还包括:测试模块,用于在利用第二数据对安全隐患数据识别模型进行训练之后,利用第二数据对训练后的安全隐患数据识别模型进行测试。
在一个可选的实施例中,模型的建立过程分为两个部分:训练和测试。在训练阶段,程序会对模型中的参数进行调整,不断优化损失函数(模型输出和实际结果的差距),分为正向传播和反向传播两部分:正向传播得到模型输出,再计算损失函数,最后利用反向传播,通过损失来调整模型中的参数。
反向传播是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。
反向传播要求对每个输入值想得到的已知输出,来计算损失函数梯度,是一种监督式学习方法,可将其用于卷积神经网络CNN的训练。它是多层前馈网络的Delta规则的推广,可以用链式法则对每层迭代计算梯度。反向传播要求人工神经元的激励函数可微。
在一个可选的实施例中,将已选出的典型隐患数据和非典型隐患数据输入模型进行训练,调试参数至合适状态。可选地,训练模块还包括:第二调整单元,用于在对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩之前,利用专家诊断对安全隐患数据识别模型的输出结果进行调整。即:在安全隐患数据识别模型的输出结果基础上,采用专家诊断,利用模型对于该条隐患的预测值和专家对于该条隐患的标记,计算损失函数,并通过反向传播算法,反向逐层更新神经网络中的参数,完成对模型的训练。
根据本发明实施例,还提供一种安全隐患智能识别装置,包括存储器和处理器:存储器,用于存储计算机程序;处理器,用于当执行计算机程序时,实现上述的安全隐患智能识别方法,包括:获取安全隐患数据集,安全隐患数据集包括多条安全隐患数据;对多条安全隐患数据进行数据处理,得到第一数据;将第一数据输入卷积神经网络得到第二数据;利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整;利用训练后的安全隐患数据识别模型进行安全隐患的识别。
可选的,第一数据的数据形式为数据矩阵,处理器执行计算机程序时还用于实现:对多条安全隐患数据进行数据处理,得到第一数据包括:去掉多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;对由汉字组成的字符串进行分词处理,得到单词序列;根据单词序列生成单词向量和由单词向量组成的矩阵,其中,将矩阵作为第一数据。
可选地,卷积神经网络包括卷积层、池化层和全连接层,处理器执行计算机程序时还用于实现:将第一数据作为卷积层的输入,利用卷积层对第一数据进行卷积运算,得到第一中间数据;将第一中间数据作为池化层的输入,利用池化层对第一中间数据进行特征采样,重到第二中间数据;将第二中间数据作为全连接层的输入,得到全连接层的输出作为第二数据。
可选地,处理器执行计算机程序时还用于实现:将第二数据作为安全隐患数据识别模型的输入,获取安全隐患数据识别模型的输出结果;对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩。
可选地,在对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩之前,处理器执行计算机程序时还用于实现:利用专家诊断对安全隐患数据识别模型的输出结果进行调整。
可选地,在利用第二数据对安全隐患数据识别模型进行训练之后,处理器执行计算机程序时还用于实现:利用第二数据对训练后的安全隐患数据识别模型进行测试。
根据本发明实施例,还提供了一种存储介质,存储介质上存储有计算机程序,当计算机程序被处理器执行时,实现上述的安全隐患智能识别方法,包括:获取安全隐患数据集,安全隐患数据集包括多条安全隐患数据;对多条安全隐患数据进行数据处理,得到第一数据;将第一数据输入卷积神经网络得到第二数据;利用第二数据对安全隐患数据识别模型进行训练,其中,安全隐患数据识别模型包括至少一个模型参数,通过训练对至少一个模型参数进行调整;利用训练后的安全隐患数据识别模型进行安全隐患的识别。
可选的,第一数据的数据形式为数据矩阵,当计算机程序被处理器执行时实现:对多条安全隐患数据进行数据处理,得到第一数据包括:去掉多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;对由汉字组成的字符串进行分词处理,得到单词序列;根据单词序列生成单词向量和由单词向量组成的矩阵,其中,将矩阵作为第一数据。
可选地,卷积神经网络包括卷积层、池化层和全连接层,当计算机程序被处理器执行时实现:将第一数据作为卷积层的输入,利用卷积层对第一数据进行卷积运算,得到第一中间数据;将第一中间数据作为池化层的输入,利用池化层对第一中间数据进行特征采样,重到第二中间数据;将第二中间数据作为全连接层的输入,得到全连接层的输出作为第二数据。
可选地,当计算机程序被处理器执行时实现:将第二数据作为安全隐患数据识别模型的输入,获取安全隐患数据识别模型的输出结果;对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩。
可选地,在对至少一个模型参数进行调整,以减小输出结果与实际结果的差矩之前,当计算机程序被处理器执行时实现:利用专家诊断对安全隐患数据识别模型的输出结果进行调整。
可选地,在利用第二数据对安全隐患数据识别模型进行训练之后,当计算机程序被处理器执行时实现:利用第二数据对训练后的安全隐患数据识别模型进行测试。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种安全隐患智能识别方法,其特征在于,所述方法包括:
获取安全隐患数据集,所述安全隐患数据集包括多条安全隐患数据;
对所述多条安全隐患数据进行数据处理,得到第一数据;
将所述第一数据输入卷积神经网络得到第二数据;
利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整;
利用训练后的所述安全隐患数据识别模型进行安全隐患的识别。
2.根据权要求1所述的安全隐患智能识别方法,其特征在于,所述第一数据的数据形式为数据矩阵,对所述多条安全隐患数据进行数据处理,得到第一数据包括:
去掉所述多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;
对所述由汉字组成的字符串进行分词处理,得到单词序列;
根据所述单词序列生成单词向量和由所述单词向量组成的矩阵,其中,将所述矩阵作为所述第一数据。
3.根据权要求2所述的安全隐患智能识别方法,其特征在于,所述卷积神经网络包括卷积层、池化层和全连接层,将所述第一数据输入卷积神经网络得到第二数据包括:
将所述第一数据作为所述卷积层的输入,利用所述卷积层对所述第一数据进行卷积运算,得到第一中间数据;
将所述第一中间数据作为所述池化层的输入,利用所述池化层对所述第一中间数据进行特征采样,重到第二中间数据;
将所述第二中间数据作为所述全连接层的输入,得到所述全连接层的输出作为所述第二数据。
4.根据权要求2所述的安全隐患智能识别方法,其特征在于,利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整包括:
将所述第二数据作为所述安全隐患数据识别模型的输入,获取所述安全隐患数据识别模型的输出结果;
对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩。
5.根据权要求4所述的安全隐患智能识别方法,其特征在于,在对所述至少一个模型参数进行调整,以减小所述输出结果与实际结果的差矩之前,所述方法还包括:
利用专家诊断对所述安全隐患数据识别模型的输出结果进行调整。
6.根据权要求1所述的安全隐患智能识别方法,其特征在于,在利用所述第二数据对安全隐患数据识别模型进行训练之后,所述方法还包括:
利用所述第二数据对训练后的所述安全隐患数据识别模型进行测试。
7.一种安全隐患智能识别装置,其特征在于,所述装置包括:
获取模块,用于获取安全隐患数据集,所述安全隐患数据集包括多条安全隐患数据;
数据处理模块,用于对所述多条安全隐患数据进行数据处理,得到第一数据;
卷积神经网络模块,用于将所述第一数据输入卷积神经网络得到第二数据;
训练模块,用于利用所述第二数据对安全隐患数据识别模型进行训练,其中,所述安全隐患数据识别模型包括至少一个模型参数,通过所述训练对所述至少一个模型参数进行调整;
识别模块,用于利用训练后的所述安全隐患数据识别模型进行安全隐患的识别。
8.根据权要求7所述的安全隐患智能识别装置,其特征在于,所述第一数据的数据形式为数据矩阵,所述数据处理模块包括:
删除单元,用于去掉所述多条安全隐患数据中的非中文字符串,得到由汉字组成的字符串;
分词单元,用于对所述由汉字组成的字符串进行分词处理,得到单词序列;
生成单元,用于根据所述单词序列生成单词向量和由所述单词向量组成的矩阵,其中,将所述矩阵作为所述第一数据。
9.一种安全隐患智能识别装置,其特征在于,包括存储器和处理器:
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1-6任一项所述的安全隐患智能识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的安全隐患智能识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185069.9A CN110069773A (zh) | 2019-03-12 | 2019-03-12 | 一种安全隐患智能识别方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185069.9A CN110069773A (zh) | 2019-03-12 | 2019-03-12 | 一种安全隐患智能识别方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110069773A true CN110069773A (zh) | 2019-07-30 |
Family
ID=67366240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910185069.9A Pending CN110069773A (zh) | 2019-03-12 | 2019-03-12 | 一种安全隐患智能识别方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069773A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583592A (zh) * | 2020-05-06 | 2020-08-25 | 哈尔滨工业大学 | 一种基于多维卷积神经网络的实验环境安全预警方法 |
CN114219687A (zh) * | 2021-11-02 | 2022-03-22 | 三峡大学 | 融合人机视觉的施工安全隐患智能识别方法 |
WO2022082453A1 (en) * | 2020-10-20 | 2022-04-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for transportation service related safety issues detection based on machine learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292298A (zh) * | 2017-08-09 | 2017-10-24 | 北方民族大学 | 基于卷积神经网络和分类器模型的牛脸识别方法 |
CN108021806A (zh) * | 2017-11-24 | 2018-05-11 | 北京奇虎科技有限公司 | 一种恶意安装包的识别方法和装置 |
CN108846476A (zh) * | 2018-07-13 | 2018-11-20 | 电子科技大学 | 一种基于卷积神经网络的智能终端安全等级分类方法 |
CN109413028A (zh) * | 2018-08-29 | 2019-03-01 | 集美大学 | 基于卷积神经网络算法的sql注入检测方法 |
-
2019
- 2019-03-12 CN CN201910185069.9A patent/CN110069773A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292298A (zh) * | 2017-08-09 | 2017-10-24 | 北方民族大学 | 基于卷积神经网络和分类器模型的牛脸识别方法 |
CN108021806A (zh) * | 2017-11-24 | 2018-05-11 | 北京奇虎科技有限公司 | 一种恶意安装包的识别方法和装置 |
CN108846476A (zh) * | 2018-07-13 | 2018-11-20 | 电子科技大学 | 一种基于卷积神经网络的智能终端安全等级分类方法 |
CN109413028A (zh) * | 2018-08-29 | 2019-03-01 | 集美大学 | 基于卷积神经网络算法的sql注入检测方法 |
Non-Patent Citations (1)
Title |
---|
谢斌红等: "煤矿安全隐患信息自动分类方法", 《工矿自动化》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583592A (zh) * | 2020-05-06 | 2020-08-25 | 哈尔滨工业大学 | 一种基于多维卷积神经网络的实验环境安全预警方法 |
WO2022082453A1 (en) * | 2020-10-20 | 2022-04-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for transportation service related safety issues detection based on machine learning |
CN114219687A (zh) * | 2021-11-02 | 2022-03-22 | 三峡大学 | 融合人机视觉的施工安全隐患智能识别方法 |
CN114219687B (zh) * | 2021-11-02 | 2024-06-14 | 三峡大学 | 融合人机视觉的施工安全隐患智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069773A (zh) | 一种安全隐患智能识别方法、装置以及存储介质 | |
CN107239529A (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN108022001A (zh) | 基于pca和分位数回归森林的短期负荷概率密度预测方法 | |
CN107403191A (zh) | 一种具有深度结构的半监督超限学习机分类方法 | |
CN109948668A (zh) | 一种多模型融合方法 | |
Montalbo et al. | Classification of fish species with augmented data using deep convolutional neural network | |
CN109886349A (zh) | 一种基于多模型融合的用户分类方法 | |
CN101751438A (zh) | 自适应语义驱动的主题网页过滤系统 | |
CN104239897A (zh) | 一种基于自编码器词袋的视觉特征表示方法 | |
CN110516098A (zh) | 基于卷积神经网络及二进制编码特征的图像标注方法 | |
CN107871183A (zh) | 基于不确定性云理论的多年冻土区公路病害预测方法 | |
Al-Andoli et al. | Deep autoencoder-based community detection in complex networks with particle swarm optimization and continuation algorithms | |
Su | Analysis of optimisation method for online education data mining based on big data assessment technology | |
Ni et al. | An improved attention-based bidirectional LSTM model for cyanobacterial bloom prediction | |
CN110363384A (zh) | 基于深度加权神经网络的异常用电检测方法 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
Ma et al. | Review and comparison of the demand analysis methods of maritime emergency resources | |
CN117150232B (zh) | 一种大模型非时序训练数据质量评价方法 | |
Jagetia et al. | Visual transformer for soil classification | |
CN113129188A (zh) | 一种基于人工智能大数据的省级教育教学评估系统 | |
CN114818681B (zh) | 一种实体识别方法及系统、计算机可读存储介质及终端 | |
CN112541080B (zh) | 基于深度学习的新媒体账号标签智能校验方法 | |
CN114169535A (zh) | 一种基于群体智能的工业物联网数据平台的异常检测算法 | |
Wang et al. | Text categorization rule extraction based on fuzzy decision tree | |
Lu et al. | The decision tree application in agricultural development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |