CN110046664A

CN110046664A - 一种油田安全突出问题检测方法

Info

Publication number: CN110046664A
Application number: CN201910305672.6A
Authority: CN
Inventors: 孙致学; 姜宝胜; 张凯; 徐杨; 谢爽; 黄勇; 何楚翘
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-23

Abstract

本发明涉及一种油田安全突出问题检测方法，该方法搜集大量油田安全问题的案例建立语料库；然后从语料库选取一定文本建立建训练样本集，对建训练样本集中的文本进行训练，建立油田安全突出问题检测模型；使用油田安全突出问题检测模型对待测油田安全突出问题进行预测，计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果。该检测方法利用已知数据训练经理预测模型，使用时，只需将待测油田安全突出问题输入预测模型即可，操作过程简单，更重要的是对工作人员的要求低，预测结果受操作人员的干扰小。

Description

一种油田安全突出问题检测方法

技术领域

本发明涉及油田安全检测技术领域，特别涉及一种基于自然语言的油田安全突出问题检测方法，具体涉及基于三层贝叶斯概率模型的油田安全突出问题检测方法。

背景技术

油田企业大多地处偏远，距离市区的路程较长，施工作业现场的人员流动性较大，气候因素、地质条件和水文情况都较为复杂，同时工程项目所需要的施工工艺复杂，每个工序之间的衔接环节比较多，时常需要多个工种之间进行交叉作业，而且所处环境存在油、气等易挥发和燃烧的物质，施工现场存在的各类风险较多，直接威胁着施工作业人员的生命安全。因此及时找出安全隐患是保证施工顺利进行、安全开采的重要基础。目前油田安全检测还处于起步阶段，常用检测方法主要有：

(1)安全检查方法

通过把系统剖析，确定各层次不安全因素再进行检查，以提问的方式把检查项目按系统的组成顺序编制成表，来找出系统中的不安全因素的方法被称为安全检查方法，这是最早应用的一种安全评价法。

(2)预先危险分析方法

预先危险分析法是指在每项生产活动之前，特别是在设计的开始阶段，对系统存在危险类别、出现条件、事故后果等进行概略地分析，尽可能评价出潜在的危险性。

(3)安全检查表方法

安全检查表方法指在评价过程中，为了查找项目中各层次的不安全因素，把检查项目按系统的组成顺序划分为个子系统，编制成表，这种表称为安全检查表。在评价过程中，以逐项计分的形式，将检查项目列表检查，避免遗漏，这种方法称为安全检查表法。

(4)故障假设分析方法

故障假设分析方法是通过提问的方式来检查发现事故隐患。故障假设方法一般要求用“如果存在…问题，可能造成…后果”为开始，对项目评价进行考虑。

以上方法不仅需要工作人员对工艺流程熟悉，具有丰富的专业性经验，而且操作复杂，耗时高，受工作人员水平影响较大。

发明内容

针对现有技术存在的上述问题，本发明的目的是提供一种操作简单，预测准确性不受工作人员水平影响的油田安全突出问题检测方法。

为实现上述目的，本发明采用如下技术方案：一种油田安全突出问题检测方法，包括如下步骤：

S100:搜集大量油田安全问题的案例，建立语料库D，预料库D中的每个案例均采用本领域技术词汇进行描述，并提取特征词；

定义：一系列相关的特征词构成一个主题，一个主题即代表一类油田安全突出问题；

S200：建立油田安全突出问题检测模型：选取语料库D中一部分数据构建训练样本集，另一部数据作为测试样本集；

采用三层贝叶斯概率模型对训练样本集中的数据进行训练，构建油田安全突出问题检测模型，然后再采用测试样本集中数据进行测试，并根据测试结果修正油田安全突出问题检测模型；

S300：待测油田安全突出问题预测，将待测油田安全突出问题输入所述油田安全突出问题检测模型中，计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果，该预测结果即为待测油田安全突出问题的预测结果，输出该预测结果

作为改进，所述S100中语料库D中的每个案例，先通过正则表达式清洗，再提取特征词，最后将提取出的特征词存入一个TXT格式的文本中。对文本文件进行预处理，格式统一，方便后续计算。

作为改进，所述S300待测油田安全突出问题预测步骤为：

S301：将一个待测油田安全突出问题，通过正则表达式清洗，提取特征词，最后将提取出的特征词存入一个TXT格式的文本中，该TXT格式的文本定义为待测文档；

S302：将待测文档输入所述油田安全突出问题检测模型中，计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果。判断待检测文档的突出安全问题。

作为改进，所述S200中建立油田安全突出问题检测模型的包括如下步骤：

S201：从语料数据库D中随机选取80％的数据构建训练样本集；

所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词；

S202：α是K维向量表示主题的先验分布的参数，β是K×V的矩阵，表示主题词的分布参数V＝N，β_ij表示第i个主题中第j个主题词w_j的概率，β_ij＝p(w_j|z_i),S表示迭代次数；

1)令s＝1；

2)在经验范围内对α和β随机赋值，采用Gibbs吉布斯抽样采样法近似求解θ和Φ；

3)初始化，为每个特征词x_t随机分配主题，z_i是表示i个主题，将z_i初始化为1到K之间的一个随机整数，i＝1,2,...K，此为Markov链的初始态；

4)令i＝1；

5)令d＝1；

6)令t＝1；

7)根据公式(2)计算第i个特征词x_t属于第j个主题的概率：

其中，表示当前词w_i在已知其他词各自所属主题的条件下,该词属于主题k的概率,n_i-1表示为第k个主题下第i个单词个数减去1，n_k-1表示为该文档第k个主题的个数减去1，表示练样本集中，除了特征词w_i，分配为第k个主题的所有特征词的数量，表示练样本集中，除了词汇w_i，所有分配了主题的特征词的数量；

记录n^(w) _k、n^(d) _k、n^(·) _k和n^(d)；

表示特征词x_t分配给第i个主题的次数,n^(·) _i表示分配给主题i的特征词数,n^(d) _i表示文本d中分配给主题i的特征词数，n^(d)表示文本d中所有分配了主题的特征词数；

8)当t≤N时，令t＝t+1，并返回6)；否则执行下一步；

9)令d＝d+1；

10)当d≤M时，返回5)，否则执行下一步；

11)令i＝i+1

12)当i≤T时，返回4)；否则执行下一步；

13)采用公式(3)和公式(4)计算分别计算θ和Φ；

其中，其中，θ^(d) _z＝k表示是在主题k下对应的文本—主题分布，Φ^(z＝k) _w表示主题k下对应的主题一词分布；

14)令s＝s+1；

15)如果s≤S，则返回2)，否则输出所有α和β的值；

S203：从语料数据库D中随机选取20％的数据构建测试样本集，所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词，利用公式(1)：

计算每个测试样本属于建训练样本集中每个主题的测试概率，并记录计算时对应的α和β的值，针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题；

最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值；

S204:油田安全突出问题检测模型如公式(5)：

其中，p(z_j|x₁,x₂,x₃,...,x_n)表示特征词(x₁,x₂,....,x_n)同时出现时，包含(x₁,x₂,....,x_n)的文档属于主题z_j的概率，p(z_j)表示训练文本集中，属于主题z_j的文本占总文本数的比率，p(x₁,x₂,....,x_n|z_j)表示待分类文本属于主题z_j时，该文本所包括特征词(x₁,x₂,....,x_n)的概率；

p(x₁,x₂,...,x_n)是常数，求解公式(5)等价于求解公式(6)；

C＝arg max p(x₁,x₂,....,x_n|z_j)p(z_j) (6)；

根据贝叶斯假设，文本特征向量x₁,x₂,....,x_n独立同分布,其联合概率分布等于各个属性特征概率分布的乘积，公式(6)等价于公式(7)；

C＝arg max p(z_j)∏_ip(x_i|z_j) (7)；

其中，M(C＝z_j)表示训练文本中属于z_j类别的样本数量，M表示训练样本总数量；

T(X_i＝x_i,C＝z_j)表示类别z_j中包含属性x_i的练样本数量，T(C＝z_j)表示主题z_j中的训练样本数量，Q表示训练样本集合中经过去除无用词后关键词的数量。

作为改进，所述S300待测油田安全突出问题预测包括如下步骤：

S302：设定预测阈值，然后将待测文档输入所述油田安全突出问题检测模型中，计算出该待测文档对应的各个主题的概率值,选取最大概率值；

S303：当选取的最大概率值大于阈值时，则选取最大概率值所对应的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果，输出预测结果；

当选取的最大概率值小于或等于阈值时，则进行下一步；

S304：所述最大概率值所对应的主题作为待测文档的初次预测值，然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本，将修正后待测文本输入到所述油田安全突出问题检测模型中，计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值，并返回S303。扩充特征词集，提升检测效果。

相对于现有技术，本发明至少具有如下优点：

本发明提供的油田安全突出问题检测方法利用已知数据训练经理预测模型，使用时，只需将待测油田安全突出问题输入预测模型即可，操作过程简单，更重要的是对工作人员的要求低，预测结果受操作人员的干扰小。检测速度快，能够充分利用油田生产过程中记录的文本数据，挖掘安全问题中的潜在关联,快速检测海量文档，大大的提高了安全问题的检测效率，同时方法具有普适性，结果可用性高,模型易于更新。

附图说明

图1三层贝叶斯概率模型示意图；

图2基于自然语言的油田安全突出问题检测方法流程图；

图3某油田现场记录原始文本；

图4经油田安全突出问题检测模型后的结果示意图

具体实施方式

下面对本发明作进一步详细说明。

参见图1-图4，一种油田安全突出问题检测方法，包括如下步骤：

S100:建立语料库D

S101:搜集大量油田安全问题的案例；

具体实施时，可以先对油田安全问题的案例进行筛选，去掉极小概率油田安全问题的案例；

S102:每个案例采用本领域技术词汇进行描述，描述案例数据的事故属性信息，然后通过正则表达式清洗，去除无关字符，提取特征词，最后将提取出的特征词存入一个TXT格式的文本中；

S103:对S101收集的所有油田安全问题的案例均进行S102的处理，得到与每个案例对应的TXT格式文本，所有TXT格式文本构成语料数据库D，提取语料数据库D中每个TXT格式文本对应的主题；

例如：

主题1：[蒸汽砂眼管线法兰漏前有]

主题2：[坏炉压力表润滑油泵安全阀清理]

S200：建立油田安全突出问题检测模型

S201：从语料数据库D中随机选取80％的数据构建训练样本集；对训练样本数据利用三层贝叶斯概率模型建立油田安全突出问题检测模型；

如图1所示，圆圈为空心状态表示该变量为隐含变量，实心状态表示可观察变量，线表示条件概率依赖，方框表示重复次数。

K维向量α是主题的先验分布的参数，K×V的矩阵β是主题词的分布参数(V为词的总数)即β_ij＝p(w_j|z_i)等于第i个主题中主题词w_j的概率，那么生成一个文档的主题分布、再生成N个主题、进而得到这篇文档的N个特征词的概率可以表示为：

对含有M篇文档的语料库D有则可以得到：

S202：α是K维向量表示主题的先验分布的参数，β是K×V的矩阵，表示主题词的分布参数V＝N，β_ij表示第i个主题中第j个主题词w_j的概率，β_ij＝p(w_j|z_i),S表示迭代次数；文档中若干个主题，每个主题又有好几个主题词，意思是文档中的第i个主题中的第j个主题词可以理解成这个主题词在文档中的标号位置，例如一个教室有i行，每一行有j个座位。就可通过i和j表示出教室里每个座位的位置；

1)令s＝1；

4)令i＝1；

5)令d＝1；

6)令t＝1；

7)根据公式(2)计算第i个特征词x_t属于第j个主题的概率：

其中，表示当前词w_i在已知其他词各自所属主题的条件下,该词属于主题k的概率,表示w_i为这个词在k号主题下的概率,表示第k个主题在该篇文档里的概率，n_i-1表示为第k个主题下第i个单词个数减去1，n_k-1表示为该文档第k个主题的个数减去1，表示练样本集中，除了特征词w_i，分配为第k个主题的所有特征词的数量，表示练样本集中，除了词汇w_i，所有分配了主题的特征词的数量；

记录n^(w) _k、n^(d) _k、n^(·) _k和n^(d)；

8)当t≤N时，令t＝t+1，并返回6)；否则执行下一步；

9)令d＝d+1；

10)当d≤M时，返回5)，否则执行下一步；

11)令i＝i+1

12)当i≤T时，返回4)；否则执行下一步；

13)采用公式(3)和公式(4)计算分别计算θ和Φ；θ是文本—主题分布专有名词，可以理解成像正态分布这种分布规律θ^(d) _z＝k是在主题k下对应的文本—主题分布，Φ：主题一词分布专有名词，Φ^(z＝k) _w在主题k下对应的主题一词分布；

14)令s＝s+1；

15)如果s≤S，则返回2)，否则输出所有α和β的值；

S204:油田安全突出问题检测模型如公式(5)：

p(x₁,x₂,...,x_n)是常数，求解公式(5)等价于求解公式(6)；

C＝arg max p(x₁,x₂,....,x_n|z_j)p(z_j) (6)；

C＝arg max p(z_j)∏_ip(x_i|z_j) (7)；

由于p(x₁,x₂,...,x_n)是常数，模型分类结果为(5)式中概率最大的类别，(5)等价于求解p(x₁,x₂,....,x_n|z_j)p(z_j)的最大值，即C＝arg max p(x₁,x₂,....,x_n|z_j)p(z_j) (6)

又根据贝叶斯假设，文本特征向量x₁,x₂,....,^x _n独立同分布,其联合概率分布等于各个属性特征概率分布的乘积。式(6)的求解等价于C＝arg max p(z_j)∏_ip(x_i|z_j) (7)即为所求的用于判断安全问题的分类函数。其中p(z_j)等于M(C＝z_j)表示训练文本中属于z_j主题的样本数量，T表示训练样本总数量。T(X_i＝x_i,C＝z_j)表示类别z_j中包含属性x_i的练样本数量。T(C＝z_j)表示类别z_j中的训练样本数量，Q表示训练样本集合中经过去除无用词后关键词的数量。注(z_j)是受前面Φ和θ影响的；

S300：待测油田安全突出问题预测

S302：将待测文档输入所述油田安全突出问题检测模型中，计算出该待测文档对应的各个主题的概率值，每个主题对应一个安全问题,选取概率值最大的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果。

当选取的最大概率值小于或等于阈值时，则进行下一步；

S304：所述最大概率值所对应的主题作为待测文档的初次预测值，然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本，将修正后待测文本输入到所述油田安全突出问题检测模型中，计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值，并返回S303。

具体Y可取10-15，即可取该初次预测值所对应的主题中的所有特征词的10、11、12、13、14或15个词加入至待测文本中得到修正后待测文本，即使新加入的特征词与待测文本中原有的特征词有重复也没关系。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种油田安全突出问题检测方法，其特征在于,包括如下步骤：

S300：待测油田安全突出问题预测，将待测油田安全突出问题输入所述油田安全突出问题检测模型中，计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果，该预测结果即为待测油田安全突出问题的预测结果，输出该预测结果。

2.如权利要求1所述的油田安全突出问题检测方法，其特征在于,所述S100中语料库D中的每个案例，先通过正则表达式清洗，再提取特征词，最后将提取出的特征词存入一个TXT格式的文本中。

3.如权利要求2所述的油田安全突出问题检测方法，其特征在于,所述S300待测油田安全突出问题预测步骤为：

S302：将待测文档输入所述油田安全突出问题检测模型中，计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果。

4.如权利要求1所述的油田安全突出问题检测方法，其特征在于,所述S200中建立油田安全突出问题检测模型的包括如下步骤：

S201：从语料数据库D中随机选取80％的数据构建训练样本集；

1)令s＝1；

4)令i＝1；

5)令d＝1；

6)令t＝1；

7)根据公式(2)计算第i个特征词x_t属于第j个主题的概率：

记录n^(w) _k、n^(d) _k、n^(·) _k和n^(d)；

8)当t≤N时，令t＝t+1，并返回6)；否则执行下一步；

9)令d＝d+1；

10)当d≤M时，返回5)，否则执行下一步；

11)令i＝i+1

12)当i≤T时，返回4)；否则执行下一步；

13)采用公式(3)和公式(4)计算分别计算θ和Φ；

14)令s＝s+1；

15)如果s≤S，则返回2)，否则输出所有α和β的值；

S204:油田安全突出问题检测模型如公式(5)：

p(x₁,x₂,...,x_n)是常数，求解公式(5)等价于求解公式(6)；

C＝arg max p(x₁,x₂,....,x_n|z_j)p(z_j) (6)；

C＝arg max p(z_j)∏_ip(x_i|z_j) (7)；

5.如权利要求4所述的油田安全突出问题检测方法，其特征在于,所述S300待测油田安全突出问题预测包括如下步骤：

当选取的最大概率值小于或等于阈值时，则进行下一步；