CN110046664A - 一种油田安全突出问题检测方法 - Google Patents

一种油田安全突出问题检测方法 Download PDF

Info

Publication number
CN110046664A
CN110046664A CN201910305672.6A CN201910305672A CN110046664A CN 110046664 A CN110046664 A CN 110046664A CN 201910305672 A CN201910305672 A CN 201910305672A CN 110046664 A CN110046664 A CN 110046664A
Authority
CN
China
Prior art keywords
topic
safety
text
detected
oil field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910305672.6A
Other languages
English (en)
Inventor
孙致学
姜宝胜
张凯
徐杨
谢爽
黄勇
何楚翘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910305672.6A priority Critical patent/CN110046664A/zh
Publication of CN110046664A publication Critical patent/CN110046664A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种油田安全突出问题检测方法,该方法搜集大量油田安全问题的案例建立语料库;然后从语料库选取一定文本建立建训练样本集,对建训练样本集中的文本进行训练,建立油田安全突出问题检测模型;使用油田安全突出问题检测模型对待测油田安全突出问题进行预测,计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果。该检测方法利用已知数据训练经理预测模型,使用时,只需将待测油田安全突出问题输入预测模型即可,操作过程简单,更重要的是对工作人员的要求低,预测结果受操作人员的干扰小。

Description

一种油田安全突出问题检测方法
技术领域
本发明涉及油田安全检测技术领域,特别涉及一种基于自然语言的油田安全突出问题检测方法,具体涉及基于三层贝叶斯概率模型的油田安全突出问题检测方法。
背景技术
油田企业大多地处偏远,距离市区的路程较长,施工作业现场的人员流动性较大,气候因素、地质条件和水文情况都较为复杂,同时工程项目所需要的施工工艺复杂,每个工序之间的衔接环节比较多,时常需要多个工种之间进行交叉作业,而且所处环境存在油、气等易挥发和燃烧的物质,施工现场存在的各类风险较多,直接威胁着施工作业人员的生命安全。因此及时找出安全隐患是保证施工顺利进行、安全开采的重要基础。目前油田安全检测还处于起步阶段,常用检测方法主要有:
(1)安全检查方法
通过把系统剖析,确定各层次不安全因素再进行检查,以提问的方式把检查项目按系统的组成顺序编制成表,来找出系统中的不安全因素的方法被称为安全检查方法,这是最早应用的一种安全评价法。
(2)预先危险分析方法
预先危险分析法是指在每项生产活动之前,特别是在设计的开始阶段,对系统存在危险类别、出现条件、事故后果等进行概略地分析,尽可能评价出潜在的危险性。
(3)安全检查表方法
安全检查表方法指在评价过程中,为了查找项目中各层次的不安全因素,把检查项目按系统的组成顺序划分为个子系统,编制成表,这种表称为安全检查表。在评价过程中,以逐项计分的形式,将检查项目列表检查,避免遗漏,这种方法称为安全检查表法。
(4)故障假设分析方法
故障假设分析方法是通过提问的方式来检查发现事故隐患。故障假设方法一般要求用“如果存在…问题,可能造成…后果”为开始,对项目评价进行考虑。
以上方法不仅需要工作人员对工艺流程熟悉,具有丰富的专业性经验,而且操作复杂,耗时高,受工作人员水平影响较大。
发明内容
针对现有技术存在的上述问题,本发明的目的是提供一种操作简单,预测准确性不受工作人员水平影响的油田安全突出问题检测方法。
为实现上述目的,本发明采用如下技术方案:一种油田安全突出问题检测方法,包括如下步骤:
S100:搜集大量油田安全问题的案例,建立语料库D,预料库D中的每个案例均采用本领域技术词汇进行描述,并提取特征词;
定义:一系列相关的特征词构成一个主题,一个主题即代表一类油田安全突出问题;
S200:建立油田安全突出问题检测模型:选取语料库D中一部分数据构建训练样本集,另一部数据作为测试样本集;
采用三层贝叶斯概率模型对训练样本集中的数据进行训练,构建油田安全突出问题检测模型,然后再采用测试样本集中数据进行测试,并根据测试结果修正油田安全突出问题检测模型;
S300:待测油田安全突出问题预测,将待测油田安全突出问题输入所述油田安全突出问题检测模型中,计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出该预测结果
作为改进,所述S100中语料库D中的每个案例,先通过正则表达式清洗,再提取特征词,最后将提取出的特征词存入一个TXT格式的文本中。对文本文件进行预处理,格式统一,方便后续计算。
作为改进,所述S300待测油田安全突出问题预测步骤为:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果。判断待检测文档的突出安全问题。
作为改进,所述S200中建立油田安全突出问题检测模型的包括如下步骤:
S201:从语料数据库D中随机选取80%的数据构建训练样本集;
所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词;
S202:α是K维向量表示主题的先验分布的参数,β是K×V的矩阵,表示主题词的分布参数V=N,βij表示第i个主题中第j个主题词wj的概率,βij=p(wj|zi),S表示迭代次数;
1)令s=1;
2)在经验范围内对α和β随机赋值,采用Gibbs吉布斯抽样采样法近似求解θ和Φ;
3)初始化,为每个特征词xt随机分配主题,zi是表示i个主题,将zi初始化为1到K之间的一个随机整数,i=1,2,...K,此为Markov链的初始态;
4)令i=1;
5)令d=1;
6)令t=1;
7)根据公式(2)计算第i个特征词xt属于第j个主题的概率:
其中,表示当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率,ni-1表示为第k个主题下第i个单词个数减去1,nk-1表示为该文档第k个主题的个数减去1,表示练样本集中,除了特征词wi,分配为第k个主题的所有特征词的数量,表示练样本集中,除了词汇wi,所有分配了主题的特征词的数量;
记录n(w) k、n(d) k、n(·) k和n(d)
表示特征词xt分配给第i个主题的次数,n(·) i表示分配给主题i的特征词数,n(d) i表示文本d中分配给主题i的特征词数,n(d)表示文本d中所有分配了主题的特征词数;
8)当t≤N时,令t=t+1,并返回6);否则执行下一步;
9)令d=d+1;
10)当d≤M时,返回5),否则执行下一步;
11)令i=i+1
12)当i≤T时,返回4);否则执行下一步;
13)采用公式(3)和公式(4)计算分别计算θ和Φ;
其中,其中,θ(d) z=k表示是在主题k下对应的文本—主题分布,Φ(z=k) w表示主题k下对应的主题一词分布;
14)令s=s+1;
15)如果s≤S,则返回2),否则输出所有α和β的值;
S203:从语料数据库D中随机选取20%的数据构建测试样本集,所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词,利用公式(1):
计算每个测试样本属于建训练样本集中每个主题的测试概率,并记录计算时对应的α和β的值,针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题;
最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值;
S204:油田安全突出问题检测模型如公式(5):
其中,p(zj|x1,x2,x3,...,xn)表示特征词(x1,x2,....,xn)同时出现时,包含(x1,x2,....,xn)的文档属于主题zj的概率,p(zj)表示训练文本集中,属于主题zj的文本占总文本数的比率,p(x1,x2,....,xn|zj)表示待分类文本属于主题zj时,该文本所包括特征词(x1,x2,....,xn)的概率;
p(x1,x2,...,xn)是常数,求解公式(5)等价于求解公式(6);
C=arg max p(x1,x2,....,xn|zj)p(zj) (6);
根据贝叶斯假设,文本特征向量x1,x2,....,xn独立同分布,其联合概率分布等于各个属性特征概率分布的乘积,公式(6)等价于公式(7);
C=arg max p(zj)∏ip(xi|zj) (7);
其中,M(C=zj)表示训练文本中属于zj类别的样本数量,M表示训练样本总数量;
T(Xi=xi,C=zj)表示类别zj中包含属性xi的练样本数量,T(C=zj)表示主题zj中的训练样本数量,Q表示训练样本集合中经过去除无用词后关键词的数量。
作为改进,所述S300待测油田安全突出问题预测包括如下步骤:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:设定预测阈值,然后将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取最大概率值;
S303:当选取的最大概率值大于阈值时,则选取最大概率值所对应的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出预测结果;
当选取的最大概率值小于或等于阈值时,则进行下一步;
S304:所述最大概率值所对应的主题作为待测文档的初次预测值,然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本,将修正后待测文本输入到所述油田安全突出问题检测模型中,计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值,并返回S303。扩充特征词集,提升检测效果。
相对于现有技术,本发明至少具有如下优点:
本发明提供的油田安全突出问题检测方法利用已知数据训练经理预测模型,使用时,只需将待测油田安全突出问题输入预测模型即可,操作过程简单,更重要的是对工作人员的要求低,预测结果受操作人员的干扰小。检测速度快,能够充分利用油田生产过程中记录的文本数据,挖掘安全问题中的潜在关联,快速检测海量文档,大大的提高了安全问题的检测效率,同时方法具有普适性,结果可用性高,模型易于更新。
附图说明
图1三层贝叶斯概率模型示意图;
图2基于自然语言的油田安全突出问题检测方法流程图;
图3某油田现场记录原始文本;
图4经油田安全突出问题检测模型后的结果示意图
具体实施方式
下面对本发明作进一步详细说明。
参见图1-图4,一种油田安全突出问题检测方法,包括如下步骤:
S100:建立语料库D
S101:搜集大量油田安全问题的案例;
具体实施时,可以先对油田安全问题的案例进行筛选,去掉极小概率油田安全问题的案例;
S102:每个案例采用本领域技术词汇进行描述,描述案例数据的事故属性信息,然后通过正则表达式清洗,去除无关字符,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中;
S103:对S101收集的所有油田安全问题的案例均进行S102的处理,得到与每个案例对应的TXT格式文本,所有TXT格式文本构成语料数据库D,提取语料数据库D中每个TXT格式文本对应的主题;
定义:一系列相关的特征词构成一个主题,一个主题即代表一类油田安全突出问题;
例如:
主题1:[蒸汽 砂眼 管线 法兰 漏 前 有]
主题2:[坏 炉 压力表 润滑油 泵 安全阀 清理]
S200:建立油田安全突出问题检测模型
S201:从语料数据库D中随机选取80%的数据构建训练样本集;对训练样本数据利用三层贝叶斯概率模型建立油田安全突出问题检测模型;
如图1所示,圆圈为空心状态表示该变量为隐含变量,实心状态表示可观察变量,线表示条件概率依赖,方框表示重复次数。
所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词;
K维向量α是主题的先验分布的参数,K×V的矩阵β是主题词的分布参数(V为词的总数)即βij=p(wj|zi)等于第i个主题中主题词wj的概率,那么生成一个文档的主题分布、再生成N个主题、进而得到这篇文档的N个特征词的概率可以表示为:
对含有M篇文档的语料库D有则可以得到:
S202:α是K维向量表示主题的先验分布的参数,β是K×V的矩阵,表示主题词的分布参数V=N,βij表示第i个主题中第j个主题词wj的概率,βij=p(wj|zi),S表示迭代次数;文档中若干个主题,每个主题又有好几个主题词,意思是文档中的第i个主题中的第j个主题词可以理解成这个主题词在文档中的标号位置,例如一个教室有i行,每一行有j个座位。就可通过i和j表示出教室里每个座位的位置;
1)令s=1;
2)在经验范围内对α和β随机赋值,采用Gibbs吉布斯抽样采样法近似求解θ和Φ;
3)初始化,为每个特征词xt随机分配主题,zi是表示i个主题,将zi初始化为1到K之间的一个随机整数,i=1,2,...K,此为Markov链的初始态;
4)令i=1;
5)令d=1;
6)令t=1;
7)根据公式(2)计算第i个特征词xt属于第j个主题的概率:
其中,表示当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率,表示wi为这个词在k号主题下的概率,表示第k个主题在该篇文档里的概率,ni-1表示为第k个主题下第i个单词个数减去1,nk-1表示为该文档第k个主题的个数减去1,表示练样本集中,除了特征词wi,分配为第k个主题的所有特征词的数量,表示练样本集中,除了词汇wi,所有分配了主题的特征词的数量;
记录n(w) k、n(d) k、n(·) k和n(d)
表示特征词xt分配给第i个主题的次数,n(·) i表示分配给主题i的特征词数,n(d) i表示文本d中分配给主题i的特征词数,n(d)表示文本d中所有分配了主题的特征词数;
8)当t≤N时,令t=t+1,并返回6);否则执行下一步;
9)令d=d+1;
10)当d≤M时,返回5),否则执行下一步;
11)令i=i+1
12)当i≤T时,返回4);否则执行下一步;
13)采用公式(3)和公式(4)计算分别计算θ和Φ;θ是文本—主题分布专有名词,可以理解成像正态分布这种分布规律θ(d) z=k是在主题k下对应的文本—主题分布,Φ:主题一词分布专有名词,Φ(z=k) w在主题k下对应的主题一词分布;
其中,其中,θ(d) z=k表示是在主题k下对应的文本—主题分布,Φ(z=k) w表示主题k下对应的主题一词分布;
14)令s=s+1;
15)如果s≤S,则返回2),否则输出所有α和β的值;
S203:从语料数据库D中随机选取20%的数据构建测试样本集,所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词,利用公式(1):
计算每个测试样本属于建训练样本集中每个主题的测试概率,并记录计算时对应的α和β的值,针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题;
最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值;
S204:油田安全突出问题检测模型如公式(5):
其中,p(zj|x1,x2,x3,...,xn)表示特征词(x1,x2,....,xn)同时出现时,包含(x1,x2,....,xn)的文档属于主题zj的概率,p(zj)表示训练文本集中,属于主题zj的文本占总文本数的比率,p(x1,x2,....,xn|zj)表示待分类文本属于主题zj时,该文本所包括特征词(x1,x2,....,xn)的概率;
p(x1,x2,...,xn)是常数,求解公式(5)等价于求解公式(6);
C=arg max p(x1,x2,....,xn|zj)p(zj) (6);
根据贝叶斯假设,文本特征向量x1,x2,....,xn独立同分布,其联合概率分布等于各个属性特征概率分布的乘积,公式(6)等价于公式(7);
C=arg max p(zj)∏ip(xi|zj) (7);
其中,M(C=zj)表示训练文本中属于zj类别的样本数量,M表示训练样本总数量;
T(Xi=xi,C=zj)表示类别zj中包含属性xi的练样本数量,T(C=zj)表示主题zj中的训练样本数量,Q表示训练样本集合中经过去除无用词后关键词的数量。
由于p(x1,x2,...,xn)是常数,模型分类结果为(5)式中概率最大的类别,(5)等价于求解p(x1,x2,....,xn|zj)p(zj)的最大值,即C=arg max p(x1,x2,....,xn|zj)p(zj) (6)
又根据贝叶斯假设,文本特征向量x1,x2,....,x n独立同分布,其联合概率分布等于各个属性特征概率分布的乘积。式(6)的求解等价于C=arg max p(zj)∏ip(xi|zj) (7)即为所求的用于判断安全问题的分类函数。其中p(zj)等于M(C=zj)表示训练文本中属于zj主题的样本数量,T表示训练样本总数量。T(Xi=xi,C=zj)表示类别zj中包含属性xi的练样本数量。T(C=zj)表示类别zj中的训练样本数量,Q表示训练样本集合中经过去除无用词后关键词的数量。注(zj)是受前面Φ和θ影响的;
S300:待测油田安全突出问题预测
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,每个主题对应一个安全问题,选取概率值最大的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果。
作为改进,所述S300待测油田安全突出问题预测包括如下步骤:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:设定预测阈值,然后将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取最大概率值;
S303:当选取的最大概率值大于阈值时,则选取最大概率值所对应的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出预测结果;
当选取的最大概率值小于或等于阈值时,则进行下一步;
S304:所述最大概率值所对应的主题作为待测文档的初次预测值,然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本,将修正后待测文本输入到所述油田安全突出问题检测模型中,计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值,并返回S303。
具体Y可取10-15,即可取该初次预测值所对应的主题中的所有特征词的10、11、12、13、14或15个词加入至待测文本中得到修正后待测文本,即使新加入的特征词与待测文本中原有的特征词有重复也没关系。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种油田安全突出问题检测方法,其特征在于,包括如下步骤:
S100:搜集大量油田安全问题的案例,建立语料库D,预料库D中的每个案例均采用本领域技术词汇进行描述,并提取特征词;
定义:一系列相关的特征词构成一个主题,一个主题即代表一类油田安全突出问题;
S200:建立油田安全突出问题检测模型:选取语料库D中一部分数据构建训练样本集,另一部数据作为测试样本集;
采用三层贝叶斯概率模型对训练样本集中的数据进行训练,构建油田安全突出问题检测模型,然后再采用测试样本集中数据进行测试,并根据测试结果修正油田安全突出问题检测模型;
S300:待测油田安全突出问题预测,将待测油田安全突出问题输入所述油田安全突出问题检测模型中,计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出该预测结果。
2.如权利要求1所述的油田安全突出问题检测方法,其特征在于,所述S100中语料库D中的每个案例,先通过正则表达式清洗,再提取特征词,最后将提取出的特征词存入一个TXT格式的文本中。
3.如权利要求2所述的油田安全突出问题检测方法,其特征在于,所述S300待测油田安全突出问题预测步骤为:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果。
4.如权利要求1所述的油田安全突出问题检测方法,其特征在于,所述S200中建立油田安全突出问题检测模型的包括如下步骤:
S201:从语料数据库D中随机选取80%的数据构建训练样本集;
所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词;
S202:α是K维向量表示主题的先验分布的参数,β是K×V的矩阵,表示主题词的分布参数V=N,βij表示第i个主题中第j个主题词wj的概率,βij=p(wj|zi),S表示迭代次数;
1)令s=1;
2)在经验范围内对α和β随机赋值,采用Gibbs吉布斯抽样采样法近似求解θ和Φ;
3)初始化,为每个特征词xt随机分配主题,zi是表示i个主题,将zi初始化为1到K之间的一个随机整数,i=1,2,...K,此为Markov链的初始态;
4)令i=1;
5)令d=1;
6)令t=1;
7)根据公式(2)计算第i个特征词xt属于第j个主题的概率:
其中,表示当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率,ni-1表示为第k个主题下第i个单词个数减去1,nk-1表示为该文档第k个主题的个数减去1,表示练样本集中,除了特征词wi,分配为第k个主题的所有特征词的数量,表示练样本集中,除了词汇wi,所有分配了主题的特征词的数量;
记录n(w) k、n(d) k、n(·) k和n(d)
表示特征词xt分配给第i个主题的次数,n(·) i表示分配给主题i的特征词数,n(d) i表示文本d中分配给主题i的特征词数,n(d)表示文本d中所有分配了主题的特征词数;
8)当t≤N时,令t=t+1,并返回6);否则执行下一步;
9)令d=d+1;
10)当d≤M时,返回5),否则执行下一步;
11)令i=i+1
12)当i≤T时,返回4);否则执行下一步;
13)采用公式(3)和公式(4)计算分别计算θ和Φ;
其中,其中,θ(d) z=k表示是在主题k下对应的文本—主题分布,Φ(z=k) w表示主题k下对应的主题一词分布;
14)令s=s+1;
15)如果s≤S,则返回2),否则输出所有α和β的值;
S203:从语料数据库D中随机选取20%的数据构建测试样本集,所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词,利用公式(1):
计算每个测试样本属于建训练样本集中每个主题的测试概率,并记录计算时对应的α和β的值,针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题;
最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值;
S204:油田安全突出问题检测模型如公式(5):
其中,p(zj|x1,x2,x3,...,xn)表示特征词(x1,x2,....,xn)同时出现时,包含(x1,x2,....,xn)的文档属于主题zj的概率,p(zj)表示训练文本集中,属于主题zj的文本占总文本数的比率,p(x1,x2,....,xn|zj)表示待分类文本属于主题zj时,该文本所包括特征词(x1,x2,....,xn)的概率;
p(x1,x2,...,xn)是常数,求解公式(5)等价于求解公式(6);
C=arg max p(x1,x2,....,xn|zj)p(zj) (6);
根据贝叶斯假设,文本特征向量x1,x2,....,xn独立同分布,其联合概率分布等于各个属性特征概率分布的乘积,公式(6)等价于公式(7);
C=arg max p(zj)∏ip(xi|zj) (7);
其中,M(C=zj)表示训练文本中属于zj类别的样本数量,M表示训练样本总数量;
T(Xi=xi,C=zj)表示类别zj中包含属性xi的练样本数量,T(C=zj)表示主题zj中的训练样本数量,Q表示训练样本集合中经过去除无用词后关键词的数量。
5.如权利要求4所述的油田安全突出问题检测方法,其特征在于,所述S300待测油田安全突出问题预测包括如下步骤:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:设定预测阈值,然后将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取最大概率值;
S303:当选取的最大概率值大于阈值时,则选取最大概率值所对应的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出预测结果;
当选取的最大概率值小于或等于阈值时,则进行下一步;
S304:所述最大概率值所对应的主题作为待测文档的初次预测值,然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本,将修正后待测文本输入到所述油田安全突出问题检测模型中,计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值,并返回S303。
CN201910305672.6A 2019-04-16 2019-04-16 一种油田安全突出问题检测方法 Withdrawn CN110046664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910305672.6A CN110046664A (zh) 2019-04-16 2019-04-16 一种油田安全突出问题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910305672.6A CN110046664A (zh) 2019-04-16 2019-04-16 一种油田安全突出问题检测方法

Publications (1)

Publication Number Publication Date
CN110046664A true CN110046664A (zh) 2019-07-23

Family

ID=67277425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910305672.6A Withdrawn CN110046664A (zh) 2019-04-16 2019-04-16 一种油田安全突出问题检测方法

Country Status (1)

Country Link
CN (1) CN110046664A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN109455197A (zh) * 2018-12-19 2019-03-12 暨南大学 轨道几何参数高精度检测方法和轨道几何参数高精度检测车

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN109455197A (zh) * 2018-12-19 2019-03-12 暨南大学 轨道几何参数高精度检测方法和轨道几何参数高精度检测车

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张聪俊等: "民航不安全事件安全隐患自动识别方法研究", 《第一届空中交通管理系统技术学术年会论文集》 *

Similar Documents

Publication Publication Date Title
Parra et al. A methodology for the classification of quality of requirements using machine learning techniques
Ahrends et al. Conservation and the botanist effect
CN110162478B (zh) 一种基于缺陷报告的缺陷代码路径定位方法
CN111930903A (zh) 基于深度日志序列分析的系统异常检测方法及系统
CN106030589A (zh) 使用开源数据的疾病预测系统
CN109614501A (zh) 一种基于知识图谱的工业隐患规范化上报方法及系统
Boubekeur et al. Automatic assessment of students' software models using a simple heuristic and machine learning
EP3608802A1 (en) Model variable candidate generation device and method
US20040194036A1 (en) Automated evaluation of overly repetitive word use in an essay
CN104281525A (zh) 一种缺陷数据分析方法及利用其缩减软件测试项目的方法
US11636418B2 (en) Currency reduction for predictive human resources synchronization rectification
CN104699614A (zh) 一种软件缺陷组件预测的方法
CN118411059B (zh) 一种高校业务数据处理方法、系统、介质及设备
Islam et al. Sentiment analysis of software bug related commit messages
Mello et al. Towards automatic content analysis of rhetorical structure in brazilian college entrance essays
Brito et al. Subjective machines: Probabilistic risk assessment based on deep learning of soft information
CN117873839A (zh) 复杂算力系统的故障检测方法、装置、设备和存储介质
Rahman et al. An automated approach for answer script evaluation using natural language processing
Dascalu et al. ASAP-an advanced system for assessing chat participants
CN112579583A (zh) 一种面向事实检测的证据与声明联合抽取方法
Saetia et al. Data-driven approach to equipment taxonomy classification
Murakami On the sample size required to identify the longitudinal L2 development of complexity and accuracy indices
CN110046664A (zh) 一种油田安全突出问题检测方法
Singh et al. Validation of inspection reviews over variable features set threshold
Shafiei et al. Challenges classification in search-based refactoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190723

WW01 Invention patent application withdrawn after publication