CN115186778A - 一种基于文本分析的承压类特种设备隐患识别方法及终端 - Google Patents
一种基于文本分析的承压类特种设备隐患识别方法及终端 Download PDFInfo
- Publication number
- CN115186778A CN115186778A CN202211110192.2A CN202211110192A CN115186778A CN 115186778 A CN115186778 A CN 115186778A CN 202211110192 A CN202211110192 A CN 202211110192A CN 115186778 A CN115186778 A CN 115186778A
- Authority
- CN
- China
- Prior art keywords
- pressure
- risk
- data
- special equipment
- unqualified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000007689 inspection Methods 0.000 claims abstract description 51
- 238000009434 installation Methods 0.000 claims description 27
- 238000004519 manufacturing process Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013102 re-test Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 231100001267 hazard identification Toxicity 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000012797 qualification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Manufacturing & Machinery (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种基于文本分析的承压类特种设备隐患识别方法及终端,包括:S1,构建承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应数据表;S2,获取检验记录数据、设备档案数据,提取出设备关键参数与检验不合格项数据;S3,计算不合格描述关键词的词频‑逆文本频率,计算各不合格描述关键词的余弦距离,构建承压类特种设备风险隐患识别分析模型输入表;S4,根据输入表各条数据计算各条数据余弦距离的数学期望,并与设备、部件关联后循环进行聚类,其中K值取设定范围,对模型输入数据进行聚类,并采用指标兰德系数对比选择出最优聚类模型;S5,找出存在中风险和高风险隐患的承压类特种设备;S6,形成输出结果。
Description
技术领域
本发明涉及设备检测技术领域,特别涉及一种基于文本分析的承压类特种设备隐患识别方法及终端。
背景技术
承压类特种设备在工业生产中发挥重要作用,其安全问题在工业化发展的重要性日益凸显,风险管理作为保障承压类特种设备生产安全的重要手段之一,也在日益受到监管部门的重视。
现有技术在承压类特种设备监管领域,以往承压类特种设备安全生产监管主要以人工方式为主,难以做到全覆盖,对少数存在风险隐患的承压类特种设备,极有可能出现疏漏,目前尚未很好地应用已成熟的大数据分析技术,对该技术的应用较为空白。
发明内容
本发明所要解决的技术问题是:提供一种基于文本分析的承压类特种设备隐患识别方法及终端,能识别存在风险隐患的承压类特种设备。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于文本分析的承压类特种设备隐患识别方法,包括步骤:
S1,构建承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应的数据表;
S2,获取检验记录数据和设备档案数据,结合两种数据并从中提取出设备关键参数与检验不合格项数据;
S3,计算各部件和设备整体的不合格描述关键词的词频-逆文本频率,计算各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表;
S4,根据所述承压类特种设备风险隐患识别分析模型输入表中的各条数据计算各条数据余弦距离的数学期望,并与设备和部件关联后循环应用K-medoids方法进行聚类,其中K值取设定范围,对模型输入数据中的余弦距离进行聚类,并采用指标兰德系数对比选择出最优聚类模型;
S5,对比分析最优聚类模型中各类不合格描述关联的部件和关键词在风险分类等级规则对应的数据表中对应的风险等级,找出存在中风险和高风险隐患的承压类特种设备;
S6,读取中风险和高风险隐患承压类特种设备包括基本技术参数、安装区域、制造单位、使用单位和检验日期在内的信息,形成输出结果。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种基于文本分析的承压类特种设备隐患识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明的有益效果在于:一种基于文本分析的承压类特种设备隐患识别方法及终端,从文本描述中识别存在中高风险隐患的承压类特种设备,为承压类特种设备检验检测结果风险分类体系的构建提供支撑,能识别存在风险隐患的承压类特种设备,为监察机构提供精准的区域性的承压类特种设备本体缺陷中风险和高风险提醒,从而为承压类特种设备检验与安全监管工作提供标靶,实现智慧监管的目的。
附图说明
图1为本发明实施例的一种基于文本分析的承压类特种设备隐患识别方法的流程示意图;
图2为本发明实施例涉及的词频-逆文本频率矩阵图;
图3为本发明实施例涉及的存在中风险和高风险隐患的承压类特种设备清单;
图4为本发明实施例涉及的存在中风险和高风险隐患锅炉的安装区域分布图;
图5为本发明实施例涉及的存在中风险和高风险隐患锅炉的制造单位分布图;
图6为本发明实施例涉及的存在中风险和高风险隐患压力容器的安装区域分布图;
图7本发明实施例涉及的为存在中风险和高风险隐患压力容器的制造单位分布图;
图8为本发明实施例的一种基于文本分析的承压类特种设备隐患识别终端的结构示意图;
标号说明:
1、一种基于文本分析的承压类特种设备隐患识别终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1至图7:
一种基于文本分析的承压类特种设备隐患识别方法,包括步骤:
S1,构建承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应的数据表;
S2,获取检验记录数据和设备档案数据,结合两种数据并从中提取出设备关键参数与检验不合格项数据;
S3,计算各部件和设备整体的不合格描述关键词的词频-逆文本频率,计算各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表;
S4,根据所述承压类特种设备风险隐患识别分析模型输入表中的各条数据计算各条数据余弦距离的数学期望,并与设备和部件关联后循环应用K-medoids方法进行聚类,其中K值取设定范围,对模型输入数据的余弦距离进行聚类,并采用指标兰德系数对比选择出最优聚类模型;
S5,对比分析最优聚类模型中各类不合格描述关联的部件和关键词在风险分类等级规则对应的数据表中对应的风险等级,找出存在中风险和高风险隐患的承压类特种设备;
S6,读取中风险和高风险隐患承压类特种设备包括基本技术参数、安装区域、制造单位、使用单位和检验日期在内的信息,形成输出结果。
由上述描述可知,本发明的有益效果在于:一种基于文本分析的承压类特种设备隐患识别方法及终端,从文本描述中识别存在中高风险隐患的承压类特种设备,为承压类特种设备检验检测结果风险分类体系的构建提供支撑,能识别存在风险隐患的承压类特种设备,为监察机构提供精准的区域性的承压类特种设备本体缺陷中风险和高风险提醒,从而为承压类特种设备检验与安全监管工作提供标靶,实现智慧监管的目的。
进一步地,所述步骤S2包括以下步骤:
S21,过滤删除复检合格与复检不合格记录;
S22,提取检验记录中包括不合格的设备号、检验ID、安装区域和设备类别的关键参数数据与检验不合格项数据。
由上述描述可知,实现对于复检数据的筛除和对于检验不合格项数据的提取。
进一步地,所述步骤S3包括以下步骤:
S31,以检验发现的隐患部件为单位细分设备的检验不合格项数据,记为表A;
S32,建立承压类检验的专业术语词典D1和包含特殊字符、数字以及与承压类设备检验无关词汇的停用词词典D2;
S33,运用自然语言处理技术的分词技术,结合D1,以词语为单位,对表A进行分词,并根据D2过滤删除表A中所包含的停用词,形成不合格描述关键词表,记为表B;
S34,计算表B中各不合格描述关键词的词频TF;
S35,计算表B中各不合格描述关键词的逆文本频率IDF;
S36,根据步骤S34计算的词频TF和步骤S35计算的逆文本频率IDF计算表B中各不合格描述关键词的词频-逆文本频率;
S37,计算表B中各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表,记为表C。
由上述描述可知,实现对于词频、逆文本频率、词频-逆文本频率以及余弦距离的计算,对于进一步的分析提供依据。
进一步地,所述步骤S4包括以下步骤:
S41,对输入表C每条输入数据计算余弦距离的数学期望,并关联设备的安装区域、使用单位等基本参数和部件数据,记为表D;
S42,采用基于K-medoids算法,以表D作为模型输入表,K值取值取设定范围,得到多个聚类细分结果表;
S43,在表D添加聚类标签字段,记录每次聚类结果的类标签值;
S44,计算各个聚类细分结果表的兰德系数值,利用指标值为越大,细分结果越好的方法判断其细分度;
S45,根据兰德系数,选取聚类最优K值,作为最优聚类结果。
进一步地,所述K值取值具体为2-6。
由上述描述可知,给出了K值的取值范围。
进一步地,所述步骤S5包括以下步骤:
S51,提取各不合格描述的部件和关键词数据与风险分类等级规则对应的数据表进行匹配,并记录各不合格描述的风险等级;
S52,筛选出风险等级为中风险和高风险的不合格描述以及对应的设备ID和检验ID,形成存在中风险和高风险隐患的承压类特种设备清单。
进一步地,所述步骤S6包括以下步骤:
S61,根据存在中风险和高风险隐患的承压类特种设备清单,关联设备关键参数数据,读取包括中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、检验日期在内的信息,形成输出结果表;
S62,根据输出结果,统计分析中风险和高风险隐患承压类特种设备的安装区域、制造单位、隐患部件等信息的分布特征。
由上述描述可知,实现对中风险和高风险隐患承压类特种设备的基本情况分析。
一种基于文本分析的承压类特种设备隐患识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明应用于承压类特种设备检修中,对于承压类特种设备隐患的自动识别与分析。
请参照图1至图7,本发明的实施例一为:
一种基于文本分析的承压类特种设备隐患识别方法,其包括如下步骤:
S1,构建承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应的数据表;
本实施例中,所述承压类特种设备包括锅炉、压力容器和压力管道等。
S2,获取检验记录数据和设备档案数据,结合两种数据并从中提取出设备关键参数与检验不合格项数据;
具体而言,所述步骤S2具体包括如下步骤:
S21,过滤删除复检合格与复检不合格记录;
S22,提取检验记录中包括不合格的设备号、检验ID、安装区域和设备类别的关键参数数据与检验不合格项数据。
S3,计算各部件和设备整体的不合格描述关键词的词频-逆文本频率,计算各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表;
具体而言,所述步骤S3具体包括如下步骤:
S31,以检验发现的隐患部件为单位细分设备的检验不合格项数据,记为表A,如检验数据1的不合格项包含3个隐患部件,则将检验数据1的不合格项数据细分为3条数据,每条数据对应1个隐患部件;
S32,建立承压类检验的专业术语词典D1和包含特殊字符、数字以及与承压类设备检验无关词汇的停用词词典D2;
S33,运用自然语言处理技术的分词技术,结合D1,以词语为单位,对表A进行分词,并根据D2过滤删除表A中所包含的停用词,形成不合格描述关键词表,记为表B,如对于表A的数据1,运用自然语言处理技术,结合D1,将数据1拆分为10个词语、数字和特殊符号,再根据D2过滤数据1拆分结果中所包含的停用词,数据1在表B中的不合格描述关键词为8个词语;
S34,计算表B中各不合格描述关键词的词频TF,如表B的数据1的词语1的词频TF为词语1在数据1中出现的次数除以数据1中所有词语出现次数之和;
S35,计算表B中各不合格描述关键词的逆文本频率IDF,如表B的数据1的词语1的逆文本频率IDF为表B的数据总数与(1+包含词语1的数据数)比例的对数;
S36,根据步骤S34计算的词频TF和步骤S35计算的逆文本频率IDF计算表B中各不合格描述关键词的词频-逆文本频率,如表B的数据1的词语1的词频-逆文本频率为词语1的词频TF与逆文本频率IDF之间的乘积;
S37,计算表B中各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表,记为表C,如表B的数据1在表C中分为词频-逆文本频率和余弦距离两部分,其中词频-逆文本频率是由每个词语在数据1的词频-逆文本频率合并构成,余弦距离为与其他数据的词频-逆文本频率之间的夹角余弦值。
S4,根据承压类特种设备风险隐患识别分析模型输入表各条数据计算各条数据余弦距离的数学期望,并与设备和部件关联后循环应用K-medoids方法进行聚类,其中K值取2-6,对模型输入数据的余弦距离进行聚类,并采用指标兰德系数对比选择出最优聚类模型;
具体而言,所述步骤S4具体包括如下步骤:
S41,对输入表C每条输入数据计算余弦距离的数学期望,并关联设备的安装区域、使用单位等基本参数、部件数据,记为表D,如对表C的数据1通过计算数据1的余弦距离的均值获得数学期望,并通过检验ID关联检验记录所属设备的安装区域、使用单位等基本参数、部件数据;
S42,采用基于K-medoids算法,以表D作为模型输入表,K值取值尝试取2-6,形成聚2类、聚3类、……聚6类细分结果表;
S43,在表D添加聚类标签字段,记录每次聚类结果的类标签值,如根据聚2类、聚3类、……聚6类细分结果表,表D的数据1分为类1、类2、……类3,则数据1共有6个聚类标签字段,分别对应聚2类、聚3类、……聚6类的所属类别1、2、……3,便于后续分类别对比分析每类不合格描述关键词所在的风险等级情况;
S44,计算各个聚类细分结果表的兰德系数值,利用指标值为越大,细分结果越好的方法判断其细分度;
S45,根据兰德系数,选取聚类最优K值,作为最优聚类结果。
S5,对比分析最优聚类模型中各类不合格描述关联的部件、关键词在风险分类等级规则对应的数据表中对应的风险等级,找出存在中风险和高风险隐患的承压类特种设备;
具体而言,所述步骤S5具体包括如下步骤:
S51,提取各不合格描述的部件和关键词数据与风险分类等级规则对应的数据表进行匹配,并记录各不合格描述的风险等级;
S52,筛选出风险等级为中风险和高风险的不合格描述以及对应的设备ID、检验ID,形成存在中风险和高风险隐患的承压类特种设备清单。
S6,读取中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、使用单位、检验日期等信息,形成输出结果。
具体而言,所述步骤S6具体包括如下步骤:
S61,根据存在中风险和高风险隐患的承压类特种设备清单,关联设备关键参数数据,读取中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、检验日期等信息,形成输出结果表;
S62,根据输出结果,统计分析中风险和高风险隐患承压类特种设备的安装区域、制造单位、隐患部件等信息的分布特征。
实施例二:
本实施例对应实施例一提供一具体运用场景:
步骤S1、构建锅炉、压力容器、压力管道等承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应数据表;
步骤S2、获取2021年8-12月承压类特种设备检验记录数据、设备档案数据,结合两种数据并提取出设备关键参数与检验不合格项数据;
其具体包括:
步骤S21、过滤删除2021年8-12月的复检合格与复检不合格记录;
步骤S22、提取检验记录为不合格的设备号、检验ID、安装区域、设备类别等关键参数数据与检验不合格项数据。
步骤S3、计算各部件或整体不合格描述关键词的词频-逆文本频率,计算各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表;
其具体包括:
步骤S31、以检验发现隐患部件为单位细分设备的检验不合格项数据,记为表A;
步骤S32、建立承压类检验的专业术语词典D1和包含特殊字符、数字以及与承压类设备检验无关词汇的停用词词典D2;
步骤S33、运用自然语言处理技术的分词技术,结合D1,以词语为单位,对表A进行分词,并根据D2过滤删除表A中所包含的停用词,形成不合格描述关键词表,记为表B;
步骤S34、计算表B中各不合格描述关键词的词频TF;
步骤S35、计算表B中各不合格描述关键词的逆文本频率IDF;
步骤S36、计算表B中各不合格描述关键词的词频-逆文本频率;如计算2021年8-12月承压类特种设备的不合格描述关键词表的各不合格描述的词频-逆文本频率,形成词频-逆文本频率矩阵,参见图2;
步骤S37、计算表B中各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建2021年8-12月承压类特种设备风险隐患识别分析模型输入表,记为表C。
步骤S4、对输入表各条数据计算各条数据余弦距离的数学期望,并与设备和部件关联后循环应用K-medoids方法进行聚类,其中K值取2-6,对模型输入数据的余弦距离进行聚类,并采用指标兰德系数对比选择出最优聚类模型;
其具体包括:
步骤S41、对输入表C每条输入数据计算余弦距离的数学期望,并关联安装区域、使用单位等基本参数、部件数据,记为表D;
步骤S42、采用基于K-medoids算法,以表D作为模型输入表,K值取值尝试取2-6,形成聚2类、聚3类、……聚6类细分结果表;
步骤S43、在表D添加聚类标签字段,记录每次聚类结果的类标签值;
步骤S44、计算模型细分结果聚2类-聚6类的兰德系数值,利用指标值为越大,细分结果越好的方法判断其细分度;
步骤S45、根据兰德系数,选取聚类最优K值,作为最优聚类结果。如:根据兰德系数指标结果,选取结果为聚6类最优,分别记为0类、1类、……5类。
步骤S5、对比分析最优聚类模型中各类不合格描述关联的部件、关键词在风险分类等级规则对应的数据表中对应的风险等级,找出存在中风险和高风险隐患的承压类特种设备;
其具体包括:
步骤S51、提取各不合格描述的部件和关键词数据与风险分类等级规则对应的数据表进行匹配,并记录各不合格描述的风险等级;
步骤S52、筛选出风险等级为中风险和高风险的不合格描述以及对应的设备ID、检验ID,形成存在中风险和高风险隐患的承压类特种设备清单。如:共筛选出存在中风险和高风险隐患的承压类特种设备147台(套),其中锅炉51台,压力容器96台(套),并形成存在中风险和高风险隐患的承压类特种设备清单,参见图3。
步骤S6、读取中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、使用单位、检验日期等信息,形成输出结果;
步骤S61、根据存在中风险和高风险隐患的承压类特种设备清单,关联设备关键参数数据,读取中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、检验日期等信息,形成输出结果表;
步骤S62、根据输出结果,统计分析中风险和高风险隐患承压类特种设备的安装区域、制造单位、隐患部件等信息的分布特征。如分析2021年8-12月存在中风险和高风险隐患的51台锅炉在安装区域、制造单位和主要隐患部件的分布特点,安装区域、制造单位分布参见图4、图5,主要的隐患部件分布如下表1所示;分析2021年8-12月存在中风险和高风险隐患的96台(套)压力容器在安装区域、制造单位和主要隐患部件的分布,安装区域、制造单位分布参见图6、图7,主要的隐患部件分布如表2所示。
表1中风险和高风险锅炉的主要隐患部件
表2中风险和高风险压力容器的主要隐患部件
综上所述,本发明以承压类特种设备不合格项的文本描述和设备的关键参数为分析主体,应用自然语言处理技术和K-medoids算法等大数据分析技术,构建承压类特种设备风险隐患识别分析模型,用数据分析找出存在中风险和高风险隐患的承压类特种设备,并读取存在中风险和高风险隐患特种设备的基本技术参数、安装区域、制造单位、使用单位、检验日期等信息形成输出结果,为承压类特种设备故障分析提供支撑,为监管机构提供精准的区域性的承压类特种设备本体缺陷中风险和高风险提醒,从而为承压类特种设备检验与安全监管工作提供标靶,实现智慧监管目的。
请参照图8,本发明的实施例三为:
一种基于文本分析的承压类特种设备隐患识别终端1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,处理器2执行计算机程序时实现上述实施例一的步骤。
综上所述,本发明提供的一种基于文本分析的承压类特种设备隐患识别方法及终端,从文本描述中识别存在中高风险隐患的承压类特种设备,为承压类特种设备检验检测结果风险分类体系的构建提供支撑,能识别存在风险隐患的承压类特种设备,为监察机构提供精准的区域性的承压类特种设备本体缺陷中风险和高风险提醒,从而为承压类特种设备检验与安全监管工作提供标靶,实现智慧监管的目的。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,包括步骤:
S1,构建承压类特种设备检验发现隐患部件、关键词与风险分类等级规则对应的数据表;
S2,获取检验记录数据和设备档案数据,结合两种数据并从中提取出设备关键参数与检验不合格项数据;
S3,计算各部件和设备整体的不合格描述关键词的词频-逆文本频率,计算各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表;
S4,根据所述承压类特种设备风险隐患识别分析模型输入表中的各条数据计算各条数据余弦距离的数学期望,并与设备和部件关联后循环应用K-medoids方法进行聚类,其中K值取设定范围,对模型输入数据的余弦距离进行聚类,并采用指标兰德系数对比选择出最优聚类模型;
S5,对比分析最优聚类模型中各类不合格描述关联的部件和关键词在风险分类等级规则对应的数据表中对应的风险等级,找出存在中风险和高风险隐患的承压类特种设备;
S6,读取中风险和高风险隐患承压类特种设备包括基本技术参数、安装区域、制造单位、使用单位和检验日期在内的信息,形成输出结果。
2.根据权利要求1所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述步骤S2包括以下步骤:
S21,过滤删除复检合格与复检不合格记录;
S22,提取检验记录中包括不合格的设备号、检验ID、安装区域和设备类别的关键参数数据与检验不合格项数据。
3.根据权利要求2所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述步骤S3包括以下步骤:
S31,以检验发现的隐患部件为单位细分设备的检验不合格项数据,记为表A;
S32,建立承压类检验的专业术语词典D1和包含特殊字符、数字以及与承压类设备检验无关词汇的停用词词典D2;
S33,运用自然语言处理技术的分词技术,结合D1,以词语为单位,对表A进行分词,并根据D2过滤删除表A中所包含的停用词,形成不合格描述关键词表,记为表B;
S34,计算表B中各不合格描述关键词的词频TF;
S35,根据所述词频TF计算表B中各不合格描述关键词的逆文本频率IDF;
S36,根据所述词频TF和所述逆文本频率IDF计算表B中各不合格描述关键词的词频-逆文本频率;
S37,计算表B中各不合格描述关键词的余弦距离,以词频-逆文本频率和余弦距离构建承压类特种设备风险隐患识别分析模型输入表,记为表C。
4.根据权利要求3所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述步骤S4包括以下步骤:
S41,对输入表C每条输入数据计算余弦距离的数学期望,并关联设备的基本参数和部件数据,记为表D;
S42,采用基于K-medoids算法,以表D作为模型输入表,K值取值取设定范围,得到多个聚类细分结果表;
S43,在表D添加聚类标签字段,记录每次聚类结果的类标签值;
S44,计算各个聚类细分结果表的兰德系数值,利用指标值为越大,细分结果越好的方法判断其细分度;
S45,根据兰德系数,选取聚类最优K值,作为最优聚类结果。
5.根据权利要求4所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述K值取值具体为2-6。
6.根据权利要求4所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述步骤S5包括以下步骤:
S51,提取各不合格描述的部件和关键词数据与风险分类等级规则对应的数据表进行匹配,并记录各不合格描述的风险等级;
S52,筛选出风险等级为中风险和高风险的不合格描述以及对应的设备ID和检验ID,形成存在中风险和高风险隐患的承压类特种设备清单。
7.根据权利要求6所述的一种基于文本分析的承压类特种设备隐患识别方法,其特征在于,所述步骤S6包括以下步骤:
S61,根据存在中风险和高风险隐患的承压类特种设备清单,关联设备关键参数数据,读取包括中风险和高风险隐患承压类特种设备的基本技术参数、安装区域、制造单位、检验日期在内的信息,形成输出结果表;
S62,根据输出结果,统计分析中风险和高风险隐患承压类特种设备的安装区域、制造单位、隐患部件信息的分布特征。
8.一种基于文本分析的承压类特种设备隐患识别终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110192.2A CN115186778A (zh) | 2022-09-13 | 2022-09-13 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110192.2A CN115186778A (zh) | 2022-09-13 | 2022-09-13 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115186778A true CN115186778A (zh) | 2022-10-14 |
Family
ID=83524241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211110192.2A Pending CN115186778A (zh) | 2022-09-13 | 2022-09-13 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186778A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737350A (zh) * | 2012-06-08 | 2012-10-17 | 南方电网科学研究院有限责任公司 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
US20160196174A1 (en) * | 2015-01-02 | 2016-07-07 | Tata Consultancy Services Limited | Real-time categorization of log events |
CN107784115A (zh) * | 2017-11-09 | 2018-03-09 | 福建省特种设备检验研究院 | 一种基于编辑距离算法的特种设备故障分析方法及系统 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN112184004A (zh) * | 2020-09-25 | 2021-01-05 | 福建省特种设备检验研究院 | 一种基于K-Means的电梯维保质量分析方法 |
CN113535906A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 一种电力领域隐患事件文本分类方法及其相关装置 |
CN113688169A (zh) * | 2021-08-11 | 2021-11-23 | 北京科技大学 | 基于大数据分析的矿山安全隐患辨识与预警系统 |
CN114492926A (zh) * | 2021-12-20 | 2022-05-13 | 华能煤炭技术研究有限公司 | 一种煤矿安全隐患文本分析预测方法和系统 |
WO2022126810A1 (zh) * | 2020-12-14 | 2022-06-23 | 上海爱数信息技术股份有限公司 | 文本聚类方法 |
-
2022
- 2022-09-13 CN CN202211110192.2A patent/CN115186778A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737350A (zh) * | 2012-06-08 | 2012-10-17 | 南方电网科学研究院有限责任公司 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
US20160196174A1 (en) * | 2015-01-02 | 2016-07-07 | Tata Consultancy Services Limited | Real-time categorization of log events |
CN107784115A (zh) * | 2017-11-09 | 2018-03-09 | 福建省特种设备检验研究院 | 一种基于编辑距离算法的特种设备故障分析方法及系统 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN112184004A (zh) * | 2020-09-25 | 2021-01-05 | 福建省特种设备检验研究院 | 一种基于K-Means的电梯维保质量分析方法 |
WO2022126810A1 (zh) * | 2020-12-14 | 2022-06-23 | 上海爱数信息技术股份有限公司 | 文本聚类方法 |
CN113535906A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 一种电力领域隐患事件文本分类方法及其相关装置 |
CN113688169A (zh) * | 2021-08-11 | 2021-11-23 | 北京科技大学 | 基于大数据分析的矿山安全隐患辨识与预警系统 |
CN114492926A (zh) * | 2021-12-20 | 2022-05-13 | 华能煤炭技术研究有限公司 | 一种煤矿安全隐患文本分析预测方法和系统 |
Non-Patent Citations (5)
Title |
---|
吴凤明等: "基于FMEA的设备风险分级管控研究", 《价值工程》 * |
张扬等: "地勘单位IACA事故隐患排查治理模型研究", 《安全与环境工程》 * |
杨荣等: "FMEA在港口设备风险分析中的应用", 《港口科技》 * |
谭章禄等: "基于文本聚类的煤矿安全隐患类型挖掘研究", 《中国安全科学学报》 * |
邹小飞: "基于安全检查文本数据的风险分级预警方法研究——以建材行业为例", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159272A (zh) | 基于数据仓库及etl的数据质量监控及预警方法和系统 | |
US20130297519A1 (en) | System and method for identifying potential legal liability and providing early warning in an enterprise | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN111159161A (zh) | 基于etl规则的数据质量监控及预警系统和方法 | |
CN112347271A (zh) | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 | |
Liou et al. | Predicting business failure under the existence of fraudulent financial reporting | |
Okazaki et al. | Nowcasting of Corporate Research and Development trends through news article analysis by BERTopic: The case of Japanese electric company | |
CN110222180A (zh) | 一种文本数据分类与信息挖掘方法 | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
Kral et al. | Comprehensive assessment of the selected indicators of financial analysis in the context of failing companies | |
CN115098740B (zh) | 一种基于多源异构数据源的数据质量检测方法及装置 | |
CN115186778A (zh) | 一种基于文本分析的承压类特种设备隐患识别方法及终端 | |
CN107016028A (zh) | 数据处理方法及其设备 | |
US20190318023A1 (en) | Efficient Data Processing | |
Berthold et al. | Data understanding | |
KR102110350B1 (ko) | 비표준화 데이터베이스를 위한 도메인 판별 장치 및 방법 | |
Haridy et al. | Chi-squared control chart for multiple attributes | |
CN112069287B (zh) | 标准阈值数字化转译方法 | |
Togatorop et al. | Twitter Data Warehouse and Business Intelligence Using Dimensional Model and Data Mining | |
Modapothala et al. | Evaluation of corporate environmental reports using data mining approach | |
Devarakonda et al. | Frequently cocited publications: Features and kinetics | |
Padmalia | FIRM RESILIENCE RESEARCH DEVELOPMENT: A BIBLIOMETRIC ANALYSIS WITH VOSVIEWER | |
Lukač et al. | Use of Statistical Methods as an Educational Tool in the Financial Management of Enterprises in the Implementation of International Financial Reporting Standards | |
CN117787816B (zh) | 用于工业企业的物料数据质量检测方法及系统 | |
Razmkhah et al. | An economic design of rectifying double acceptance sampling plans Via maxima nomination sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221014 |
|
RJ01 | Rejection of invention patent application after publication |