CN117494694A - 一种危化品企业hse领域制度符合性智能管理方法及系统 - Google Patents
一种危化品企业hse领域制度符合性智能管理方法及系统 Download PDFInfo
- Publication number
- CN117494694A CN117494694A CN202210852385.9A CN202210852385A CN117494694A CN 117494694 A CN117494694 A CN 117494694A CN 202210852385 A CN202210852385 A CN 202210852385A CN 117494694 A CN117494694 A CN 117494694A
- Authority
- CN
- China
- Prior art keywords
- document
- applicable
- enterprise
- clause
- clauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000383 hazardous chemical Substances 0.000 title claims abstract description 36
- 239000000126 substance Substances 0.000 title claims abstract description 29
- 238000007726 management method Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims description 35
- 238000013145 classification model Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000036541 health Effects 0.000 description 6
- 208000028571 Occupational disease Diseases 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种危化品企业HSE领域制度符合性智能管理系统及方法,该系统包括:文档获取及拆分模块、文档条款标签化模块、条款特征词提取模块、候选制度筛选模块、相似度计算模块及制度符合性风险预警模块,各功能模块关联运行实现文档获取、拆分条款、条款标签化、条款特征词提取、可能承接转化的候选制度筛选和相似度计算等操作,依据计算结果识别企业制度条款中相对于下发适用文档内容符合性达不到条件的条款并预警,自动实现制度符合性智能管理,不需要借助人工实现大规模的数据处理和运算,适用于制度文档类别繁多的HSE领域企业,高效且精确性高。
Description
技术领域
本发明涉及HSE制度自动分析与管理技术领域,尤其涉及一种危化品企业HSE领域制度符合性智能管理方法及系统。
背景技术
HSE领域涉及的子领域多,相关企业适用文件清单中包括大量法律、法规、规范性文件、标准等文档,企业容易出现对上位要求识别不全面的问题;同时部分企业对法规等要求的辨识是全文通览,难以细化到具体条款,即使有对条款的辨识,也缺乏精准和全面分析,时常出现漏判和误判;企业适用的法规标准及上位制度等文档修订、失效时,未能及时更新规章制度造成与法规标准脱节。法规文件管理出现纰漏将给企业造成不可轻视的影响。
目前虽然已经有对制度管理开展的相关研究,例如专利CN113077362A中给出了规章制度文件的处理方法,其通过提取关键词作为分析对象,将关键词的相似结果作为制度文件的相似数据进行相关性的匹配;其虽然能够一定程度识别出与企业制度具备相似性的文档,但是其对关键词的提取结果依赖度过高,识别结果精确度不足,且适用范围存在局限性,若应用于HSE领域,关键词提取需要具备相当全面的设置,否则识别结果的精确性更难以保障。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成己为本领域技术人员所公知的现有技术。
发明内容
为解决上述问题,本发明一方面提供了一种危化品企业HSE领域制度符合性智能管理系统,基于计算机系统的硬件结构设计相应的逻辑程序实现条款标签化、条款特征词提取、可能承接转化的候选制度筛选、相似度计算等功能,进而基于计算结果识别企业制度条款中相对于下发适用文档内容符合性达不到条件的条款,予以提醒,实现制度符合性智能管理。在一个实施例中,所述系统包括:
文档获取及拆分模块,其配置为分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化模块,其配置为从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取模块,其配置为基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选模块,其配置为针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算模块,其配置为对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警模块,其配置为统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
一个实施例中,所述文档获取及拆分模块包括文档设置单元,其配置为先获取危化品企业HSE领域相关的全部有效制度文档;同时获取下发的文档中与HSE领域相关的法律、法规、规范性文件和标准类型的文档作为适用文档,存储至服务器端的文档数据库中。
一个可选的实施例中,所述文档获取及拆分模块配置为根据文档的段落布局和标点分布进行拆分处理,适用文档和企业制度文档相关的数据根据需求独立存储在不同的数据库或者基于独立的标识存储于同一数据库中。
进一步地,一个实施例中,所述文档条款标签化模块包括分类模型构建单元,其配置为基于下述操作构建所述条款标签分类模型:
选取设定规模的拆分后的适用文档条款构成训练样本,针对训练样本分别识别其多个方面的HSE领域特征类别作为特征标签,并由专家进行校验;
将识别及校验后的条款及对应特征标签数据作为训练集,输入分类器进行学习训练,得到条款标签分类模型;其中,一项条款对应一项或多项标签。
作为本发明的进一步改进,一个实施例中,所述文档条款标签化模块包括自动核验单元,其配置为:
识别各适用文档条款的属性信息,将其属性信息与所形成的标签进行匹配性分析,若匹配性不满足设定条件,说明标签分类结果存在误差,输出标记及提示信息;所述属性信息包括发布部门信息以及文档标准信息。
另外的,一个实施例中,所述条款特征词提取模块还配置为判断特征词中是否包含预设HSE专业词库中的词,若包含,将其作为特别特征词,设置大于1的特别权重α;
所述HSE专业词库是依据危化品HSE领域法律法规、部门规章、规范性文件、国家标准、地方标准、行业标准和团体标准的专业文件词汇建立的。
作为本发明的进一步改进,一个实施例中,所述候选条款筛选模块通过以下逻辑选取具备承接转化潜质的候选文档条款:
将每个适用文档条款与各个企业制度条款的标签和特征词进行比较,如果存在以下情况则该企业制度条款作为可能承接转化的候选制度条款:
共同的重复标签数量T大于标签量阈值T’,或者
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。进一步地,一个实施例中,所述相似度计算模块通过下述操作实现相似度计算:
统计某适用文档条款句子S1和候选制度条款句子S2中词语间的相似度值s(wk,wn);
分别基于词语间的相似度值分别计算句子S1中词语的平均最大相似度和句子S2中词语的平均最大相似度;
进而基于平均最大相似度值计算双向平均最大相似度的算术平均值作为句子S1和句子S2的句子相似度值:
其中,m表示句子S1中词的总个数,n表示句子S2中词的总个数;s(wk,wn)表示当前句子中第k个词与另一个句子中第n个词的语义相似度值,Q1表示句子S1中词语的平均最大相似度,Q2表示句子S2中词语的平均最大相似度。
具体地,一个实施例中,所述相似度计算模块按照下式逻辑计算句子中词语的平均最大相似度:
其中,avgSQ表示某句子中词语的平均最大相似度值。
基于上述任意一个或多个实施例中所述系统的另一方面,本发明还提供一种危化品企业HSE领域制度符合性智能管理方法,该方法包括:
文档获取及拆分步骤、分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化步骤、从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取步骤、利用计算机段平台基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选步骤、针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算步骤、对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警步骤、采用遍历程序统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
基于上述实施例中所述方法的其他方面,本发明还提供一种存储介质,该存储介质上存储有可实现如上述实施例中所述方法的程序代码。
与最接近的现有技术相比,本发明还具有如下有益效果:
本发明提供的一种危化品企业HSE领域制度符合性智能管理系统及方法,该系统利用文档获取及拆分模块和文档条款标签化模块实现文档获取、条款拆分以及HSE特征标签分类,利用构建的标签分类模型自动针对下发的适用文档和在用的企业制度文档分别进行分类处理,生成文档的HSE特征标签,为实现承接转换制度条款的筛选打下基础;
另外,本发明还利用条款特征词提取模块基于语义分析和词语网络技术提取文档的特征词,作为筛选承接转换制度条款的另一项依据,采用综合筛选逻辑筛选候选制度条款进而进行相似度计算,能够在节省运算资源的基础上保障候选企业制度的全面性,除了候选制度条款之外的条款,再利用相似度运算从选到的可能承接转换的候选制度条款中识别相似度不符合条件的制度条款,通过自动的方式进行制度符合性判断,减少了人工的工作量,且能够精确而全面地识别所有符合性不满足要求的企业制度条款,且实现制度条款管理的时效性高,有助于为用户提供及时而可靠的制度符合性提示信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一实施例所提供危化品企业HSE领域制度符合性智能管理系统的结构示意图;
图2是本发明另一实施例所提供危化品企业HSE领域制度符合性智能管理方法的流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机系统设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
HSE领域具备特有的危化职业特征,其涉及的子领域多,相关企业适用文件清单中包括大量法律、法规、规范性文件、标准等文档,企业容易出现对上位要求识别不全面的问题;同时部分企业对法规等要求的辨识是全文通览,难以细化到具体条款,即使有对条款的辨识,也缺乏精准和全面分析,时常出现漏判和误判;企业适用的法规标准及上位制度等文档修订、失效时,未能及时更新规章制度造成与法规标准脱节。法规文件管理出现纰漏将给企业造成不可轻视的影响。
目前虽然已经有对制度管理开展的相关研究,例如专利CN113077362A中给出了规章制度文件的处理方法,其通过提取关键词作为分析对象,将关键词的相似结果作为制度文件的相似数据进行相关性的匹配;其虽然能够一定程度识别出与企业制度具备相似性的文档,但是其对关键词的提取结果依赖度过高,识别结果精确度不足,且适用范围存在局限性,若应用于HSE领域,关键词提取需要具备相当全面的设置,否则识别结果的精确性更难以保障。
现有技术未考虑危化品企业HSE领域制度与上位依据按照HSE特征标签匹配等多维度的关联,且没有形成制度符合性风险的预警机制。
另外的,虽然《企业安全法规符合性评估方法》中通过建立包括法律法规名称、具体条款、综合要求、分值、评分细则的安全法规符合性定量评估指标体系,对企业进行安全法规符合性评估。但是实际分析需要依靠人工判识和分析,耗时耗力,时效性不佳,且无法保障分析结果的精确度,若需要进一步审核更是需要大规模的工作量。
为解决上述问题,本发明提供一种危化品企业HSE领域制度符合性智能管理系统及方法,基于计算机系统的硬件结构设计相应的逻辑程序实现条款标签化、条款特征词提取、可能承接转化的候选制度筛选、相似度计算等功能,进而基于计算结果识别企业制度条款中相对于下发适用文档内容符合性达不到条件的条款,予以提醒,实现制度符合性智能管理,不需要借助人工实现大规模的数据处理和运算,自动实现制度符合性判识,实用性高,快速又可靠。
接下来基于附图详细描述本发明实施例所描述系统的详细结构和功能单元,虽然描述中示出了各功能单元的执行逻辑顺序,但是在某些情况下,可以以不同于此处的顺序启动相应功能单元执行所示出或描述的操作。
实施例一
图1示出了本发明实施例一提供的危化品企业HSE领域制度符合性智能管理系统的结构示意图,参照图1可知,该系统包括:
文档获取及拆分模块,其配置为分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化模块,其配置为从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取模块,其配置为基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选模块,其配置为针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算模块,其配置为对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警模块,其配置为统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
基于上述实施例描述的系统,能够基于计算机系统自主实现文档数据读取、条款标签化、条款特征词提取、可能承接转化的候选制度筛选和相似度计算等进程,以自动化方式实现企业制度符合性分析和预警,为企业输出可靠的制度管理和执行辅助信息,以响应《危险化学品从业单位安全生产标准化评审标准》等文件要求“企业需要对法律法规及政府其他要求识别到条款,且转化为本企业制度”的实际需求。
由于本实施例所提供危化品企业HSE领域制度符合性智能管理功能描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如,本文所述的功能逻辑可以实现为能以控制逻辑来执行的软件,其由计算机处理系统中的CPU来执行。本文所述的功能也可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。
当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的功能逻辑。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。
作为本发明系统功能的进一步描述,所述文档获取及拆分模块包括文档设置单元,其配置为先获取危化品企业HSE领域相关的全部有效制度文档;同时获取下发的文档中与HSE领域相关的法律、法规、规范性文件和标准类型的文档作为适用文档,存储至服务器端的文档数据库中。
其中文档设置单元通常需要先行执行,旨在为后续的功能操作提供可用的数据对象基础。具体地,企业制度文档可以为企业当前在使用的制度文档数据,其中可能存在不符合新下发适用文档要求的制度条款。
实际应用时,采用备份的方式获取企业制度文档和下发的适用文档,设置的企业制度文档和适用文档存储内容较大,对存储空间要求较高而调用需求不频繁,因此,本发明设置其存储在云端服务器,可以通过接口被灵活调用。
进一步地,一个实施例中,所述文档获取及拆分模块配置为获取适用文档及企业制度文档的内容,分别根据文档的段落布局和标点符号进行拆分处理,得到对应的多项文档条款并存储,适用文档和企业制度文档相关的数据根据需求独立存储在不同的数据库或者基于独立的标识存储于同一数据库中,该处可存储于系统的本地存储空间中。
接下来运行文档条款标签化模块,从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储。
一个实施例中,所述文档条款标签化模块包括分类模型构建单元,其配置为基于下述操作构建所述条款标签分类模型:
选取设定规模的拆分后的适用文档条款构成训练样本,针对训练样本分别识别其多个方面的HSE领域特征类别作为特征标签,并由专家进行校验;
将识别及校验后的条款及对应特征标签数据作为训练集,输入分类器进行学习训练,得到条款标签分类模型;其中,一项条款对应一项或多项标签。
一个可选的实施例中,所述分类模型构建单元识别的HSE领域特征类别包括:职业健康和劳动保护大类、环境大类、安全大类以及拆解的应急、消防、变更、职业病诊断和环境监测小类。
实际应用时,建立危化品行业HSE领域标签体系,HSE领域分为职业健康和劳动保护、环境、安全三个大类,按照每个大类,拆解细分的小类,如应急、消防、变更、职业病诊断、环境监测等,拆解出的所有小类作为条款的标签集;
将企业适用的法律法规、规范性文件等文档,进行条款化拆分。选取部分条款,通过分析标注条款对应的标签并由专家核验,特别的,一个条款可以对应多个标签;将标注完成的条款及对应标签作为训练集,用分类器进行学习训练,得到文本分类模型;用该分类模型对企业适用文档的其他条款进行分类。完成企业适用文档条款的标签化处理。
实际应用时,考虑到标签分类处理的结果对后续筛选和运算的重要性,本发明还设置文档条款标签化模块包括自动核验单元,其配置为:
识别各适用文档条款的属性信息,将其发布信息与所形成的标签进行匹配性分析,若匹配性不满足设定条件,说明标签分类结果存在误差,输出标记及提示信息。所述属性信息包括发布部门信息以及文档标准信息。
具体应用时,采用构建的条款标签分类模型对适用文档条款进行分类后,通过适用文档的发布部门、标准分类辅助确定适用文档条款大类,如生态环境部发布的文件如果没有环境类标签,劳动卫生类别的标准如果没有职业健康和劳动保护类标签,则提示可能出现标签遗漏的情况,最终由专家核实确定可能遗漏标签,并进行局部优化形成适用文档条款的最终标签。
用条款标签分类模型对所有制度条款进行分类后,得到企业所有制度条款的标签,特别的,一个制度条款可以对应多个标签。进一步通过制度的主办部门的辅助确定制度标签,如安全部门主办的制度如果没有安全类标签,环保部门主办的制度如果没有环保类标签,则提示可能出现标签遗漏的情况,最终由专家确定可能遗漏标签的企业制度条款并进行局部优化,形成制度条款的最终标签。
进一步地,启用条款特征词提取模块,基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储。
具体地,条款特征词提取模块对拆分好的企业适用文档条款和企业制度文档进行基于语义分析、统计、词语网络等方法的特征词提取,形成每个适用文档条款的特征词集。
考虑到HSE领域涉及的专业特征词种类繁多,为了提升专业词汇的关注度,通过危化品HSE领域专业文件(法律法规、部门规章、规范性文件、国家标准、地方标准、行业标准、团体标准)中词汇建立HSE专业词库;
在上述实施例中基于语义分析、统计、词语网络等方法提取出来特征词后,所述条款特征词提取模块还配置为判断特征词中是否包含HSE专业词库中的词,若包含,将其作为特别特征词,设置大于1的特别权重α;
需要说明的是,实际应用时,条款特征词提取模块的功能操作顺序可以根据实际需求配置,也可与文档条款标签化模块同步运行。
另外的,对于已经标注有HSE标签或者提取有特征词集的企业制度文档,下次管理分析时不需要再次进行标签分类处理或特征词提取处理,仅调用文档条款标签化模块和条款特征词提取模块对更新部分的企业制度文档进行相关处理即可。
接下来,通过候选制度筛选模块筛选出可能承接转化的候选制度条款;其针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
进一步地,一个实施例中,所述候选条款筛选模块通过以下逻辑选取具备承接转化潜质的候选文档条款:
将每个适用文档条款与各个企业制度条款的标签和特征词进行比较,如果存在以下情况则该企业制度条款作为可能承接转化的候选制度条款:
共同的重复标签数量T大于标签量阈值T’,或者
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。
基于前述实施例,用适用文档条款标签化模块中的文本分类模型对所有制度条款进行分类,得到企业所有制度条款的标签,特别的,一个制度条款可以对应多个标签;另外,由于制度承接转化很多情况是直接引用适用条款中的相关说法,对企业所有制度条款进行基于语义分析、统计、词语网络等方法的特征词提取,形成企业所有制度条款的特征词集。
实际应用时,所述候选条款筛选模块执行下述判识逻辑:
如果企业某制度条款与该适用条款对应的共同标签数量大于阈值,即满足T≥T’,则该企业制度条款作为可能承接转化的候选制度条款。
其中,T为企业某制度条款与该适用条款对应的共同标签数量,T’为标签重复数量设定的阈值。
当不存在特别特征词时,W1值则为零,如果企业某制度条款与该适用条款中特征词的重复率大于阈值,即满足w/W”>T”,则该企业制度条款作为可能承接转化的候选制度条款。
此时,其中W为企业某制度条款与该适用条款包含的特征词重复个数,W”为该适用条款中特征词总数,T”为特征词重复率设定的阈值。
某制度条款满足T>T’或者wi/W>T”,即作为可能承接转化的候选制度条款筛选出来。
另外的,如果特征词汇中存在特别特征词,则判断是否满足下述条件:
(αw1+W)/(αW1”+W”)>T”
若满足,则将对应的企业制度条款作为可能承接转化的候选制度条款筛选出来。
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。
基于上述筛选逻辑,针对重复特征词较少,但是HSE专业的特别特征词汇占比较多时,也会作为可能承接转化的候选制度条款被选中,能够进一步提升筛选结果的全面性和HSE专业性。
进一步地,利用相似度计算模块候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
具体地,一个实施例中,所述相似度计算模块通过下述操作实现相似度计算:
利用语义资源获取某适用文档条款句子S1和候选制度条款句子S2中词语间的相似度值s(wk,wn);
分别基于词语间的相似度值分别计算句子S1中词语的平均最大相似度和句子S2中词语的平均最大相似度;
进而基于平均最大相似度值计算双向平均最大相似度的算术平均值作为句子S1和句子S2的句子相似度值:
其中,m表示句子S1中词的总个数,n表示句子S2中词的总个数;s(wk,wn)表示当前句子中第k个词与另一个句子中第n个词的语义相似度值,Q1表示句子S1中词语的平均最大相似度,Q2表示句子S2中词语的平均最大相似度。
其中,一个优选的实施例中,所述相似度计算模块按照下式逻辑计算句子中词语的平均最大相似度:
其中,avgSQ表示某句子中词语的平均最大相似度值。
上述实施例中,本发明计算得到双向平均最大相似度的算术平均值作为候选制度条款句子和适用文档条款句子的相似度值作为相似度指数;
进一步地,由制度符合性风险预警模块统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
具体地,将所有适用文档条款逐条与企业所有制度条款进行制度承接转化的判断确定候选制度条款后,一个实施例中,制度符合性风险预警模块运行执行下述逻辑实现预警:
如果某适用文档条款与企业所有候选制度条款的相似度低于设定阈值,则说明企业没有制度条款承接转化该适用文档条款,输出该适用文档条款进行制度符合性预警。
实施案例:案例1
运行本发明实施例中所提供的危化品企业HSE领域制度符合性智能管理系统实现下述功能:
适用文档条款标签化:建立危化品行业HSE领域标签体系,HSE领域分为职业健康和劳动保护、环境、安全三个大类,按照每个大类,拆解15个小类:应急、三同时、标准化、消防、电气、仪表、施工作业安全、公共安全、变更、职业病诊断、劳动保护、环境监测、清洁生产、污染物防治、生态保护,拆解出的所有小类作为条款的标签集;
将企业适用的法律法规、规范性文件等文档,进行条款化拆分。选取部分条款,通过专家标注条款对应的标签,特别的,一个条款可以对应多个标签;将专家标注完成的条款及对应标签作为训练集,用分类器进行学习训练,得到文本分类模型;用该分类模型对企业适用文档的其他条款进行分类。完成企业适用文档条款的标签化处理。
适用文档条款特征词提取:对拆分好的企业适用文档条款进行基于语义分析、统计、词语网络等方法的特征词提取,形成每个适用文档条款的特征词集。
可能承接转化的候选制度条款筛选:针对企业某适用文档条款的转化承接情况,对企业所有制度文本进行条款化拆分,用适用文档条款标签化模块中的文本分类模型对所有制度条款进行分类,得到企业所有制度条款的标签,特别的,一个制度条款可以对应多个标签。
如果企业某制度条款与该适用条款对应的共同标签数量大于阈值,即满足T≥T’,则该企业制度条款作为可能承接转化的候选制度条款。
其中,T为企业某制度条款与该适用条款对应的共同标签数量,T’为标签重复数量设定的阈值。
另外,对企业所有制度条款进行基于语义分析、统计、词语网络等方法的特征词提取,形成企业所有制度条款的特征词集。
如果企业某制度条款与该适用条款中特征词的重复率大于阈值,则该企业制度条款作为可能承接转化的候选制度条款,其中特征词考虑特别特征词和其他特征词;
实际判定时通过识别适用文档条款和企业制度条款是否满足下式而实现:
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。
某制度条款的标签和特征值中一项满足上述条件即作为可能承接转化的候选制度条款筛选出来。
相似度计算:将某适用文档条款S1与对应可能承接转化的候选制度条款S2进行基于WordNet的相似度计算
制度符合性风险预警:将所有适用文档条款逐条与所有企业制度条款进行制度承接转化的判断,如果某适用文档条款与企业所有制度条款的相似度低于阈值,可能企业没有承接转化该适用文档条款,输出该适用文档条款进行制度符合性预警。
案例2:运行本发明实施例中所提供的危化品企业HSE领域制度符合性智能管理系统实现下述功能逻辑:
适用文档条款标签化:建立危化品行业HSE领域标签体系,HSE领域分为职业健康和劳动保护、环境、安全三个大类,按照每个大类,拆解23个小类:应急、三同时、双预防、事故管理、事件管理、工艺安全、储存、运输、标准化、消防、电气、仪表、施工作业安全、公共安全、变更、职业病诊断、劳动保护、环境监测、清洁生产、建设项目环保管理、环境质量、污染物防治、生态保护等,拆解出的所有小类作为条款的标签集;
将企业适用的法律法规、规范性文件等文档,进行条款化拆分。选取部分条款,通过专家标注条款对应的标签,特别的,一个条款可以对应多个标签;将专家标注完成的条款及对应标签作为训练集,用分类器进行学习训练,得到文本分类模型;用该分类模型对企业适用文档的其他条款进行分类。完成企业适用文档条款的标签化处理。
适用文档条款特征词提取:对拆分好的企业适用文档条款进行基于语义分析、统计、词语网络等方法的特征词提取,形成每个适用文档条款的特征词集。
可能承接转化的候选制度条款筛选:针对企业某适用文档条款的转化承接情况,对企业所有制度文本进行条款化拆分,用适用文档条款标签化模块中的文本分类模型对所有制度条款进行分类,得到企业所有制度条款的标签,特别的,一个制度条款可以对应多个标签。
如果企业某制度条款与该适用条款对应的共同标签数量大于阈值,即满足T≥T’,则该企业制度条款作为可能承接转化的候选制度条款。
其中,T为企业某制度条款与该适用条款对应的共同标签数量,T’为标签重复数量设定的阈值。
另外,对企业所有制度条款进行基于语义分析、统计、词语网络等方法的特征词提取,形成企业所有制度条款的特征词集。
如果企业某制度条款与该适用条款中特征词的重复率大于阈值,则该企业制度条款作为可能承接转化的候选制度条款,其中特征词考虑特别特征词和特别特征词之外的其他特征词;
实际判定时通过识别适用文档条款和企业制度条款是否满足下式而实现:
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。
某制度条款的标签和特征值中一项满足上述条件即作为可能承接转化的候选制度条款筛选出来。
相似度计算:将某适用文档条款S1与对应可能承接转化的候选制度条款S2进行基于Wordnet同义词林的句子相似度计算;
制度符合性风险预警:将所有适用文档条款逐条与所有企业制度条款进行制度承接转化的判断,如果某适用文档条款与企业所有制度条款的相似度低于阈值,可能企业没有承接转化该适用文档条款,输出该适用文档条款进行制度符合性预警。
现有技术未考虑制度与上位要求的多维度匹配,同时不适用于危化品行业HSE领域特征的制度符合性管理。本发明自动实现对危化品企业HSE领域制度符合性的快速判断,效率高,实时性强;制度与上位依据匹配判断的维度更全面。本发明的系统可以应用于危化品企业HSE领域的制度制定、制度符合性审查等合规管理领域。
本发明实施例提供的危化品企业HSE领域制度符合性智能管理系统中,各个模块或单元结构可以根据实际识别需求和运算需求独立运行或组合运行,以实现相应的技术效果。
实施例3
上述本发明公开的实施例中详细描述了系统的结构和功能,基于上述任意一个或多个实施例中所述系统的控制应用方面,本发明还提供一种危化品企业HSE领域制度符合性智能管理方法,该方法用于控制上述任意一个或多个实施例中所述的危化品企业HSE领域制度符合性智能管理系统。下面给出具体的实施例进行详细说明。
具体地,图2中示出了本发明实施例中提供的危化品企业HSE领域制度符合性智能管理方法的流程示意图,如图2所示,该方法包括:
文档获取及拆分步骤、分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化步骤、从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取步骤、利用计算机段平台基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选步骤、针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算步骤、对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警步骤、采用遍历程序统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
进一步地,一个实施例中,所述文档获取及拆分步骤包括:
文档设置步骤、先获取危化品企业HSE领域相关的全部有效制度文档;同时获取下发的文档中与HSE领域相关的法律、法规、规范性文件和标准类型的文档作为适用文档,存储至服务器端的文档数据库中。
另一方面,一个实施例中,所述文档获取及拆分步骤包括:根据文档的段落布局和标点符号进行拆分处理,适用文档和企业制度文档相关的数据根据需求独立存储在不同的数据库或者基于独立的标识存储于同一数据库中。
一个优选的实施例中,所述文档条款标签化步骤中通过下述操作构建所述条款标签分类模型:
选取设定规模的拆分后的适用文档条款构成训练样本,针对训练样本分别识别其多个方面的HSE领域特征类别作为特征标签,并由专家进行校验;
将识别及校验后的条款及对应特征标签数据作为训练集,输入分类器进行学习训练,得到条款标签分类模型;其中,一项条款对应一项或多项标签。
具体地,一个实施例中,所述分类模型构建单元识别的HSE领域特征类别包括:职业健康和劳动保护大类、环境大类、安全大类以及拆解的应急、消防、变更、职业病诊断和环境监测小类。
一个可选的实施例中,所述条款特征词提取步骤还包括:判断特征词中是否包含预设HSE专业词库中的词,若包含,将其作为特别特征词,设置大于1的特别权重α;
所述HSE专业词库是依据危化品HSE领域法律法规、部门规章、规范性文件、国家标准、地方标准、行业标准和团体标准的专业文件词汇建立的。
进一步地,一个实施例中,所述候选条款筛选步骤选取具备承接转化潜质的候选文档条款的过程包括:
将每个适用文档条款与各个企业制度条款的标签和特征词进行比较,如果存在以下情况则该企业制度条款作为可能承接转化的候选制度条款:共同的重复标签数量T大于标签量阈值T’,或者
特征词的重复率满足下述条件:
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值;
基于上述判识逻辑将对应的企业制度条款作为可能承接转化的候选制度条款筛选出来。
基于上述筛选逻辑,针对重复特征词较少,但是HSE专业的特别特征词汇占比较多时,也会作为可能承接转化的候选制度条款被选中,能够进一步提升筛选结果的全面性和HSE专业性。
另一方面,一个实施例中,在相似度计算步骤中实现相似度计算的过程包括:
统计某适用文档条款句子S1和候选制度条款句子S2中词语间的相似度值s(wk,wn);
分别基于词语间的相似度值分别计算句子S1中词语的平均最大相似度和句子S2中词语的平均最大相似度;
进而基于平均最大相似度值计算双向平均最大相似度的算术平均值作为句子S1和句子S2的句子相似度值:
其中,m表示句子S1中词的总个数,n表示句子S2中词的总个数;s(wk,wn)表示当前句子中第k个词与另一个句子中第n个词的语义相似度值,Q1表示句子S1中词语的平均最大相似度,Q2表示句子S2中词语的平均最大相似度。
具体地,一个实施例中,按照下式的逻辑计算句子中词语的平均最大相似度:
其中,avgSQ表示某句子中词语的平均最大相似度值。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要指出的是,在本发明的其他实施例中,该方法还可以通过将上述实施例中的某一个或某几个进行结合来得到新的危化品企业HSE领域制度符合性智能管理方法,以实现识别需要完善和更新的企业制度条款。
进一步地,需要说明的是,基于本发明上述任意一个或多个实施例中的方法,本发明还提供一种存储介质,该存储介质上存储有可实现如述任意一个或多个实施例中所述方法的程序代码,该代码被操作系统执行时能够实现如上所述的危化品企业HSE领域制度符合性智能管理方法。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而不意味着限制。
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (12)
1.一种危化品企业HSE领域制度符合性智能管理系统,其特征在于,所述系统包括:
文档获取及拆分模块,其配置为分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化模块,其配置为从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型中完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取模块,其配置为基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选模块,其配置为针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算模块,其配置为对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警模块,其配置为统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
2.根据权利要求1所述的系统,其特征在于,所述文档获取及拆分模块包括文档设置单元,其配置为先获取危化品企业HSE领域相关的全部有效制度文档;同时获取下发的文档中与HSE领域相关的法律、法规、规范性文件和标准类型的文档作为适用文档,存储至服务器端的文档数据库中。
3.根据权利要求1所述的系统,其特征在于,所述文档获取及拆分模块配置为根据文档的段落布局和标点分布进行拆分处理,适用文档和企业制度文档相关的数据根据需求独立存储在不同的数据库或者基于独立的标识存储于同一数据库中。
4.根据权利要求1所述的系统,其特征在于,所述文档条款标签化模块包括分类模型构建单元,其配置为基于下述操作构建所述条款标签分类模型:
选取设定规模的拆分后的适用文档条款构成训练样本,针对训练样本分别识别其多个方面的HSE领域特征类别作为特征标签,并由专家进行校验;
将识别及校验后的条款及对应特征标签数据作为训练集,输入分类器进行学习训练,得到条款标签分类模型;其中,一项条款对应一项或多项标签。
5.根据权利要求1所述的系统,其特征在于,所述文档条款标签化模块包括自动核验单元,其配置为:
识别各适用文档条款的属性信息,将其属性信息与所形成的标签进行匹配性分析,若匹配性不满足设定条件,说明标签分类结果存在误差,输出标记及提示信息;所述属性信息包括发布部门信息以及文档标准信息。
6.根据权利要求1所述的系统,其特征在于,所述条款特征词提取模块还配置为判断特征词中是否包含预设HSE专业词库中的词,若包含,将其作为特别特征词,设置大于1的特别权重α。
7.根据权利要求6所述的系统,其特征在于,依据危化品HSE领域法律法规、部门规章、规范性文件、国家标准、地方标准、行业标准和团体标准的专业文件词汇建立所述HSE专业词库。
8.根据权利要求1所述的系统,其特征在于,所述候选条款筛选模块通过以下逻辑选取具备承接转化潜质的候选文档条款:
将每个适用文档条款与各个企业制度条款的标签和特征词进行比较,如果存在以下情况则该企业制度条款作为可能承接转化的候选制度条款:
共同的重复标签数量T大于标签量阈值T’,或者
(αw1+W)/(αW1”+W”)>T”
W1是为企业某制度条款与该适用条款共有的特别特征词重复个数,W是为企业某制度条款与该适用条款共有的其他特征词(除特别特征词外)重复个数,α>1,为针对特别特征词设置的特别权重;W1”为该适用条款中特别特征词总个数,W”为该适用条款中其他特征词总个数,T”为设定的重复特征词阈值。
9.根据权利要求1所述的系统,其特征在于,所述相似度计算模块通过下述操作实现相似度计算:
统计某适用文档条款句子S1和候选制度条款句子S2中词语间的相似度值s(wk,wn);
分别基于词语间的相似度值分别计算句子S1中词语的平均最大相似度和句子S2中词语的平均最大相似度;
进而基于平均最大相似度值计算双向平均最大相似度的算术平均值作为句子S1和句子S2的句子相似度值:
其中,m表示句子S1中词的总个数,n表示句子S2中词的总个数;s(wk,wn)表示当前句子中第k个词与另一个句子中第n个词的语义相似度值,Q1表示句子S1中词语的平均最大相似度,Q2表示句子S2中词语的平均最大相似度。
10.根据权利要求9所述的系统,其特征在于,所述相似度计算模块按照下式逻辑计算句子中词语的平均最大相似度:
其中,avgSQ表示某句子中词语的平均最大相似度值。
11.一种危化品企业HSE领域制度符合性智能管理方法,其特征在于,所述方法包括:
文档获取及拆分步骤、分别从预置的文档数据库中读取企业制度文档和具备分析需求的适用文档,基于文本结构将企业制度文档和适用文档分别拆分为多项条款,获取对应的适用文档条款和企业制度条款存储至对应的数据库;
文档条款标签化步骤、从相关的数据库中分别读取待处理的适用文档条款和企业制度条款,输入预先构建的条款标签分类模型,针对适用文档条款和企业制度条款完成符合HSE特征的标签化处理,分别得到标注有对应HSE标签的适用文档条款和企业制度条款并存储;
条款特征词提取步骤、利用计算机段平台基于语义分析和词语网络技术对拆分好的适用文档条款和企业制度条款分别进行特征词提取,形成对应的特征词集与适用文档条款和企业制度条款关联存储;
候选制度筛选步骤、针对各适用文档条款,遍历识别是否存在重复标签数或重复特征词数满足设定条件的企业制度条款,若存在,将当前企业制度条款选取为具备承接转化潜质的候选制度条款;
相似度计算步骤、对候选制度条款和各适用文档条款进行基于语义资源的相似度计算,获取相似度指数;
制度符合性风险预警步骤、采用遍历程序统计相似度指数符合设定条件的企业制度条款,生成对应的制度符合性预警面向用户输出。
12.一种存储介质,其特征在于,所述存储介质上存储有可实现如权利要求11中所述方法的程序代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210852385.9A CN117494694A (zh) | 2022-07-20 | 2022-07-20 | 一种危化品企业hse领域制度符合性智能管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210852385.9A CN117494694A (zh) | 2022-07-20 | 2022-07-20 | 一种危化品企业hse领域制度符合性智能管理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494694A true CN117494694A (zh) | 2024-02-02 |
Family
ID=89678693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210852385.9A Pending CN117494694A (zh) | 2022-07-20 | 2022-07-20 | 一种危化品企业hse领域制度符合性智能管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494694A (zh) |
-
2022
- 2022-07-20 CN CN202210852385.9A patent/CN117494694A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
CN108038091B (zh) | 一种基于图的裁判文书案件相似计算与检索方法及系统 | |
US11449767B2 (en) | Method of building a sorting model, and application method and apparatus based on the model | |
US20210294974A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
CN112487140B (zh) | 问答对话评测方法、装置、设备及存储介质 | |
Neudecker et al. | A survey of OCR evaluation tools and metrics | |
US20140277921A1 (en) | System and method for data entity identification and analysis of maintenance data | |
CN113221567A (zh) | 司法领域命名实体及关系联合抽取方法 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
US20150032747A1 (en) | Method for systematic mass normalization of titles | |
CN113190372B (zh) | 多源数据的故障处理方法、装置、电子设备及存储介质 | |
Mo et al. | Construction work plan prediction for facility management using text mining | |
Neysiani et al. | Methods of feature extraction for detecting the duplicate bug reports in software triage systems | |
Moon et al. | Analysis of construction accidents based on semantic search and natural language processing | |
RU2718978C1 (ru) | Способ управления автоматизированной системой правовых консультаций | |
CN112232088A (zh) | 合同条款风险智能识别方法、装置、电子设备及存储介质 | |
US20230096955A1 (en) | Technical Document Error Detection | |
CN101334793B (zh) | 一种自动识别需求依赖关系的方法 | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
CN117494694A (zh) | 一种危化品企业hse领域制度符合性智能管理方法及系统 | |
CN113449083B (zh) | 作业安全管理方法、装置、设备及存储介质 | |
Patrick et al. | Developing SNOMED CT subsets from clinical notes for intensive care service | |
CN112270224A (zh) | 保险责任解析方法、装置及计算机可读存储介质 | |
CN112862305A (zh) | 确定对象风险状态的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |