CN114528848B

CN114528848B - 一种基于指标阈值和语义解析的安全分析和自动评估方法

Info

Publication number: CN114528848B
Application number: CN202210427347.9A
Authority: CN
Inventors: 赵梅; 宦国杨; 陈奡; 张翠侠; 郭珍; 苏兆安; 宿晓丹; 张永伟; 汤杰; 谢俊杰
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-26
Anticipated expiration: 2042-04-22
Also published as: CN114528848A

Abstract

本发明公开了一种基于指标阈值和语义解析的安全分析和自动评估方法。首先，从非结构化的安全分析报告、法规标准等安全分析原始语料中抽取语义关系，构建规范化的安全知识库；同时，按活动、事项等维度构建安全指标实体集，分类、分层划分安全指标集；基于语义相似度计算方法，从法规标准、技术要求、评判依据等语料中识别、抽取安全指标实体及阈值属性，能够从安全分析报告中识别、抽取安全指标实体和监测数据属性；根据语义解析结果，能够对安全指标满足情况自动对标与判定，并能够结合专家经验法对指标初判结果复核校验。该方法满足用户对不同活动、事项进行快速、准确、智能的安全分析和自动评估需求，能够有效提升安全评价效率和准确性。

Description

一种基于指标阈值和语义解析的安全分析和自动评估方法

技术领域

本发明属于安全监管领域，尤其涉及一种基于指标阈值和语义解析的安全分析和自动评估方法，适用于某类任务活动或任务事项的安全评估。

背景技术

对于安全监管领域的任务活动或任务事项，在已开展的安全评估工作中，通常采用文件审查方法，由审查专家对照相关安全法律法规和技术标准，结合专家经验，查找安全问题，并通过现场见证和现场测量等方法进一步核实相关问题，随着越来越多的安全评估任务输入以及安全评估相关资料和数据资源的日渐积累、更新，如何建立更加科学有效的分析评价能力，解决传统安全评估方法的资料利用率低、分析手段自动化程度不高、信息挖掘不充分的问题，成为当前安全监管领域的重点研究内容。

文本作为安全评估信息最重要的载体，从非结构化的安全文本语料中快速、准确地自动解析、抽取关键信息是文件审查的关键部分。目前，分词、实体识别、实体语义关系分类、文本相似度计算等技术是语义分析领域的主要研究方向，在各类型自然语言处理任务中得到了广泛的应用。现有的文件审查方法存在专家经验依赖度过高、信息挖掘不充分、资料利用率低、分析手段自动化程度不足的缺陷愈发明显。

发明内容

发明目的：本发明的目的在于提供一种基于指标阈值和语义解析的安全分析和自动评估方法，能够有效辅助安全审评专家对某类任务活动或任务事项的安全对标审查、安全综合评价等安全评估提供技术支持。

技术方案：本发明的基于指标阈值和语义解析的安全分析和自动评估方法，包括如下步骤：

步骤1，安全指标实体构建：根据不同活动、事项的事故致因理论，结合评估要求，确定评估因素及层次，所述评估要求包括安全法规标准、技术要求和评判依据；抽取关键名词构建安全指标目录，定义安全指标实体及属性；

步骤2、语义关系抽取：根据不同活动、事项的安全评估场景需要，对原始语料中语义关系进行定义、分类，并规范化原始语料中文本的命名、定义以及内容描述，构建形成安全分析知识库，所述原始语料中语义关系包括安全分析报告、报告模板和法规标准；

步骤3、安全指标实体及属性抽取：以安全指标为目标实体模板，结合安全分析语义关系集，利用语义文本相似度计算方法在安全分析报告中进行匹配，抽取安全指标实体、属性及属性值，所述安全指标实体包括安全分析报告中人员、装备、物资器材、技术文档、使用环境和组织机构；在法规标准、技术要求、评判依据的语料中匹配进行匹配，抽取安全指标实体及阈值属性；

步骤4、自动评估：自动对指标阈值与分析报告属性值进行匹配、判断，区分定量指标、定性指标设置评语集，给出安全自动对标评估结果。

进一步地，步骤1中，所述安全指标实体构建具体步骤如下：

步骤1-1、结合典型安全评估任务需求，采用层次分析法建立安全评价指标体系，按任务剖面划分第一层级指标，再按人员、装备、物资器材、技术文档、环境保障的方面进一步细分指标目录，将影响安全的复杂表征参数层次化、条理化，形成递阶层次分析模型；

步骤1-2、根据安全法规标准、技术要求、评判依据中的管理要求，规范化、标准化定义指标实体名称及属性名称，满足限定文本语料、限定语义单元类型实体匹配的完整性条件。

进一步地，步骤2中，所述语义关系抽取具体步骤如下：

步骤2-1、通过实体语义关系分类任务预先定义实体关系类别，包括同类、反义、上下义和整体与部分的关系；

步骤2-2、通过Jieba分词技术对安全分析报告、报告模板、法规标准的中文原始语料进行文本分词和词频统计，筛选出适用于安全评估领域专业词典词库；

步骤2-3：在实体关系分类的基础上，对安全分析报告中的词汇进行对比、组合、归纳，推定词汇语义关系。

进一步地，步骤3中，所述安全指标实体及属性抽取具体步骤如下：

步骤3-1、采用one-hot编码方法对安全分析报告的分词结果进行向量化，得到词向量；结合安全分析报告分句结果，进行句向量编码；

步骤3-2：以安全指标实体及属性为模板，通过语义文本相似度计算方法对词向量、句向量进行匹配计算，取相似度最大值；

步骤3-3：结合预定义的语义关系进行对安全指标及属性的匹配结果进行逻辑知识推理，抽取出与实体相关的属性值；

步骤3-4：将抽取得到的安全评估的实体、关系、实体和实体、属性、属性值通过三元组表达与存储，用来描述指标实体、阈值、监测值等信息。

进一步地，步骤4中，所述自动评估具体步骤如下：

步骤4-1：区分定性指标、定量指标类型设置评语集；

步骤4-2：根据不同任务、事项的安全评估场景要求，对标比对安全指标阈值、安全指标监测值信息，自动生成指标满足情况评语。

有益效果：与现有技术相比，本发明具有如下显著优点：

（1）本发明充分挖掘大量非结构化的安全评估历史档案、安全分析报告、安全检查报告、安全监测数据、法规标准、规章制度等资源信息，以可理解、可表达、可利用的形式进行安全知识管理，构建规范化的安全知识库，支撑实现从主观经验向技术手段的转变；

（2）本发明通过实体识别与语义解析方法，实现安全分析报告中安全指标及属性等关键信息的自动提取；

（3）本发明能够根据预定义的评语集，结合语义解析结果，自动对不同安全任务、事项的安全指标进行对标评估。

附图说明

图1是基于指标阈值设置和语义解析的安全分析和自动评估方法的流程示意图；

图2是安全指标实体构建的过程示意图；

图3是安全指标实体及属性抽取的过程示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

实施例

一、安全指标实体构建

安全指标实体库是语义解析的基础，实体库包含的指标越丰富、越准确，分词算法切分的准确率越高。本发明根据不同安全活动、安全事项的事故致因理论，结合安全法规标准、技术要求、评判依据等评估要求，通过层次分析法分级、分类构建指标实体库，对安全指标实体及属性进行定义，流程如图2所示，具体步骤如下：

a)选取安全法规标准、技术要求、评判依据、审评大纲、安全分析报告等文档，作为确定指标实体的语料库；

b)从语料库中，根据专家经验法初步识别出与安全评估流程相关的人、机、料、法、环五方面关键因素，对各项因素经规范化、标准化处理后，初始化定义指标实体及属性；

c)通过Jieba分词技术对安全分析报告、报告模板、法规标准等中文原始语料进行文本分词、词频统计、数据清洗，筛选出指标实体候选集；

d)结合专家经验，根据指标实体候选集或业务需求，对指标实体及属性进行补充和更新；

e)采用层次分析法对指标实体进行分级、分类，首先，按照任务剖面划分第一层级指标，按照人员、装备、物资器材、技术文档、环境保障等方面细化指标，还可进一步细化为指数层指标实体、指标层指数实体；直至完成所有指标实体层级关系的构建。

二、语义关系抽取

由于安全评估领域的文档具有组合词较多、专业词汇复杂的特点，传统的基于关联规则的语义关系抽取方法不具有领域针对性，对安全评估领域文档的词语训练效果较差。本发明通过分析安全评估领域的特点，采用一种基于改进词向量的语义关系抽取方法，流程如所示，其语义关系抽取具体步骤如下：

a)采用one-hot编码方法对语料库中的安全评估相关文本进行分词处理，完成词向量的初始化，构建形成词语矩阵；

b)基于连续词袋训练模型，对词语矩阵进行模型训练， w表示目标词，由n个目标词构成的训练样本集表示为

，其中

；目标词w的模型输入

：

其中， c表示目标词w的上下文， e为目标词 w的词向量；

c)连续词袋训练模型根据目标词w上下文的表示，通过公式

对目标词进行预测，其中exp函数是计算自然对数的LN函数的反函数， w表示目标词，c表示目标词 w的上下文，e为目标词 w的词向量，

是 e向量的转置，

是 w向量的转置；

d)完成整个语料库的模型训练。

在词向量初始化前，关于词向量优化的具体步骤如下：

a)对语料库的相关语义关系进行分类，包括同类（即相似）、反义、上下义和整体与部分的关系；

b)强化正样本，考虑到每个词语受同一句中的词语影响较大，受不同句中的词语影响较小，对词语进行训练的时候，选取包含词语所在句子为原则，进行语料筛选，而不是直接使用原语料库全集进行训练；

c)语料扩充，选中包含目标词所有的将具有同类（相似）关系的上下文，进行语料扩充，例如“气压测量仪”和“气压测量设备”；

d)对语料库中的目标词

，找出

的组合词

，m表示 w的组合词个数，选取了中心词

所在句子作为待处理语料，获取句子长度

与中心词在句子中的位置

，计算中心词与句子两端的距离

，训练窗口

为

e)选取

上下文长度为

的词语

，选取中心词

的组合词

进行预处理，得到

的上下文词语

，…，

，…，

，…，

，…，

，…，

，将

与

的训练语料进行合并，更新目标词

的上下文表示：

，模型输入更新为

，e为目标词 w的词向量。

通过语义关系抽取步骤，能够学习得到适用于安全评估领域的、以目标词为中心展开的语义关系模式。

三、安全指标实体及属性抽取

以安全指标及属性作为目标词，定义相似度机制来评价目标词和文档在语义关系上的匹配距离，如果两个词语具有相似关系，则两个词语的词向量在同维度上的分量会具有相似关系，语义相似度数值越大，某一维度的向量差就会比较小，分量和会比较大；反之，语义差异性越大的两个词语，相似度数值越小。

关于词向量

与

的运算定义如下：

向量差特征定义：

向量和特征定义：

向量乘特征定义：

向量连接特征定义：

采用基于监督学习方法计算安全指标实体与安全分析报告的语义文本相似度，具体过程如下：

a)输入层：将安全分析报告文本中的句子进行分词，结合安全指标实体库中的词语来匹配句子，将匹配的词语映射为词向量输入编码层，词向量的初始化及优化过程见语义关系抽取步骤；

b)编码层：根据安全分析报告中的分句情况，对句中的词向量进行编码得到句向量；

c)匹配层：对句向量进行相似度计算，通过向量距离余弦相似度标准语义相似性，计算公式为

句向量

和

分别表示为

，

，其中n表示句向量中的词向量个数。

d)完成整篇安全分析报告的句向量相似度计算后，得到与安全指标实体库匹配的的实体集

、关系集

、属性及属性值集

等安全评估知识；

e)通过三元组表示、存储安全评估知识：第i个指标实体与第j个指标实体之间的关系表示为三元组

，其中

；第i个指标与第j个属性之间的关系表示为三元组

，其中

。

四、自动评估

将步骤3中得到的安全指标阈值信息与分析报告中的安全指标实体属性值自动进行匹配、判断，并给出对标评价结果，具体步骤如下：

a)对安全指标实体集

的每一个指标实体设置标签，标签分类包括定性指标、定量指标；以指标实体集中的第i个指标实体为例，

1）其标签可表示为

，若该指标为定性指标，记为

；

2）若该指标为定量指标，记为

；

b)设置决择评语集，将指标实体状态分为4个评估等级，分别是优秀

、良好

、一般

、不合格

；以指标实体集中的第i个指标实体

为例，其评估结果记为

；

c)对标比对指标实体的属性值与指标阈值，自动给出指标对标结果，支持通过专家经验法对评估结果的校核与修订，以指标实体集中的第i个指标实体

为例：

1）若该指标为定性指标，指标评定标准表示为

，根据专家经验法给出指标评估结果，记为

；

2）若该指标为定量指标，指标

的量化值表示为

，指标

评定标准表示为

，若该指标满足评定标准

，该指标评定结果为优秀，记为

，若该指标不满足评定标准，即

，则评定为不合格，记为

；

d）对指标评估结果进行汇总、统计，生成评估结果汇总文件。

Claims

1.一种基于指标阈值和语义解析的安全分析和自动评估方法，其特征在于，包括如下步骤：

步骤4、自动评估：自动对指标阈值与分析报告属性值进行匹配、判断，区分定量指标、定性指标，设置评语集，给出安全自动对标评估结果。

2.根据权利要求1所述的基于指标阈值和语义解析的安全分析和自动评估方法，其特征在于，步骤1中，所述安全指标实体构建具体步骤如下：

3.根据权利要求1所述的基于指标阈值和语义解析的安全分析和自动评估方法，其特征在于，步骤2中，所述语义关系抽取具体步骤如下：

步骤2-1、通过实体语义关系分类任务来预先定义实体关系类别，包括同类、反义、上下义和整体与部分的关系；

4.根据权利要求1所述的基于指标阈值和语义解析的安全分析和自动评估方法，其特征在于，步骤3中，所述安全指标实体及属性抽取具体步骤如下：

步骤3-3：结合预定义的语义关系对安全指标及属性的匹配结果进行逻辑知识推理，抽取出与实体相关的属性值；

步骤3-4：将抽取得到的安全评估的实体、关系、实体和实体、属性、属性值通过三元组表达与存储，用来描述指标实体、阈值、监测值的信息。

5.根据权利要求1所述的基于指标阈值和语义解析的安全分析和自动评估方法，其特征在于，步骤4中，所述自动评估具体步骤如下：

步骤4-1：区分定量指标、定性指标，设置评语集；