CN115730065A

CN115730065A - 关键信息抽取方法、装置、电子设备和可读存储介质

Info

Publication number: CN115730065A
Application number: CN202210684826.9A
Authority: CN
Inventors: 李翠翠; 章稷修; 李琳琳; 徐志远; 李柏丹; 周国强; 梁粤; 敖腾; 李�浩; 孙乐; 邸小建; 鲁迪
Original assignee: Transport Planning And Research Institute Ministry Of Transport
Current assignee: Transport Planning And Research Institute Ministry Of Transport
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-03-03

Abstract

本申请公开一种关键信息抽取方法、装置、电子设备和可读存储介质，针对预设场景事件的待处理文本，本申请将其转换成预设结构文本，并在完成转换后利用规则模型对其进行第一类指标的信息抽取，利用深度学习模型对其进行第二类指标的信息抽取，本申请基于规则和深度学习相结合的信息抽取方式，构建了诸如交通运输安全生产事故等预设场景事件的关键因素提取模型，并基于所构建模型中的规则和深度学习不同类型模型分别提取预设场景事件的不同类别指标，可实现对交通运输安全生产事故等预设场景事件关键信息的自动、高效、准确抽取，相应可更加立体地分析交通运输安全生产事故等场景事件。

Description

关键信息抽取方法、装置、电子设备和可读存储介质

技术领域

本申请属于交通数据处理技术领域，尤其涉及一种关键信息抽取方法、装置、电子设备和可读存储介质。

背景技术

交通运输行业作为国民经济″大动脉″和″先行官″，交通运输安全直接关系着人们的日常出行和生活。如何预防交通运输安全生产事故对交通运输行业安全稳定运行具有重要意义，其中，交通运输安全生产事故致因分析是预防交通运输安全生产事故的基础。

交通运输安全生产事故的致因分析，需要抽取交通运输安全生产事故关键信息作为分析依据，交通运输安全生产事故信息主要以非结构化文本为主，当前交通运输安全生产事故关键信息提取方式多以人工阅读、手动录入为主，会耗费大量人力物力，信息抽取效率低，且抽取信息带有个人主观色彩，不够准确与客观，不利于后续管理人员分析决策。

发明内容

有鉴于此，本申请提供一种关键信息抽取方法、装置、电子设备和可读存储介质，通过基于规则和半监督学习相结合的方式抽取交通运输安全生产事故等文本中的关键信息，实现交通运输安全生产等事件中关键信息的自动、高效、准确抽取。

具体技术方案如下：

一种关键信息抽取方法，包括：

获取预设场景事件的待进行关键信息抽取的待处理文本；

将所述待处理文本转换为支持基于规则和基于深度学习进行信息抽取的预设结构，得到预设结构文本；

利用预先制定的规则模型对所述预设结构文本进行第一类指标的信息抽取，得到所述第一类指标的指标信息；所述规则模型包括根据所述预设场景事件的文本特征设置的对所述第一类指标的提取规则；

利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，得到所述第二类指标的指标信息，所述第一类指标的指标信息和所述第二类指标的指标信息构成所述待处理文本的关键信息抽取结果。

可选的，所述将所述待处理文本转换为支持基于规则和基于深度学习进行信息抽取的预设结构，得到预设结构文本，包括：

利用预先构建的分句模型对所述待处理文本进行分句处理，得到包含所述待处理文本的相应分句的分句结果；

基于预先构建的对应于所述场景事件的分词词库对所述分句结果进行分词处理，得到包含所述待处理文本的相应分词的分词结果，所述分词结果构成的文本作为所述预设结构文本。

可选的，预先为所述预设场景事件构建有多层关键属性指标体系；

其中，所述第一类指标和所述第二类指标分别包括所述多层关键属性指标体系中的不同多层关键属性指标，且所述第二类指标的表达多样性高于所述第一类指标的表达多样性。

可选的，所述预设场景事件包括交通运输安全生产事故；所述规则模型包括事故发生时间提取规则、事故发生地点提取规则、事故类型提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则中的至少一种；

所述利用预先制定的规则模型对所述预设结构文本进行第一类指标的信息抽取，包括如下的至少一种：

基于事故发生时间提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故发生时间；

基于事故发生地点提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故发生地点；

基于事故类型提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故类型；

基于受伤人数提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的受伤人数；

基于死亡人数提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的死亡人数；

基于经济损失提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的经济损失；

基于事故致因个人因素提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故致因个人因素。

可选的，所述规则模型中的事故发生时间提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则，分别为根据所述交通运输安全生产事故的文本信息中事故发生时间的表达形式、受伤人数的表达形式、死亡人数的表达形式、经济损失的表达形式、事故致因中个人因素表达形式制定的规则。

可选的，所述利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，包括：

对所述预设结构文本中的分词进行词向量映射处理，得到各个分词分别对应的基本词向量；

将各个基本词向量分别与对应BERT向量进行融合，得到BERT增强向量；

将所述预设结构文本所对应句子映射为基于分词的BERT增强向量的矩阵表示；

以句子的矩阵表示为所述深度学习模型的输入，构建对应的自注意力增强表示；

利用所述深度学习模型根据句子的自注意力增强表示进行分类处理，以预测句子对应的指标类别，所述指标类别对应所述第二类指标中的相应指标。

可选的，所述以句子的矩阵表示为所述深度学习模型的输入，构建对应的自注意力增强表示，包括：

根据句子的矩阵表示和所述深度学习模型的待优化参数构建查询矩阵、键矩阵和值矩阵；其中，不同矩阵为分别根据句子的矩阵表示和所述深度学习模型的不同待优化参数构建的矩阵；

根据对应的查询矩阵、键矩阵和值矩阵，构建句子的自注意力增强表示。

一种关键信息抽取装置，包括：

获取模块，用于获取预设场景事件的待进行关键信息抽取的待处理文本；

转换模块，用于将所述待处理文本转换为支持基于规则和基于人工智能模型进行信息抽取的预设结构，得到预设结构文本；

第一提取模块，用于利用预先制定的规则模型对所述预设结构文本进行第一类指标的信息抽取，得到所述第一类指标的指标信息；所述规则模型包括根据所述预设场景事件的文本特征设置的对所述第一类指标的提取规则；

第二提取模块，用于利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，得到所述第二类指标的指标信息，所述第一类指标的指标信息和所述第二类指标的指标信息构成所述待处理文本的关键信息抽取结果。

一种电子设备，包括：

存储器，用于至少存放计算机指令集；

处理器，用于通过执行存储器上存放的指令集，实现如上任一项所述的关键信息抽取方法。

一种可读存储介质，其上存储有计算机指令集，所述计算机指令集被调用并运行时能用于实现如上任一项所述的关键信息抽取方法。

综上，本申请提供的关键信息抽取方法、装置、电子设备和可读存储介质，针对预设场景事件的待处理文本，将其转换成预设结构文本，并在完成转换后利用规则模型对其进行第一类指标的信息抽取，利用深度学习模型对其进行第二类指标的信息抽取，本申请基于规则和深度学习相结合的信息抽取方式，构建了诸如交通运输安全生产事故等预设场景事件的关键因素提取模型，并基于所构建模型中的规则和深度学习不同类型模型分别提取预设场景事件的不同类别指标，可实现对交通运输安全生产事故等预设场景事件关键信息的自动、高效、准确抽取，相应可更加立体地分析交通运输安全生产事故等场景事件。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请提供的关键信息抽取方法流程图；

图2是本申请提供的基于规则的交通运输安全生产事故关键信息抽取流程图；

图3是本申请提供的深度学习模型构建及基于所构建模型的交通运输安全生产事故关键信息抽取流程图；

图4是本申请提供的利用深度学习模型进行第二类指标抽取的过程图；

图5是本申请提供的交通运输安全生产事故关键信息抽取的整体逻辑架构图；

图6是本申请提供的关键信息抽取装置的组成结构图；

图7是本申请提供的电子设备的组成结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前交通运输安全生产事故关键信息提取方式多以人工阅读、手动录入为主，本申请实施例旨在提供一种能用于交通运输安全生产事故关键信息提取的自动化解决方案，以至少克服现有方式存在的需耗费大量人力物力、信息抽取效率低，且抽取信息带有个人主观色彩，不够准确与客观等缺陷。

当前信息抽取技术常用的方法主要有基于规则的信息抽取方法、有监督的机器学习方法、无监督的机器学习方法。其中，基于规则的信息抽取方法主要是基于大量的文本，通过相关专业领域专家分析制定规则模式并进行模式匹配，将其作为抽取文本关系的依据；有监督的机器学习方法是将抽取视为分类任务进行处理，首先需要对训练数据进行人工标注，然后根据这些数据抽取有效的特征；无监督的机器学习方法用计算机代替人们完成这些无聊且繁琐的工作，以没有标记的训练数据作为样本来解决关系抽取的问题。

申请人研究发现，基于规则的信息抽取方法准确率较高，但普适性差，手工编写抽取规则的过程复杂耗时；有监督的机器学习方法主要缺点在于需要人工标注大量的训练数据，相应需要耗费较高的人力，且信息准确率无法保证，同时在抽取特征时也会出现误差；而无监督的机器学习方法由于没有标注好的数据作为参考，导致在准确率方面并不能保证。

基于上述研究，本申请实施例公开一种关键信息抽取方法、装置、电子设备和可读存储介质，该关键信息抽取方法、装置、电子设备和可读存储介质提供一种基于规则模型和半监督学习相结合的关键信息抽取实现方案，以改善上述各现有信息抽取技术存在的缺陷。

参见图1提供的关键信息抽取方法流程图，本申请公开的关键信息抽取方法具体包括以下各处理步骤：

步骤101、获取预设场景事件的待进行关键信息抽取的待处理文本。

预设场景事件可以是但不限于交通运输安全生产事故、医疗事故等特定场景事件。本申请实施例将主要针对交通运输安全生产事故的案例特点，以交通运输安全生产事故的关键信息抽取为例进行方案说明。

针对交通运输安全生产事故这一场景事件，所获取的待处理文本可以是但不限于交通运输安全生产事故报告，其通常为非结构化文本。

步骤102、将待处理文本转换为支持基于规则和基于深度学习进行信息抽取的预设结构，得到预设结构文本。

在获得预设场景事件的待处理文本后，对待处理文本进行信息预处理，以将其转换为支持基于规则和基于深度学习进行信息抽取的预设结构。交通运输安全生产事故报告信息预处理，主要包括：利用预先构建的分句模型对待处理文本进行分句处理，得到包含待处理文本的相应分句的分句结果；基于预先构建的对应于上述场景事件的分词词库对分句结果进行分词处理，得到包含待处理文本的相应分词的分词结果，该分词结果构成的文本即作为上述的预设结构文本。

以交通运输安全生产事故这一场景事件为例，具体可对非结构化事故报告进行预处理，将文本形式转成以句子为单位的结构化组织形式，为后续分词提供基础；并在分句的结果之上，基于构建的交通运输安全生产事故词库，对每一个单句进行分词处理，便于深度学习模型和规则模型的构建和运行。对非结构化事故报告的分句及分词的预处理过程具体如下：

11)对非结构交通运输安全生产事故报告分句

事故报告内容通常由一长串文本组成，经由编程语言读取后，不含任何结构信息。为了进一步对其处理，首先利用分句模型对其进行分句操作。基于规则的方法对交通运输安全生产事故报告进行分句处理。

分句模型构建如下：

单字符断句：基于。！？等单字符终结符对事故报告内容进行断句以实现分句，其一种示例性正则规则为：re.sub(′([。！？\？])([^”’])′，r″\1\n\2″，para)；

英文省略号：基于英文省略号对事故报告内容进行断句以实现分句，其一种示例性正则规则为：re.sub(′(\.{6})([^”’])′，r″\1\n\2″，para)；

中文省略号：基于中文省略号对事故报告内容进行断句以实现分句，其示例性正则规则为：re.sub(′(\...{2})([^″′])′，r″\1\n\2″，para)；

当双引号前有终止符时，将双引号作为句子的终点，其一种示例性正则规则为：re.sub(′([。！？\？][″′])([^，。！？\？])′，r′\1\n\2′，para)。

基于上述分句模型，以xx地点xx时间的重大道路交通事故调查报告为例进行分句。

示例文本输入为：xx年xx月xx日xx时xx分，xx地点发生一起重大道路交通事故。事故共造成10人死亡，4人重伤、24人轻伤，直接经济损失约800万元。依据xx条例等有关法律法规的规定，政府成立了由相关部门组成的重大道路交通事故调查组。同时，邀请2名省内公路工程专业领域知名专家参加事故调查。

分句结果为：

句1：xx年xx月xx日xx时xx分，xx地点发生一起重大道路交通事故。

句2：事故共造成10人死亡，4人重伤、24人轻伤，直接经济损失约800万元。

句3：依据xx条例等有关法律法规的规定，政府成立了由相关部门组成的重大道路交通事故调查组。

句4：同时，邀请2名省内公路工程专业领域知名专家参加事故调查。

12)对非结构交通运输安全生产事故报告分词

在分句的结果之上，进一步对每一个单句进行分词处理，以便于规则模型和深度学习模型的构建和运行。具体步骤如下：

S11、构建交通运输安全生产词库

本申请依托分词工具实现交通运输安全生产事故报告分词，为提高分词结果的精确程度，在分词工具现有分词词库基础上补充交通运输安全生产词库，以对包含在词库中的词直接识别。

所依托的分词工具可以是但不限于结巴分词工具，相应在结巴分词词库基础上补充交通运输安全生产词库，增加的词库内容包括但不限于行政区划名称、安全生产特有词库、高速公路名称等。

增加的行政区划名称如表1所示，需要说明，表1仅为增加的部分行政区划名称，不代表本申请涉及的所有名称。

表1行政区划名称

增加的安全生产词库包括但不限于：安监局、安全生产监督管理局、安委会、安办、安全生产委员会办公室、安全生产协会、安全许可、纪检、政策法规、管理、监察、督查、审查、检查、视察、督察、原则、属地管理、政府工作、形势、体制、安全生产、受伤、受伤人数、死亡、死亡人数、起数、事故、事故起数、安全事故、安全生产事故、伤亡事故、上升、下降、同期、同期相比、薄弱、差距、河段、特种作业、隐患、隐患监控、整改、排查整治等。

增加的高速公路名称包括但不限于：高速公路名称包括京哈高速、京沪高速、京台高速、京港澳高速、广澳高速、京昆高速、京藏高速、京新高速、鹤大高速、鹤哈高速、集双高速、丹阜高速、沈海高速、常台高速、日兰高速、甬金高速、温丽高速、宁上高速等。

S12、基于结巴分词工具实现交通运输安全生产语句分词

结巴分词算法使用基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG)，再采用动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词(即没有被收录在分词词表中但需切分出来的词)，采用基于汉字成词能力的HMM(Hidden Markov Model，隐马尔可夫模型)，使用Viterbi算法实现分词。本申请具体基于设定的交通运输安全生产词库和结巴分词工具，对交通运输安全生产事故报告语句进行分词。

基于交通运输安全生产词库和结巴分词工具，以xx地点xx时间的重大道路交通事故调查报告为例，分词结果示例如下：

输入：xx年xx月xx日xx时xx分，xx地点发生一起重大道路交通事故。

结合安全生产词库分词处理结果为：[′xx年′，′xx月′，′xx日′，′xx时′，′xx分′，′，′，′xx地点′，′发生′，′一起′，′重大′，′道路′，′交通事故′，′。′]

步骤103、利用预先制定的规则模型对所述预设结构文本进行第一类指标的信息抽取，得到所述第一类指标的指标信息；所述规则模型包括根据所述预设场景事件的文本特征设置的对所述第一类指标的提取规则。

之后，进一步基于转换得到的预设结构文本(如交通事故报告的分句/分词信息)，利用预先基于规则和深度学习相结合的信息抽取方式构建的关键因素提取模型进行信息抽取。

针对交通运输安全生产事故的关键信息抽取，本申请构建了多层交通运输安全生产关键属性指标体系，所构建的多层交通运输安全生产关键属性指标体系包括第一类指标和第二类指标，第一类指标和第二类指标分别包括所构建的多层关键属性指标体系中的不同多层关键属性指标，且第二类指标的表达多样性高于第一类指标的表达多样性。

以交通运输安全生产事故为例，本申请实施例根据交通运输安全生产事故特点，参考相关行业标准，构建多层交通运输安全生产事故报告关键属性信息提取指标，以实现交通运输安全生产事故报告关键属性信息的准确提取。

参见表2，示例性提供了本申请构建的多层交通运输安全生产关键属性指标体系：

表2交通运输安全生产指标体系

其中，针对制定的安全生产关键属性指标，结合交通运输安全生产事故报告特征，确定出事故时间、事故地点、事故类型、伤亡人数、经济损失、天气情况、个人因素这些指标的规则性较强，适合采用规则模型进行提取，本实施例将上述各个一级指标及其分别对应的二级指标确定为第一类指标，即该示例中每个第一类指标包括一级和二级两层指标。

而管理因素这一一级指标下的各个二级指标即安全生产管理制度不健全、车辆动态监控工作责任不落实、安全管理不到位或主体责任未落实、隐患排查不到位、安全教育培训不到位五项指标项表达较为多样，适宜采用深度学习模型进行提取，本申请实施例相应将管理因素这一一级指标以及该一级指标下的各个二级指标确定为第二类指标。

第一类指标在表达形式上规则性较强，采用规则模型对其进行提取。对应于表2的多层交通运输安全生产关键属性指标体系，所制定的规则模型相应包括如下的任意一种或多种：事故发生时间提取规则、事故发生地点提取规则、事故类型提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则、事故致因个人因素提取规则。

具体的，规则模型中的事故发生时间提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则，分别为根据所述交通运输安全生产事故的文本信息中事故发生时间的表达形式、受伤人数的表达形式、死亡人数的表达形式、经济损失的表达形式、事故致因中个人因素表达形式制定的规则。

本步骤103中，结合参见图2提供的基于规则的交通运输安全生产事故报告关键信息抽取流程，利用规则模型对预设结构文本进行第一类指标的指标抽取过程，可进一步实现为如下的任意一种或多种：

21)基于事故发生时间提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故发生时间

本实施例预先选取了多份交通运输安全生产事故报告，并分析事故报告中的事故发生时间的表达形式，制定事故发生时间提取正则匹配规则。

制定的事故发生时间提取正则匹配规则的一个示例如下：([0-9零一二两三四五六七八九十]+年)？([0-9一二两三四五六七八九十]+月)？([0-9一二两三四五六七八九十]+[号日])？([上中下午晚早凌晨]+)？([0-9零一二两三四五六七八九十百]+[点：\.时])？([0-9零一二三四五六七八九十百]+分？)？([0-9零一二三四五六七八九十百]+秒)？

使用上述正则表达式对事故报告进行处理，匹配结果示例为：″2001年8月18日14时40分″、″2002年3月9日8时30分″、″2002年6月19日21时″、″于2003年4月21日9时30分″、″2004年1月18日8时左右″、″2005年4月30日12时15分左右″、″2006年10月1日13时33分″、″2011年10月7日15时45分许″、″2012年1月16日5时50分″、″2012年4月7日17时20分″、″2004年11月27日凌晨4时30分″、″2013年5月31日上午10时04分左右″、″一九九八年6月28日17时″等。

22)基于事故发生地点提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故发生地点

地点的识别采用规则匹配方法。

进一步，基于所需区域(如国家/省/市等)的所有行政名称、区县划分以及行政编码，采用基于规则与信息匹配相结合的方法进行事故发生地点提取。

基于制定的规则模型，事故发生地点提取结果示例如下：

输入：xx区xx路xx号楼xx层。

输出：″xx市xx区″。

23)基于事故类型提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故类型

按照相应条例、规范或标准，构建事故类型提取规则。

示例性的，本实施例按照《生产安全事故报告和调查处理条例》，构建事故类型提取规则，实现事故类型提取，其中具体按照《生产安全事故报告和调查处理条例》，根据生产安全事故造成的人员伤亡或者直接经济损失，将交通运输安全生产事故类型分为4类，如表3所示：

表3交通运输安全生产事故类型

针对设定的各事故类型，进一步分析事故报告中事故类型的表达形式，制定交通运输安全生产事故类型正则匹配规则，所制定事故类型正则匹配规则的一个示例如下：((特大|特别重大)(道路)？(交通)？事故|重大(道路)？(交通)？事故|较大(道路)？(交通)？事故|一般(道路)？事故)。

可选的，为了使提取结果更为精准、规范，提出如下优化方式对事故类型提取进行优化：

①规范事故报告类型。例如，将″特大道路事故″、″特别重大交通事故″、″特大事故″统一为″特大事故″。

②事故报告交叉验证。根据事故报告分类标准，利用伤亡人数、损失进行交叉验证。比如，当抽取算法识别出造成10人以上30人以下死亡，或者50人以上100人以下重伤，或者5000万元以上1亿元以下直接经济时，应该将事故类型分类为重大事故，即使交通报告中未明确表述″重大事故″。

24)基于受伤人数提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的受伤人数

分析事故报告中的受伤人数的表达形式，制定交通运输安全生产事故受伤人数正则匹配规则，所制定受伤人数正则匹配规则的一个示例为：r′(\d+人[^，]？受伤)+？|(\d+人.？(重|轻)？伤)+？|(受伤\d+人)′。

该正则表达式可以识别诸如″造成4人受伤″、″受伤9人″所对应表达形式为规范表达形式，在此基础之上，进行如下的结果优化：

①去处无关的中文词语；

②正则化处理，中文数字表述为阿拉伯数字。

25)基于死亡人数提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的死亡人数

分析事故报告中的死亡人数的表达形式，制定交通运输安全生产事故死亡人数正则匹配规则，所制定死亡人数正则匹配规则的一个示例为：r′(\d+人.？(当场)？死亡)+？|死亡\d+人′。

该正则表达式可以识别诸如″4人死亡″，″9人当场死亡″所对应表达形式为规范表达形式，在此基础之上，进行如下的结果优化：

①去处无关的中文词语，如″当场″；

②正则化处理，中文数字表述为阿拉伯数字。

26)基于经济损失提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的经济损失

分析事故报告中的经济损失的表达形式，制定交通运输安全生产事故经济损失数正则匹配规则，所制定经济损失数正则匹配规则的一个示例为：′经济损失.？(\d+).*元′。

该正则表达式可以正确识别出″直接经济损失xx万元″，″直接经济损失约xx万元″等表达形式的经济损失指标信息。在此基础之上，进行正则化处理，将中文数字表述为阿拉伯数字，另外，可选的，还可以将其统一转换为以″万元″为计数单位。

27)基于事故致因个人因素提取规则，提取交通运输安全生产事故对应的所述预设结构文本中的事故致因个人因素

基于上述的事故致因个人因素提取规则，以xx区xx时间较大道路交通事故调查报告为例进行提取。

输入：xxx驾驶机动车雨天在弯道行驶时未降低行驶速度，未保持安全车速，在与对方会车时发生侧滑越过道路中心实线驶入对向车道，与对向来车相撞；yyy驾驶制动不合格的机动车上路行驶，超过了该路段限速标志标明的最高时速。

结合事故致因个人因素提取规则，提取结果为：″未减速″、“超速”。

步骤104、利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，得到所述第二类指标的指标信息，所述第一类指标的指标信息和所述第二类指标的指标信息构成所述待处理文本的关键信息抽取结果。

基于正则匹配的方法通常较难处理表达较为多样的信息类型，如表2的指标体系中管理因素下的各个指标。因此针对管理因素等表达较为多样的信息指标采用基于深度学习的事故关键因素提取方法。

可选的，本申请构建的深度学习模型为基于BERT(Bidirectional EncoderRepresentation from Transformers，是一个预训练的语言表征模型)的数据关键因素提取模型。该模型的构建过程主要包括：针对交通运输安全生产事故报告，人工标注符合管理因素知识需求的标注语料，构建模型学习所需的标注语料；基于标注语料，构建基于BERT事故关键因素提取模型，用于提取交通运输安全生产事故致因管理因素指标。

结合参见图3所示的深度学习模型构建及基于所构建模型的交通运输安全生产事故报告关键信息抽取流程图，模型构建的详细过程具体如下：

31)构建深度学习模型标注语料

深度学习模型需要经过训练不断修正模型参数，才能得到较为理想的预测模型，而标注语料作为训练过程的输入直接决定生成模型的有效性。针对交通运输安全生产事故报告，人工标注符合管理因素知识需求的标注语料，构建模型学习所需的标注语料。

本申请将多层交通运输安全生产关键属性指标体系中管理因素下安全生产管理制度不健全、车辆动态监控工作责任不落实、安全管理不到位或主体责任未落实、隐患排查不到位、安全教育培训不到位这五种指标确定为模型的五类标签，并收集五类标签相似语句和不相关语句进行标注。涉及的标注语料示例如表4所示，需要说明，表4仅为部分标注语料，并不代表本申请涉及的所有标注语句：

表4标注语料

32)基于BERT的数据关键因素提取模型设计

假设一个句子为X＝{w₁，w₂，w₃，…，w_n}，其中w_i代表句子中的第i个词，n表示句子包含的分词数量。本申请采用如下基于BERT的分类方法对安全生产管理制度不健全、车辆动态监控工作责任不落实、安全管理不到位或主体责任未落实、隐患排查不到位、安全教育培训不到位五类指标进行提取：

S21、词向量映射。对标注语料句子中的分词进行词向量映射处理，得到各分词分别对应的基本词向量；可选的，具体将句子中的每一个词w_i映射为经由Skip-Gram模型训练得到的向量表示e_i∈R^d作为基本词向量，其中，d代表词向量的维度，在本申请中示例性设置为100。经由以上操作，可以将句子X映射为如下矩阵表示：

其中，

代表向量拼接操作。

S22、基于BERT增强的向量融合。申请人研究发现基本词向量所包含的上下文信息较弱，为了增强其表示，本申请将基本词向量与BERT向量进行融合。主要操作为：针对每一个词w_i，将词向量表示e_i、BERT输入向量表示b_i、BERT位置向量表示p_i，将各向量顺次进行拼接，得到BERT增强向量：

其中：b_i∈R⁷⁶⁸，p_i∈R¹⁰⁰，为BERT初始参数。

经由以上操作，可以将句子X映射为如下矩阵表示：

其中：h_i∈R^m，且m＝d+768+100。768和100分别是BERT模型中的输入向量表示和位置向量表示的默认维度。

S23、自注意力机制。以H作为模型输入，构建自注意力增强表示。主要方法为：首先构建查询(query)矩阵Q＝HW_Q，键(key)矩阵K＝HW_K，以及值(value)矩阵V＝HW_V。其中W_Q∈R^m ^×m，W_K∈R^m×m，W_V∈R^m×m为待优化参数。然后，以Q、K、V为输入构建自注意力表示H_A∈R^n×m，实现方法为：

其中，数学函数softmax的计算方法为：假设输入为向量z＝{z₁，z₂，…，z_n}，softmax函数计算第i项为

S24、分类与模型优化。最后，本申请使用H_A作为输入进行最终指标的分类。首先，对H_A中的所有向量求平均，得到句子的整体表示h_a∈R^m；进而，使用h_a作为输入向量对类别进行预测：

O＝softmax(W_th_a+b_t) (5)

O＝{o₁，o₂，…，o_N} (6)

其中，N代表最终指标的个数，o_k为预测的第k个指标的概率。W_t∈R^N×m，b_t∈N为待优化参数。

S25、基于BERT事故关键因素提取模型的训练与测试。

基于BERT事故关键因素提取模型，对上述标注语料进行模型训练与测试，模型优化基于损失梯度下降的策略，以loss不再梯度下降为结束条件，此时的模型参数(包括W，b等)则作为满足训练语料约束条件的最优模型参数。

模型训练过程中通过不断将模型预测结果拟合语料标注结果实现模型调参，最终在达到训练目标时完成所需的深度学习模型的构建。

训练好的模型可用于从事故报告中自动识别和抽取相关因素。可选的，每次迭代训练得到的模型都会在测试集上进行检验，通过测试结果与实际结果进行对比分析，可检验模型或算法的优劣，这个过程也称为模型评估(evaluation)。本申请选取准确率(Accuracy)为评测指标，其计算公式为：

准确率(Accuracy)＝TP/ALL

其中TP代表正确预测的样本个数，ALL代表全部的样本个数。在训练过程中每次迭代都会得到一组模型综合评价结果，在训练过程中随着迭代次数的增加模型各项评价指标总体呈现上升的趋势，迭代到预设次数如40次得到的模型达到最优。

本步骤104具体基于构建的深度学习模型，对待处理文本转换成的预设结构文本进行第二类指标的信息抽取，得到第二类指标的指标信息，如利用深度学习模型对表2交通运输安全生产指标体系中的五种管理因素指标进行信息抽取等，参见图4，该利用深度学习模型进行第二类指标抽取的过程，可进一步实现为：

步骤401、对所述预设结构文本中的分词进行词向量映射处理，得到各个分词分别对应的基本词向量；

步骤402、将各个基本词向量分别与对应BERT向量进行融合，得到BERT增强向量；

步骤403、将所述预设结构文本所对应句子映射为基于分词的BERT增强向量的矩阵表示；

步骤404、以句子的矩阵表示为深度学习模型的输入，构建对应的自注意力增强表示；

具体的，首先根据句子的矩阵表示和所述深度学习模型的待优化参数构建查询矩阵、键矩阵和值矩阵；其中，不同矩阵为分别根据句子的矩阵表示和所述深度学习模型的待优化参数构建的矩阵；之后根据对应的查询矩阵、键矩阵和值矩阵，构建句子的自注意力增强表示。

步骤405、利用深度学习模型根据句子的自注意力增强表示进行分类处理，以预测句子对应的指标类别，所预测的指标类别对应第二类指标中的相应指标。

利用深度学习模型进行第二类指标抽取的过程所涉及的相关处理步骤，与构建深度学习模型过程中对语料的相关处理步骤对应一致，具体可参见构建深度学习模型过程中对语料的相关处理步骤，这里不再详述。

本步骤104中基于深度学习模型提取的第二类指标的指标信息与步骤103中基于规则模型提取的第一类指标的指标信息，共同构成待处理文本的关键信息抽取结果。

参见图5以交通运输安全生产事故关键信息抽取为例提供的关键信息抽取的整体逻辑架构，本申请针对预设场景事件的非结构化文本，通过对其进行指标梳理、指标体系构建，以及指标体系中一系列指标表达形式多样化/规则程度的研判、区分，进而对表达多样化程度低(即相对规则)的第一类指标与表达多样化程度高(即不够规则)的第二类指标分别采用规则模型和深度学习模型进行指标信息抽取，克服了基于规则或基于有监督/无监督机器学习方法中任一单一信息抽取方式所存在的缺陷。

对应于上述的关键信息抽取方法，本申请实施例还公开一种关键信息抽取装置，该装置的组成结构如图6所示，具体包括：

获取模块601，用于获取预设场景事件的待进行关键信息抽取的待处理文本；

转换模块602，用于将所述待处理文本转换为支持基于规则和基于人工智能模型进行信息抽取的预设结构，得到预设结构文本；

第一提取模块603，用于利用预先制定的规则模型对所述预设结构文本进行第一类指标的信息抽取，得到所述第一类指标的指标信息；所述规则模型包括根据所述预设场景事件的文本特征设置的对所述第一类指标的提取规则；

第二提取模块604，用于利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，得到所述第二类指标的指标信息，所述第一类指标的指标信息和所述第二类指标的指标信息构成所述待处理文本的关键信息抽取结果。

在一实施方式中，转换模块602具体用于：

在一实施方式中，预先为上述预设场景事件构建有多层关键属性指标体系；其中，所述第一类指标和所述第二类指标分别包括所述多层关键属性指标体系中的不同多层关键属性指标，且所述第二类指标的表达多样性高于所述第一类指标的表达多样性。

在一实施方式中，所述预设场景事件包括交通运输安全生产事故；所述规则模型包括事故发生时间提取规则、事故发生地点提取规则、事故类型提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则中的至少一种；

第一提取模块603具体用于：

在一实施方式中，上述规则模型中的事故发生时间提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则，分别为根据所述交通运输安全生产事故的文本信息中事故发生时间的表达形式、受伤人数的表达形式、死亡人数的表达形式、经济损失的表达形式、事故致因中个人因素表达形式制定的规则。

在一实施方式中，第二提取模块604具体用于：

在一实施方式中，第二提取模块604在以句子的矩阵表示为所述深度学习模型的输入，构建对应的自注意力增强表示时，具体用于：

实际应用中，可采用软件系统形式实现本申请方案，其中提供系统的输入端和输出端，输入端进行数据变量获取和输入，系统进行数据分析、模型运算、关键因素提取处理、系统逻辑判断等软件程序嵌入、集成、开发，输出端通过显示屏进行可视化展示。

对于本申请实施例公开的关键信息抽取装置而言，由于其与上文方法实施例公开的关键信息抽取方法相对应，所以描述的比较简单，相关相似之处请参见上文方法实施例的说明即可，此处不再详述。

本申请还公开一种电子设备，可以是众多通用或专用的计算装置环境或配置下的设备，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。参见图7提供的该电子设备的组成结构，至少包括：

存储器10，用于至少存放计算机指令集；

计算机指令集可以通过计算机程序的形式实现。可选的，存储器10还可以存储模型创建或运行过程中涉及的相关数据/数据库。

处理器20，用于通过执行计算机指令集，实现如上文任一方法实施例公开的关键信息抽取方法。

即，本实施例提供数据库存储介质，处理器运行介质，计算程序集成介质等相应物理装置，以用于对本申请方案提供集成开发/运行环境，从而解决本申请方案的集成、开发和计算。

其中，处理器20可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。

电子设备具备显示装置和/或具备显示接口、能外接显示装置。

除此之外，电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。

通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等，该通信总线可以分为地址总线、数据总线、控制总线等。

另外，本申请实施例还公开一种可读存储介质，其上存储有计算机指令集，所述计算机指令集被调用并运行时能用于实现如上实施例公开的关键信息抽取方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种关键信息抽取方法，其特征在于，包括：

获取预设场景事件的待进行关键信息抽取的待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本转换为支持基于规则和基于深度学习进行信息抽取的预设结构，得到预设结构文本，包括：

3.根据权利要求1所述的方法，其特征在于，预先为所述预设场景事件构建有多层关键属性指标体系；

4.根据权利要求1所述的方法，其特征在于，所述预设场景事件包括交通运输安全生产事故；所述规则模型包括事故发生时间提取规则、事故发生地点提取规则、事故类型提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则中的至少一种；

5.根据权利要求4所述的方法，其特征在于，所述规则模型中的事故发生时间提取规则、受伤人数提取规则、死亡人数提取规则、经济损失提取规则和事故致因个人因素提取规则，分别为根据所述交通运输安全生产事故的文本信息中事故发生时间的表达形式、受伤人数的表达形式、死亡人数的表达形式、经济损失的表达形式、事故致因中个人因素表达形式制定的规则。

6.根据权利要求2所述的方法，其特征在于，所述利用预先构建的深度学习模型对所述预设结构文本进行第二类指标的信息抽取，包括：

7.根据权利要求6所述的方法，其特征在于，所述以句子的矩阵表示为所述深度学习模型的输入，构建对应的自注意力增强表示，包括：

8.一种关键信息抽取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于至少存放计算机指令集；

处理器，用于通过执行存储器上存放的指令集，实现如权利要求1-7任一项所述的关键信息抽取方法。

10.一种可读存储介质，其特征在于，其上存储有计算机指令集，所述计算机指令集被调用并运行时能用于实现如权利要求1-7任一项所述的关键信息抽取方法。