CN112269949B

CN112269949B - 一种基于事故灾害新闻的信息结构化方法

Info

Publication number: CN112269949B
Application number: CN202011116412.3A
Authority: CN
Inventors: 俞一奇; 邱彦林; 陈尚武
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2023-09-22
Anticipated expiration: 2040-10-19
Also published as: CN112269949A

Abstract

本发明公开了一种基于事故灾害新闻的信息结构化方法，首先利用网络爬虫，对事先设定好的各大门户网站爬取新闻数据作为初始语料库；然后利用深度学习方法构建事故灾害抽取模型，并用获取的新闻数据样本训练模型；再将抽取模型部署到分析系统中，对实时获取的每一条新闻抽取其事故类型和事故要素，并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。本发明可以针对海量的互联网新闻数据，自动、精准地抽取事故灾害事件及相关事件要素，便于检索、分析，为后续事故灾害统计和预防提供必要的数据信息；且不需要人为查找、筛选，大大降低了人力成本，具有重要的大数据应用研究价值。

Description

一种基于事故灾害新闻的信息结构化方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于事故灾害新闻的信息结构化方法。

背景技术

近年来，随着社会经济的发展和人民生活水平的提高，各类企业、工厂的数量和规模都在扩大，但与此同时也造成各种事故灾害频发，给社会稳定和谐带来不利影响。事故灾害主要包括工矿商贸的安全生产事故、交通运输事故、环境污染和生态破坏事故等，且一般会有多个事件要素构成，如：发生时间、发生地点、受伤人数、死亡人数、经济损失等。国内每天都在发生大小事故数十起，而关于这些事故的相关新闻报道更是不计其数，从海量的新闻中抽取事故灾害要素并整合结构化，将为后续事故灾害统计和预防提供必要的数据信息。

随着互联网信息公开化程度的提升，事故灾害的发布渠道已从单一的政府公文扩展到各类新闻网站等网络渠道，利用自然语言处理技术对网络上爬取的原始新闻进行加工处理得到对应结果。该方法可实现自动获取事故灾害相关信息，便于后期统计、分析；且不需要人为提取、录入，大大降低了人力成本，具有重要的大数据价值。

发明内容

有鉴于此，本发明提出一种基于事故灾害新闻的信息结构化方法。通过网络爬虫不停地爬取各大网站的新闻，使用训练好的事故灾害抽取模型处理新闻内容判断其是否为事故灾害事件，若是则进一步抽取其中的相关要素并存入到数据库中，以便为后续事故灾害统计和预防提供必要的基础信息。为实现上述目的，本发明提供如下技术方案：

一种基于事故灾害新闻的信息结构化自动方法，包括以下步骤：

步骤一：利用网络爬虫，对事先设定好的各大门户网站爬取新闻数据作为初始语料库；

步骤二：利用深度学习方法构建事故灾害抽取模型，并用步骤一获取的新闻数据样本训练模型；

步骤三：将抽取模型部署到分析系统中，对实时获取的每一条新闻抽取其事故类型和事故要素，并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中。

进一步的，步骤二包括以下步骤：

2.1：标注样本：通过BIO标注方式，对采集到的新闻数据标注其中的事故类型和事故要素，事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸，事故要素包括发生时间、发生地点、受伤人数、死亡人数、经济损失；

2.2：划分数据集：将标注完的新闻数据随机划分为训练数据集和测试数据集，其中测试数据集占20％；

2.3:构建模型：采用ALBERT、Bi-LSTM和CRF组合的方式实现；ALBERT的输入为新闻句子的字符(包括中文字符、英文单词、数字和标点符号)，内容长度不超过512，记为n；输出为每一个字符经计算得到的向量，向量维度大小为128，因此最终输出为n×128(x₁,x₂,,x_n)；将每一个字符对应的向量x_i，依次作为Bi-LSTM的输入，经过循环计算，得到每一个LSTM单元的输出向量y_i，y_i的维度大小为23，y_i的含义为23种标签对应的概率值，Bi-LSTM的最终输出为n×23(y₁,y₂,,y_n)；将每一个单元输出的概率值通过CRF层得到最终结果路径；CRF层能加入一些约束来保证最终预测结果是有效的，这些约束能在训练数据时被CRF层自动学习得到，CRF通过计算所有路径的得分进行训练和预测，设每种路径的分数为P_i，共有N条路径，则路径的总分是

其中，表示第i个LSTM单元输出的对应标签的概率值；/>表示第i个标签到第i+1个标签的跳转概率，此跳转概率属于CRF层的参数，在训练时会自动学习；

训练时，损失函数定义如下，其中P_RealPath代表真实路径得分

实际预测时，取得分最高的路径作为最终结果，即P_predict＝max(P₁,P₂,,P_N)；

2.4：将训练数据集作为模型的输入，根据损失函数计算loss值，反向传播训练模型，训练过程中，使用测试数据集对模型进行测试，将模型预测的结果与人工标注的结果进行比较，计算准确率，若准确率超过95％或迭代次数大于预设最大次数，则完成了整个训练过程，若准确率没有达到要求，则返回继续迭代训练。

进一步的，步骤三包括以下步骤：

3.1:通过网络爬虫爬取预先设定的新闻源网站，利用HTML标签提取新闻的正文，并且过滤掉无关的内容；

3.2:对提取到的新闻正文内容进行预处理，包括：去除内容中的字符乱码；当新闻内容包含大量图片且新闻内容字数少于50字符时，则舍弃该条新闻，返回步骤3.1；

3.3:取新闻内容的前3句话作为摘要，输入到事故灾害抽取模型中，输出预测概率最大的标签路径；

3.4：解析标签路径，判断其中是否含有事故类型标签，若有则同时将提取到的事故要素和事故类型一起保存；若没有，说明该条新闻不是事故灾害新闻，则舍弃该条新闻并返回步骤3.1；

3.5：对抽取到的时间要素进行格式转换，将新闻涉及到的“月”、“日”、“时”(“点”)、“分”；或者“今天”、“昨天”、“上午”、“下午”、“凌晨”时间段；又或者是前两种的组合，通过使用正则表达式，将事故发生时间转换为YYYY-MM-dd的格式；

3.6：对抽取到的地点要素进行格式转换；首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储；对抽取到的地点要素进行结巴分词，并根据结巴的词性标注功能过滤出地点名词，再与已建立的地名表进行查找匹配，将事故发生地点转化为“××省××市××区”的格式；

3.7：将抽取到的受伤人数、死亡人数、经济损失转成阿拉伯数字格式；若提取到的数字为中文格式，则使用正则表达式进行匹配，并转成阿拉伯数字格式；

3.8：将标准化后的发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型存入数据库，然后返回3.1循环。

本发明的有益效果为：

本发明可以针对海量的互联网新闻数据，自动、精准地抽取事故灾害事件及相关事件要素，便于检索、分析，为后续事故灾害统计和预防提供必要的数据信息；且不需要人为查找、筛选，大大降低了人力成本，具有重要的大数据应用研究价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种基于事故灾害新闻的信息结构化自动方法的整体流程图；

图2为本发明实施例中提供的Bi-LSTM循环神经网络的结构示意图；

如图2所示，Bi-LSTM由2×n个单元组成，每个单元的结构完全相同，n与输入数据的长度相等，每个单元都由输入层、隐藏层和输出层组成，第一个单元的输出作为第二个单元的输入，以此类推，直至最后一个单元完成正向计算；再从最后一个单元依次往前，直至第一个单元完成反向计算；再将同一个输入数据的正向结果和反向结果相加得到每一个输出；

图3为本发明实施例中提供的单个LSTM结构的示意图；

如图3所示，单元内包含了4个网络层，其中两个网络层的激活函数是S型函数(sigmoid函数)，另外两个网络层的激活函数是双曲函数(tanh函数)。另外还设置了3道门来控制信息的流通方式，如图3中的和/>“门”是LSTM循环神经网络最典型的特征，起到了保留信息和过滤噪音的作用。xⁱ作为第i个循环单元的输入，同时输入单元系数c^i-1和激活值a^i-1，经过计算后输出yⁱ、单元系数cⁱ、激活值aⁱ，cⁱ和aⁱ又作为第i+1个循环单元的输入，整个过程如下：

yⁱ＝aⁱ

其中，W_f、W_u、W_t分别对应三个步骤的权重系数，b_f、b_u、b_t则是偏置系数，图3中标注的cⁱ、aⁱ、c^i-1、a^i-1分别对应运算过程中产生的中间变量；

图4为本发明实施例中提供的BIO标注示例；

图5为本发明实施例中提供的事故灾害抽取模型总体结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例中提供的一种基于事故灾害新闻的信息结构化方法，整体流程图如图1所示，其主要包括如下步骤：

步骤(1)：利用网络爬虫爬取相关网站的新闻数据。预先选取事故灾害新闻源网站(如各大门户网站、各地新闻网站、应急管理网站)并设置对应的XPath路径，爬虫会自动下载新闻源列表中的所有新闻。

步骤(2)：利用深度学习方法获取事故灾害抽取模型；

(2.1)标注样本

通过BIO标注方式，对采集到的新闻数据标注其中的事故类型和事故要素。事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸6类，事故要素包含发生时间、发生地点、受伤人数、死亡人数、经济损失5类。其中，“B-Label”代表某一字段(事故类型或事故要素)的开头，“I-Label”代表该字段的中间和结尾，“O”代表无关字符；标注示例如图4所示。

(2.2)划分数据集

将标注完的新闻数据集随机划分为训练数据集和测试数据集，其中测试集占20％。

(2.3)构建模型，模型采用ALBERT、Bi-LSTM和CRF组合的方式实现，模型结构如图5所示；

(2.3.1)、ALBERT是由谷歌开源的一个轻量级预训练的语言表征模型，具体作用可理解为将一个句子转化为具有语义信息的向量形式，即数字化。ALBERT的输入为新闻句子的字符(包括中文字符、英文单词、数字和标点符号)，内容长度不超过512，记为n；输出为每一个字符经计算得到的向量，向量维度大小为128，因此最终输出为n×128(x₁,x₂,,x_n)；

(2.3.2)、将上一步中每一个字符对应的向量x_i，依次作为Bi-LSTM的输入，经过循环计算，得到每一个LSTM单元的输出向量y_i，y_i的维度大小为23(6类事故类型和5类事故要素，每一类均含“B-”和“I-”两种标签，再加“O”标签)，y_i的含义为23种标签对应的概率值，Bi-LSTM的最终输出为n×23(y₁,y₂,,y_n)；如图2所示，Bi-LSTM由2×n个单元组成，单个LSTM结构如图3所示。

(2.3.3)、将上一步中每一个单元输出的概率值通过CRF层得到最终结果路径。CRF层可以加入一些约束来保证最终预测结果是有效的(如“B-Label1 I-Labe1”是有效的，“B-Label1 I-Labe2”则是无效的)，这些约束可以在训练数据时被CRF层自动学习得到。CRF通过计算所有可能路径的得分进行训练和预测，设每种可能的路径的分数为P_i，共有N条路径，则路径的总分是

其中，表示第i个LSTM单元输出的对应标签的概率；/>表示第i个标签到第i+1个标签的跳转概率，此跳转概率属于CRF层的参数，在训练时会自动学习。

训练时，损失函数定义如下，其中P_RealPath代表真实路径(标注时结果)得分。

实际预测时，取得分最高的路径作为最终结果，即

P_predict＝max(P₁,P₂,,P_N)

(2.4)训练模型

(2.4.1)、将训练样本分批次输入到模型中；

(2.4.2)、训练过程中，根据步骤(2.3.3)中定义的损失函数(LossFunction)计算损失值(loss)，采用小批量梯度下降法(机器学习中常用的优化算法)不断更新模型权重；

(2.4.3)、经过大量迭代训练后，模型输出的loss值收敛到较低；之后，每一轮迭代训练完成后，在测试集上对模型进行测试，将模型预测的结果与人工标注的结果进行比较，计算准确率(正确结果的个数/全部个数)；若准确率超过95％或迭代次数大于预设最大次数，则完成了整个训练过程，若准确率没有达到要求，则回到步骤(2.4.1)，继续训练。

步骤(3)：将训练好的事故灾害抽取模型部署到实际应用中；

(3.1)、通过网络爬虫爬取预先设定的新闻源网站，利用HTML(超文本标记语言)标签提取新闻的正文，并且过滤掉无关的内容；

(3.2)、对提取到的新闻正文内容进行预处理，主要包括：去除内容中的字符乱码；当新闻内容包含大量图片且新闻内容字数少于50字符时，则舍弃该条新闻，返回步骤(3.1)；

(3.3)、取新闻内容的前3句话作为摘要输入到事故灾害抽取模型中，输出预测概率最大的标签路径(如：B-时间、I-时间、I-时间、O、O、B-地点、I-地点、I-地点、I-地点、O、O、......)；

(3.4)、解析标签路径，判断其中是否含有事故类型标签，若有则同时将发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型一起保存；若没有，说明该条新闻不是事故灾害新闻，则舍弃并返回步骤(3.1)；

(3.5)、对抽取到的时间要素进行格式转换，一般新闻时间会涉及到“月”、“日”、“时”(“点”)、“分”具体时间点；或者只提及“今天”、“昨天”、“上午”、“下午”、“凌晨”这些时间段；又或者是前两种的组合方式。通过使用正则表达式，将事故发生时间转换为YYYY-MM-dd的格式；

(3.6)、对抽取到的地点要素进行格式转换。首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储；对抽取到的地点要素进行结巴(中文分词库)分词，并根据结巴的词性标注功能过滤出地点名词，再与已建立的地名表进行查找匹配，最终以××省××市××区的格式返回事故地点；

(3.7)、对抽取到的伤亡人数和损失金额转成阿拉伯数字格式。若提取到的数字为中文格式(如二十一)，则使用正则表达式(数字[一、二、...、九])+(数词[十、百、千、万、十万、百万、千万、亿])进行匹配，并转成阿拉伯数字格式；

(3.8)、将标准化后的事故时间、事故地点、伤亡人数、经济损失和事故类型存入数据库，返回步骤(3.1)继续循环。

Claims

1.一种基于事故灾害新闻的信息结构化方法，其特征在于：包括以下步骤：S1：利用网络爬虫，对事先设定好的各大门户网站爬取新闻数据作为初始语料库；

S2：利用深度学习方法构建事故灾害抽取模型，并用S1获取的新闻数据样本训练模型；

S3：将抽取模型部署到分析系统中，对实时获取的每一条新闻抽取其事故类型和事故要素，并采用匹配、查找的算法将事故要素转化成标准格式后存入到数据库中；

所述S2包括以下步骤：S21：标注样本：通过BIO标注方式，对采集到的新闻数据标注其中的事故类型和事故要素，事故类型包括危化品、矿山、交通、建筑施工、火灾、工商贸，事故要素包括发生时间、发生地点、受伤人数、死亡人数、经济损失；

S22：划分数据集：将标注完的新闻数据随机划分为训练数据集和测试数据集，其中测试数据集占20％；

S23:构建模型：采用ALBERT、Bi-LSTM和CRF组合的方式实现；ALBERT的输入为新闻句子的字符，这些字符包括中文字符、英文单词、数字和标点符号，内容长度不超过512，记为n；

输出为每一个字符经计算得到的向量，向量维度大小为128，因此最终输出为n×128(x₁,x₂,…,x_n)；将每一个字符对应的向量xi，依次作为Bi-LSTM的输入，经过循环计算，得到每一个LSTM单元的输出向量yi，yi的维度大小为23，yi的含义为23种标签对应的概率值，Bi-LSTM的最终输出为n×23(y₁,y₂,…,y_n)；将每一个单元输出的概率值通过CRF层得到最终结果路径；

S24：将训练数据集作为模型的输入，根据损失函数计算loss值，反向传播训练模型，训练过程中，使用测试数据集对模型进行测试，将模型预测的结果与人工标注的结果进行比较，计算准确率，若准确率超过95％或迭代次数大于预设最大次数，则完成了整个训练过程，若准确率没有达到要求，则返回继续迭代训练；

所述S3包括以下步骤：

S31:通过网络爬虫爬取预先设定的新闻源网站，利用HTML标签提取新闻的正文，并且过滤掉图片、外部链无关的内容；

S32:对提取到的新闻正文内容进行预处理，包括：去除内容中的字符乱码；当新闻内容包含大量图片且新闻内容字数少于50字符时，则舍弃该条新闻，返回步骤S31；

S33:取新闻内容的前3句话作为摘要，输入到事故灾害抽取模型中，输出预测概率最大的标签路径；

S34：解析标签路径，判断其中是否含有事故类型标签，若有则同时将提取到的事故要素和事故类型一起保存；若没有，说明该条新闻不是事故灾害新闻，则舍弃该条新闻并返回步骤S31；

S35：对抽取到的时间要素进行格式转换，将新闻涉及到的“月”、“日”、“时”、“点”、“分”；或者“今天”、“昨天”、“上午”、“下午”、“凌晨”；又或者是前两种的组合，通过使用正则表达式，将事故发生时间转换为YYYY-MM-dd的格式；

S36：对抽取到的地点要素进行格式转换；首先根据中国地名库建立各省市区的详细地名表并采用树型结构存储；对抽取到的地点要素进行结巴分词，并根据结巴的词性标注功能过滤出地点名词，再与已建立的地名表进行查找匹配，将事故发生地点转化为“××省××市××区”的格式；

S37：将抽取到的受伤人数、死亡人数、经济损失转成阿拉伯数字格式；若提取到的数字为中文格式，则使用正则表达式进行匹配，并转成阿拉伯数字格式；

S38：将标准化后的发生时间、发生地点、受伤人数、死亡人数、经济损失和事故类型存入数据库，然后返回S31循环。

2.根据权利要求1所述的一种基于事故灾害新闻的信息结构化方法，其特征在于：所述CRF层能加入一些约束来保证最终预测结果是有效的，这些约束能在训练数据时被CRF层自动学习得到，CRF通过计算所有路径的得分进行训练和预测，设每种路径的分数为Pi，共有N条路径，则路径的总分是：

训练时，损失函数定义如下，其中P_RealPath代表真实路径得分

实际预测时，取得分最高的路径作为最终结果，即P_predict＝max(P₁+P₂+…+P_N)。