CN111651995A

CN111651995A - 基于深度循环神经网络的事故信息自动提取方法及系统

Info

Publication number: CN111651995A
Application number: CN202010509228.9A
Authority: CN
Inventors: 王彦忠; 纪梅; 周红波; 蔡来炳; 杨奇
Original assignee: SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD
Current assignee: SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD
Priority date: 2020-06-07
Filing date: 2020-06-07
Publication date: 2020-09-11

Abstract

本发明公开了一种基于深度循环神经网络的事故信息自动提取方法及系统，涉及建筑事故信息自动领域，主要包括：采用词向量模型对待提取结构化数据的建筑事故文本信息进行处理，得到建筑事故文本信息对应的字符对序列；将字符对序列输入到训练好的命名实体识别模型中，以获取建筑事故文本信息对应的命名实体标注结果；训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构，然后根据样本数据集对命名实体识别结构进行训练得到的；根据建筑事故文本信息对应的命名实体标注结果，提取结构化建筑事故数据。本发明能够低成本的获取所需的结构化事故数据。

Description

基于深度循环神经网络的事故信息自动提取方法及系统

技术领域

本发明涉及建筑事故信息自动领域，特别是涉及一种基于深度循环神经网络的事故信息自动提取方法及系统。

背景技术

在开发事故风险预测平台时发现，在人工检索事故信息文本过程中，从中提取有用信息的成本极高，且结构化的事故信息文本又难以利用。

发明内容

针对背景技术存在的缺陷，本发明提供了一种基于深度循环神经网络的事故信息自动提取方法及系统。

为实现上述目的，本发明提供了如下方案：

一种基于深度循环神经网络的事故信息自动提取方法，包括：

获取待提取结构化数据的建筑事故文本信息；

采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列；

将所述字符对序列输入到训练好的命名实体识别模型中，以获取所述建筑事故文本信息对应的命名实体标注结果；所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率，并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果；所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构，然后根据样本数据集对所述命名实体识别结构进行训练得到的；所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集；所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果；

根据所述建筑事故文本信息对应的命名实体标注结果，提取结构化建筑事故数据。

可选的，还包括：

根据所有所述建筑事故文本信息对应的结构化建筑事故数据，构建建筑事故知识库。

可选的，所述采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列，具体包括：

将所述建筑事故文本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故文本信息；

以逗号和句号为分隔符，对所述预处理后的建筑事故文本信息进行分段处理；

计算所有分段处理后的建筑事故文本信息的平均长度，并记作m；

将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故文本信息；

采用word2vec模型对所述长度一致的建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列。

可选的，所述训练好的命名实体识别模型的构建过程为：

根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构；其中，所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层，且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入；

将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中，并结合反向传播算法，对所述命名实体识别结构进行训练，以得到训练好的命名实体识别模型。

可选的，所述样本数据集的构建过程为：

采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息；

将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故新闻文本样本信息；

以逗号和句号为分隔符，对所述预处理后的建筑事故新闻文本样本信息进行分段处理；

计算所有分段处理后的建筑事故新闻文本样本信息的平均长度，并记作m；

将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故新闻文本样本信息；

按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注，得到每条所述建筑事故新闻文本样本信息对应的样本标注序列；所述标注规则为：命名实体X的标注为B-X，未结束的标注为I-X，非命名实体的标注为O，每个字的标注为<字，标注>；

将每个所述样本标注序列作为一条样本数据，采用word2vec模型对所有所述样本数据进行处理，得到样本字符对序列；

将所有所述样本字符对序列合并，得到样本字符对序列集。

一种基于深度循环神经网络的事故信息自动提取系统，包括：

建筑事故文本信息获取模块，用于获取待提取结构化数据的建筑事故文本信息；

字符对序列计算模块，用于采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列；

命名实体标注结果获取模块，用于将所述字符对序列输入到训练好的命名实体识别模型中，以获取所述建筑事故文本信息对应的命名实体标注结果；所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率，并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果；所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构，然后根据样本数据集对所述命名实体识别结构进行训练得到的；所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集；所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果；

结构化建筑事故数据提取模块，用于根据所述建筑事故文本信息对应的命名实体标注结果，提取结构化建筑事故数据。

可选的，还包括：

建筑事故知识库构建模块，用于根据所有所述建筑事故文本信息对应的结构化建筑事故数据，构建建筑事故知识库。

可选的，所述字符对序列计算模块，具体包括：

预处理单元，用于将所述建筑事故文本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故文本信息；

分段处理单元，用于以逗号和句号为分隔符，对所述预处理后的建筑事故文本信息进行分段处理；

平均长度计算单元，用于计算所有分段处理后的建筑事故文本信息的平均长度，并记作m；

长度一致建筑事故文本信息确定单元，用于将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故文本信息；

字符对序列计算单元，用于采用word2vec模型对所述长度一致的建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于深度循环神经网络的事故信息自动提取方法及系统，首先使用双向长短期记忆神经网络和条件随机场层构建一个训练好的命名实体标注模型，然后将待处理的建筑事故新闻文本信息输入到训练好的命名实体标注模型，从而自动化地提取所需要的结构化数据，同时降低提取信息成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一基于深度循环神经网络的事故信息自动提取方法的流程图；

图2为本发明实施例二基于深度循环神经网络的事故信息自动提取系统的结构图；

图3为本发明实施例三基于深度循环神经网络的建筑事故知识库自动构建方法的流程图；

图4为本发明实施例三双向长短期记忆神经网络计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于深度循环神经网络的事故信息自动提取方法及系统，能够低成本的获取所需的结构化事故数据。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本实施例提供的一种基于深度循环神经网络的事故信息自动提取方法，包括如下步骤。

步骤101：获取待提取结构化数据的建筑事故文本信息。

步骤102：采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列。具体为：

将所述建筑事故文本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故文本信息。

以逗号和句号为分隔符，对所述预处理后的建筑事故文本信息进行分段处理。

计算所有分段处理后的建筑事故文本信息的平均长度，并记作m。

将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故文本信息。

步骤103：将所述字符对序列输入到训练好的命名实体识别模型中，以获取所述建筑事故文本信息对应的命名实体标注结果；所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率，并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果；所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构，然后根据样本数据集对所述命名实体识别结构进行训练得到的；所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集；所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果。

所述训练好的命名实体识别模型的构建过程为：

根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构；其中，所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层，且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入。

所述样本数据集的构建过程为：

采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息。

将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故新闻文本样本信息。

以逗号和句号为分隔符，对所述预处理后的建筑事故新闻文本样本信息进行分段处理。

计算所有分段处理后的建筑事故新闻文本样本信息的平均长度，并记作m。

将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故新闻文本样本信息。

按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注，得到每条所述建筑事故新闻文本样本信息对应的样本标注序列；所述标注规则为：命名实体X的标注为B-X，未结束的标注为I-X，非命名实体的标注为O，每个字的标注为<字，标注>。

将每个所述样本标注序列作为一条样本数据，采用word2vec模型对所有所述样本数据进行处理，得到样本字符对序列。

将所有所述样本字符对序列合并，得到样本字符对序列集。

步骤104：根据所述建筑事故文本信息对应的命名实体标注结果，提取结构化建筑事故数据。

步骤105：根据所有所述建筑事故文本信息对应的结构化建筑事故数据，构建建筑事故知识库。

实施例二

如图2所示，本实施例提供了一种基于深度循环神经网络的事故信息自动提取系统，包括：

建筑事故文本信息获取模块201，用于获取待提取结构化数据的建筑事故文本信息。

字符对序列计算模块202，用于采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列。

命名实体标注结果获取模块203，用于将所述字符对序列输入到训练好的命名实体识别模型中，以获取所述建筑事故文本信息对应的命名实体标注结果；所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率，并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果；所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构，然后根据样本数据集对所述命名实体识别结构进行训练得到的；所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集；所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果。

结构化建筑事故数据提取模块204，用于根据所述建筑事故文本信息对应的命名实体标注结果，提取结构化建筑事故数据。

建筑事故知识库构建模块205，用于根据所有所述建筑事故文本信息对应的结构化建筑事故数据，构建建筑事故知识库。

其中，所述字符对序列计算模块202，具体包括：

预处理单元，用于将所述建筑事故文本信息转化为UTF-8编码的中文字符，并对所述中文字符进行无效字符去除处理，得到预处理后的建筑事故文本信息。

分段处理单元，用于以逗号和句号为分隔符，对所述预处理后的建筑事故文本信息进行分段处理。

平均长度计算单元，用于计算所有分段处理后的建筑事故文本信息的平均长度，并记作m。

长度一致建筑事故文本信息确定单元，用于将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m，进而得到长度一致的建筑事故文本信息。

在所述命名实体标注结果获取模块203中，所述训练好的命名实体识别模型的构建过程为：

在所述命名实体标注结果获取模块203中，所述样本数据集的构建过程为：

将所有所述样本字符对序列合并，得到样本字符对序列集。

实施例三

本实施例提出一种基于深度循环神经网络的建筑事故知识库自动构建方法，该方法首先对一部分建筑事故文本语料进行预处理和命名体标注，作为训练语料，并转化为字符对序列；然后对字符对序列进行双向长短期记忆神经网络(Bidirectional Long-ShortTerm MemoryNeuralNetwork，简称Bi-LSTM)与条件随机场(Conditional Random Field，简称CRF)层的训练；通过多次迭代后使用测试预料评估精准率、召回率和F1值；使用训练好的模型对未标注的建筑事故文本语料进行命名体识别，提取出其中的领域信息，并形成结构化数据，自动化构建建筑事故知识库。

如图3所示，本实施例提供的一种基于深度循环神经网络的建筑事故知识库自动构建方法，包括：

步骤1：通过网络爬虫技术获取大量无标注的建筑事故新闻文本信息，然后对这些建筑事故新闻文本信息进行预处理工作。

预处理工作为：将建筑事故新闻文本信息转化为UTF-8编码的中文字符，并且去除无效字符(例如“\xa0”，“\u3000”等)，得到预处理后的建筑事故新闻文本信息；其中，预处理后的建筑事故新闻文本信息为纯文本，例如“常熟市万通通信建设有限公司光纤安装工付某某，在张家港沙太钢铁有限公司棒线厂七车间2#线主跨与副跨中间行车维修走道上敷设光纤作业时……”。

步骤2：首先以逗号和句号为分隔符，对预处理后的建筑事故新闻文本信息进行分段处理；其次计算所有分段处理后的建筑事故新闻文本信息的平均长度，并记作m；然后将长度大于m的分段处理后的建筑事故新闻文本信息去掉第m个字后面的所有字符，将长度小于m的分段处理后的建筑事故新闻文本信息增加无意义字符直到长度为m，从而得到长度一致的建筑事故新闻文本信息；最后并按照设定标注规则对长度一致的建筑事故新闻文本信息进行标注。

标注规则为：命名实体X的标注为B-X，未结束的标注为I-X，非命名实体的标注为O，每个字的标注为<字，标注>，等同于有监督训练中的<x，y>。

信息标注过程为：首先找多个人先对10％的长度一致的建筑事故新闻文本信息进行标注，然后进行经验与规则总结。例如，命名实体中含有双引号，则也需标注为实体；定义最大规则，如果遇到一句话中的实体可以拆分为多个实体，仅将其作为一个实体进行标注，如“县人民政府新闻办”，仅标注为“县人民政府新闻办”，而不是“县人民政府”“新闻办”两个实体。最后总结经验与规则后进行正式标注，并且针对同一句话的同一个字，必须标为实体的人数比例超过一定阈值θ才形成标注结果，否则重新商讨后对其进行重新标注，直至所有数据(该数据为长度一致的建筑事故新闻文本信息)全部标注完毕。

步骤3：标注完成后，将每个长度一致的建筑事故新闻文本信息的标注序列{<字1，标注1>，<字1，标注1>，……，<字m，标注m>}作为一条样本数据，并且使用模型维度为n的词向量模型word2vec将其中的“字”转化成字符特征向量，得到样本字符对序列；每个样本字符对序列的维度也为n，则每条样本数据均可以构造为一个样本字符对序列I＝{x^＜1＞,x^＜2＞,...,x^＜n＞}。

步骤4：首先随机划分70％样本字符对序列作为训练集，30％样本字符对序列作为测试集，其次将训练集的每个样本字符对序列I输入到双向长短期记忆神经网络中进行训练，然后将双向长短期记忆神经网络的输出再作为发射矩阵输入到条件随机场层中，得到命名实体识别模型；最后将测试集的每个样本字符对序列I输入命名实体识别模型中进行测试，得到训练好的命名实体识别模型。这个训练好的命名实体识别模型能够计算字符对序列中的每个字属于某个命名实体类别标志的概率，并且以最大概率所属的命名实体类别标志对应的标注结果作为字符对序列的标注结果。

如图4所示，双向长短期记忆神经网络包含一个输入层，两个隐含层和一个softmax层，通过反向传播算法进行学习，第一个隐含层表示前向LSTM神经网络，第二个隐含层表示后向LSTM神经网络，每个隐含层都拥有固定大小的LSTM神经元，并且每个LSTM神经元都具有遗忘门和保存机制，可以选择性遗忘和保留输入的信息，从而缓解梯度消失或者梯度爆炸的问题。

公式

为LSTM神经元的遗忘门(forget gate)公式；其中，σ为sigmoid激活函数；a^＜t-1＞为上一个LSTM神经元的隐状态，如果当前计算的是该隐含层的第一个LSTM神经元，则a^＜t-1＞为随机初始化的向量；x^＜t＞为按照时序输入的第t个向量；b_f为随机初始化的偏置向量；W_f为遗忘门参数矩阵。第一次训练时的参数为随机初始化的参数，后续根据反向传播进行学习，遗忘门

是用来决定哪些信息需要遗忘。

公式

为LSTM神经元的更新门(update gate)公式；其中，σ为sigmoid激活函数；a^＜t-1＞为上一个LSTM神经元的隐状态，如果当前计算的是该隐含层的第一个LSTM神经元，则a^＜t-1＞为随机初始化的向量；x^＜t＞为按照时序输入的第t个向量；b_u为随机初始化的偏置向量；W_u为更新门参数矩阵。第一次训练时的参数为随机初始化的参数，后续根据反向传播进行学习，更新门

是用来决定要增加哪些新的信息。

公式

为LSTM神经元的候选值向量计算公式；其中，a^＜t-1＞为上一个LSTM神经元的隐状态，如果当前计算的是该隐含层的第一个LSTM神经元，则a^＜t-1＞为随机初始化的向量；x^＜t＞为按照时序输入的第t个向量；b_c为随机初始化的偏置向量；W_u为候选值向量参数矩阵。第一次训练时的参数为随机初始化的参数，后续根据反向传播进行学习，候选值向量

是用来与更新门点乘得到要增加的信息。

公式

为LSTM神经元的循环单元c^＜t＞历史信息的保存公式；其中，c^＜t-1＞为上一个循环单元保存的历史信息，如果当前计算的是该隐含层的第一个LSTM神经元，则c^＜t-1＞为随机初始化的向量；

为该LSTM神经元的遗忘门输出；

为该LSTM神经元的更新门输出；

为该LSTM神经元的候选值向量。

公式

为LSTM神经元的输出门(output gate)计算公式；其中，a^＜t-1＞为上一个LSTM神经元的隐状态，如果当前计算的是该隐含层的第一个LSTM神经元，则a^＜t-1＞为随机初始化的向量；x^＜t＞为按照时序输入的第t个向量；b_o为随机初始化的偏置向量；W_o为输出门参数矩阵。第一次训练时的参数为随机初始化的参数，

为该LSTM神经元的输出门输出。

公式

为双向长短期记忆神经网络的第t个LSTM神经元的输出公式，c^＜t＞为该LSTM神经元的历史信息，a^＜t＞为该LSTM神经元的输出内容。

经过上述公式获得每一个输出门的输出内容a^＜t＞，组合成一个长度为m的输出序列X＝(a^＜1＞,a^＜2＞,...,a^＜m＞)，输出序列对应的预测序列为y＝(y₁,y₂,...,y_m)，通过公式

定义预测序列的得分；其中，

为第i个softmax位置输出为y_i的概率，

为从y_i到y_i+1的转移概率。

使用公式(7)求出所有可能的预测序列y的得分s(X,y)，然后采用公式

对所有得分进行归一化；其中，Y_X为预测序列y所有可能的取值，

为针对于输出序列X的预测值。最后通过公式

求出所有可能的预测序列y对应的最高得分，并将得分最高的标注结果作为预测结果输出，标注文本如表1所示。

表1标注文本表

步骤5：针对每一条收集的建筑事故文本信息，先对该建筑事故文本信息进行处理得到字符对序列；然后将字符对序列输入到训练好的命名实体识别模型，得到该建筑事故文本信息的标注结果，并从标注结果中提取出以B-X开头、I-X结尾的所有结构化数据，从而形成大量结构化数据；最后将大量结构化数据存储到数据库中，从而自动构建成为建筑事故知识库。结构化数据如表2所示。

表2结构化数据表

地区	浙江省台州温岭市
		机构	捷宇鞋材有限公司

在本实施例中，通过多人对数据集进行标注，并且对标注标准不断修改，可以提高标注的准确率，从而提高模型的效果；

在本实施例中，通过使用word2vec模型(词向量模型)对文本进行向量化，能够将各个字符的向量维度固定，并且能够保留字符的语义信息，提高数据提取精度。

在本实施例中，通过使用CRF学习输出的标注关系，从而实现对隐含状态的建模，以达到更好的效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度循环神经网络的事故信息自动提取方法，其特征在于，包括：

获取待提取结构化数据的建筑事故文本信息；

2.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法，其特征在于，还包括：

3.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法，其特征在于，所述采用词向量模型对所述建筑事故文本信息进行处理，得到所述建筑事故文本信息对应的字符对序列，具体包括：

4.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法，其特征在于，所述训练好的命名实体识别模型的构建过程为：

5.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法，其特征在于，所述样本数据集的构建过程为：

将所有所述样本字符对序列合并，得到样本字符对序列集。

6.一种基于深度循环神经网络的事故信息自动提取系统，其特征在于，包括：

7.根据权利要求6所述的一种基于深度循环神经网络的事故信息自动提取系统，其特征在于，还包括：

8.根据权利要求6所述的一种基于深度循环神经网络的事故信息自动提取系统，其特征在于，所述字符对序列计算模块，具体包括：