CN116756328A - 一种燃气管道事故文本识别方法及系统 - Google Patents

一种燃气管道事故文本识别方法及系统 Download PDF

Info

Publication number
CN116756328A
CN116756328A CN202311061812.2A CN202311061812A CN116756328A CN 116756328 A CN116756328 A CN 116756328A CN 202311061812 A CN202311061812 A CN 202311061812A CN 116756328 A CN116756328 A CN 116756328A
Authority
CN
China
Prior art keywords
gas pipeline
accident
text
accident text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311061812.2A
Other languages
English (en)
Other versions
CN116756328B (zh
Inventor
贺亮
刘云川
甘乐天
周伟
易军
陈凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Hongbao Technology Co ltd
Beijing Baolong Hongrui Technology Co ltd
Original Assignee
Chongqing Hongbao Technology Co ltd
Beijing Baolong Hongrui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Hongbao Technology Co ltd, Beijing Baolong Hongrui Technology Co ltd filed Critical Chongqing Hongbao Technology Co ltd
Priority to CN202311061812.2A priority Critical patent/CN116756328B/zh
Publication of CN116756328A publication Critical patent/CN116756328A/zh
Application granted granted Critical
Publication of CN116756328B publication Critical patent/CN116756328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明揭示了一种燃气管道事故文本识别方法及系统,其方法包括:S100:获取待识别燃气管道原始事故文本;S200:对所获取的待识别燃气管道原始事故文本进行预处理;S300:对预处理后的待识别燃气管道原始事故文本进行标注;S400:构建燃气管道事故文本识别模型并进行训练;S500:将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别,以识别事故文本中的燃气管道事故实体。本发明能够准确的抽取出燃气管道事故文本中的关键信息,解决燃气管道事故文本中实体专业性较强以及一词多义的问题。

Description

一种燃气管道事故文本识别方法及系统
技术领域
本发明属于自然语言处理技术领域,具体涉及一种燃气管道事故文本识别方法及系统。
背景技术
随着国民经济的发展,国家对长输管道的依赖性逐渐提高,而管道对经济、环境和社会稳定的敏感度也越来越高,燃气管道的安全问题已经是社会公众、政府和企业关注的焦点。一旦发生燃气管道事故,将会给人们的生命财产安全带来严重威胁。为了预防事故的发生,当前相关安全技术人员对以往的事故文本进行拆分得到事故发生的时间、地点、原因、现象和遇难人数等因素并进行分析,然后进一步采取预防措施。
目前大部分燃气管道领域相关的信息仅以文字方式存在,需要在巨量文本数据中进行信息筛选、分类、研究分析,对事故相关信息的抽取和归纳分析准确度不高。
发明内容
针对现有技术中的不足,本发明的目的在于提供一种燃气管道事故文本识别方法,该方法不仅能够提高实体识别的准确率,而且能够适用于长文本、短文本以及一条事故文本中存在多个命名实体的情况,增强了模型的鲁棒性。
为实现上述目的,本发明提供以下技术方案:
一种燃气管道事故文本识别方法,包括以下步骤:
S100:获取待识别燃气管道原始事故文本;
S200:对所获取的待识别燃气管道原始事故文本进行预处理;
S300:对预处理后的待识别燃气管道原始事故文本进行标注;
S400:构建燃气管道事故文本识别模型并进行训练;
S500:将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别,以识别事故文本中的燃气管道事故实体。
优选的,步骤S200中,所述对所获取的燃气管道事故文本预处理包括以下步骤:
S201:对事故文本进行修订;
S202:对修订后的事故文本进行字符级切分。
优选的,步骤S300中,采用BIOES标注法对预处理后的燃气管道原始事故文本进行标注。
优选的,步骤S400中,所述燃气管道事故文本识别模型包括:标签输入层、词向量生成层、特征提取层和序列优化层。
优选的,所述词向量生成层包括Transformer编码器,所述特征提取层包括迭代膨胀卷积神经网络和双向长短期记忆网络,所述序列优化层包括条件随机场。
优选的,步骤S400中,所述燃气管道事故文本识别模型的训练包括以下步骤:
S401:将标注好的燃气管道事故文本划分为训练集和验证集;
S402:设置网络参数,将训练集转化为向量后对模型进行训练,用训练好的参数初始化燃气管道事故文本识别模型;
S403:利用验证集对训练后的模型进行验证,在验证过程中,通过包括精确率、召回率和F1值在内的评价指标对模型进行评估,当达到预设评估值时,模型验证通过;否则调整模型参数重新对模型进行训练。
优选的,步骤S500包括以下步骤:
S501:在事故文本中插入标签;
S502:事故文本词向量转换,获得每个字的特征向量;
S503:提取事故文本中的局部特征和全局特征并生成特征序列;
S504:对特征序列进行标签修正,获得最优标签序列结果;
S505:根据最优标签序列结果识别事故文本中的燃气管道事故实体。
本发明还提出一种燃气管道事故文本识别系统,包括:
获取模块,用于获取待识别燃气管道原始事故文本;
预处理模块,用于对所获取的待识别燃气管道原始事故文本进行预处理;
标注模块,用于对预处理后的待识别燃气管道原始事故文本进行标注;
构建模块,用于构建燃气管道事故文本识别模型并进行训练;
识别模块,用于将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别。
本发明还提出一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
本发明还提出一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
与现有技术相比,本发明带来的有益效果为:
1、本发明能够准确的抽取出燃气管道事故文本中的关键信息,解决燃气管道事故文本中实体专业性较强以及一词多义的问题。
2、本发明所述模型鲁棒性强,能够适用于长文本或短文本以及一条事故文本中存在多个命名实体的情况。
附图说明
图1是本发明一个实施例提供的一种燃气管道事故文本识别方法的流程图;
图2是本发明另一个实施例提供的燃气管道事故文本识别模型的结构示意图;
图3是图2所示模型中词向量生成层的结构示意图;
图4是图2所示模型中特征提取层的结构示意图。
具体实施方式
下面将参照附图1至图4详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以通过各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本发明实施例的限定。
一个实施例中,如图1所示,本发明提出一种燃气管道事故文本识别方法,包括以下步骤:
S100:获取待识别燃气管道原始事故文本;
S200:对所获取的待识别燃气管道原始事故文本进行预处理;
S300:对预处理后的待识别燃气管道原始事故文本进行标注;
S400:构建燃气管道事故文本识别模型并进行训练;
S500:将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别,以识别事故文本中的燃气管道事故实体。
上述实施例构成了本发明的完整技术方案,一方面,本发明所述技术方案能够准确的抽取出燃气管道事故文本中的关键信息,解决燃气管道事故文本中实体专业性较强以及一词多义的问题;另一方面,本发明所述模型鲁棒性强,能够适用于长文本或短文本以及一条事故文本中存在多个命名实体的情况,详见后文举例。
另一个实施例中,步骤S200中,所述对所获取的待识别燃气管道事故文本进行预处理包括如下步骤:
S201:人工对事故文本进行修订;
该步骤中,事故文本中难免会出现别字或错字的情况,因此,需要对错别字进行修正,例如文本中所记录的“天然气管道泄露”中,正确的写法应当是“泄漏”,修正后的正确记录应当为“天然气管道泄漏”。此外,文本中还存在记录重复或不完整的情况,就需要将重复的记录予以删除或者将不完整的记录进行补充,从而获得规范的事故文本;
S202:对修订后的事故文本进行字符级切分;
该步骤中,所述的字符切分即是将一句完整的话以单个字符为单位进行切分,以修订后的事故文本记录“天然气管道泄漏”为例,字符切分后获得“‘天’,‘然’,‘气’,‘管’,‘道’,‘泄’,‘漏’”。
另一个实施例中,步骤S300中,采用BIOES标注法对预处理后的待识别燃气管道原始事故文本进行标注。
该步骤中,本实施例采用BIOES标注法对实体类别进行标注,以得到可用于模型检测的事故文本,具体的,所述的BIOES标注法是以B表示实体开头、I表示实体中间、O表示非实体、E表示实体结尾、S表示单个字符实体。根据燃气管道事故文本中包含的时间、地点、原因、现象以及遇难人数等实体,首先定义每一类实体标签,然后通过该方法标注文本,将标注好的的事故文本序列作为词向量生成层的输入。其中,定义实体标签如表1所示,标注文本过程如表2所示。
表1
实体名称 起始标记 中间标记 结束标记 单字符标记
时间 B-TIM I-TIM E-TIM S-TIM
地点 B-LOC I-LOC E-LOC S-LOC
原因 B-REA I-REA E-REA S-REA
现象 B-RES I-RES E-RES S-RES
遇难人数 B-NUM I-NUM E-NUM S-NUM
经济损失 B-ECO I-ECO E-ECO S-ECO
表2
序列 标注 序列 标注
2 B-TIM O
0 I-TIM O
1 I-TIM B-RES
3 I-TIM E-RES
I-TIM O
1 I-TIM O
1 I-TIM O
I-TIM 6 B-NUM
2 I-TIM 2 I-NUM
2 I-TIM E-NUM
I-TIM O
1 I-TIM O
0 I-TIM O
I-TIM O
2 I-TIM O
5 I-TIM O
E-TIM O
O O
B-LOC O
E-LOC 7 B-ECO
B-REA 5 I-ECO
I-REA 7 I-ECO
I-REA 1 I-ECO
I-REA 2 I-ECO
I-REA I-ECO
E-REA E-ECO
O O
另一个实施例中,如图2所示,所述燃气管道事故文本识别模型包括:标签输入层、词向量生成层、特征提取层和序列优化层。
本实施例中,所述词向量生成层包括Transformer编码器,所述特征提取层包括迭代膨胀卷积神经网络和双向长短期记忆网络。其中,迭代膨胀卷积神经网络是将4个大小相同的膨胀卷积块叠在一起,每个膨胀卷积块内膨胀宽度为1,1,2这3层,网络结构如图2中IDC-BLSTM模块中间部分;双向长短期记忆网络由两个时序相反的长短期记忆网络构成,每个长短期记忆网络又由输入门、输出门和遗忘门构成,网络结构如图2中IDC-BLSTM模块两侧部分,左侧表示前向长短期记忆网络,右侧表示反向长短期记忆网络。所述序列优化层包括条件随机场。
在一个实施例中,本发明的模型引入注意力机制,具体的,通过查询矩阵、键矩 阵和值矩阵来关注文本中重要的特征信息,并且通过叠加注意力机制来获取不同层面 的特征信息。
另一个实施例中,步骤S400中,所述燃气管道事故文本识别模型的训练包括以下步骤:
S401:将全部标注好的燃气管道事故文本以7:3的比例划分为训练集和验证集;
S402:设置学习率为0.0005,Batch size为8,将训练集转化为向量后对模型进行训练,用训练好的参数初始化燃气管道事故文本识别模型;
S403:利用验证集对检测模型进行验证,在验证过程中,利用精确率、召回率和F1值作为评价指标对模型进行评估,当达到预设评估值时,模型验证通过;否则调整模型参数重新对模型进行训练,例如将Batch size由8调整为16,学习率大小由0.0005调整为0.00005,调整模型使用的优化器,如Adam等。
精确率、召回率和F1值的公式分别如式(1)(2)(3)所示;
(1)
式中,为精确率,表示预测正确的样本中有多少是真实正确的;表示预测和 真实都是正确的样本;表示预测是正确真实是错误的样本。
(2)
式中,为召回率,表示真实为正确的样本中有多少是预测正确的样本;表示 预测和真实都为正确的样本;表示预测为错误真实为正确的样本。
(3)
另一个实施例中,步骤S500包括以下步骤:
S501:在事故文本中插入标签;
该步骤中,需要首先使用分词器在切分后的事故文本的开头插入[CLS]表示特征是否用于分类模型,其次,在文本的结尾插入[SEP]以区分句子,示例性的,在句子“居民区所属天然气公司前期铺设的燃气管道由于破损而发生泄漏事故,泄漏的天然气在空中聚积到一定浓度后接触高温明火最终导致事故的发生”的开头和结尾加[CLS]和[SEP],处理后为“[CLS]‘居’,‘民’,‘区’,‘所’,‘属’,‘天’,‘然’,‘气’,‘公’,‘司’,‘前’,‘期’,‘铺’,‘设’,‘的’,‘燃’,‘气’,‘管’,‘道’,‘由’,‘于’,‘破’,‘损’,‘而’,‘发’,‘生’,‘泄’,‘漏’,‘事’,‘故’,‘,’,‘泄’,‘漏’,‘的’,‘天’,‘然’,‘气’,‘在’,‘空’,‘中’,‘聚’,‘积’,‘到’,‘一’,‘定’,‘浓’,‘度’,‘后’,‘接’,‘触’,‘高’,‘温’,‘明’,‘火’,‘最’,‘终’,‘导’,‘致’,‘事’,‘故’,‘的’,‘发’,‘生’[SEP]”。
S502:事故文本词向量转换,获得每个字的特征向量;
该步骤中,本发明使用字符嵌入向量、分割向量和位置向量三个部分组成最终的输入向量,其中,字符嵌入向量表示每个字符本身的向量;分割向量用来区分两个句子,一般地,第一个句子用0表示,第二个句子用1表示,例如“[CLS]燃气泄漏[SEP]导致爆炸[SEP]”表示为“00000011111”;位置向量表示每一个字符在序列中的位置信息,且是在网络中学习得到的。例如,输入句子为“燃气管道泄漏导致爆炸”,则字符嵌入向量为“E[CLS],E,E,E,E,E,E,E,E,E,E,E[SEP]”,分割向量为“EA,EA,EA,EA,EA,EA,EA,EA,EA,EA,EA,EA”,位置向量为“E0,E1,E2,E3,E4,E5,E6,E6,E8,E9,E10,E11”。
在完成以上分类后,再经过Transformer编码器的Encoder结构进行编码以输出动态词向量,具体编码过程结合图3,描述如下:
一个Encoder模块中的计算过程如下:
(1)字向量与位置编码:
(4)
其中,表示输入的句子,表示每一个字的句向量,表示所有字的位置向 量。
(2)自注意力机制:
(5)
(6)
(7)
(8)
其中,表示输入矩阵,表示权重矩阵,表示全连接层, 分别表示查询矩阵、键矩阵、值矩阵的中间变量,分别表示查询矩阵、键矩阵、值矩 阵,表示注意力头计算,表示加了注意力机制后的字向量输出。
(3)Self-Attention残差连接与Layer Normalization:
(9)
(10)
其中,表示矩阵标准化,有助于模型的收敛。
(4)FeedForward部分就是对加了注意力机制的字向量进行激活并做线性映射:
(11)
其中,表示激活函数,表示全连接层,表示隐藏层矩阵。
(5)FeedForward残差连接与Layer Normalization:
(12)
(13)
其中,表示隐藏层矩阵,表示加了注意力机制后的字向量输出,表示矩 阵标准化。
多头注意力机制是多个自注意力模块并行的结果,输入一条文本信息,并行的每 一个自注意力模块能够捕捉到不同层面的特征信息,从而得到更多的事故文本特征。多头 自注意力机制()可通过以下公式表示:
(14)
(15)
(16)
其中,为输入矩阵;为权重矩阵;为矩阵的转置;为查询矩 阵 和键矩阵 的维度;为对矩阵按行进行归一化;为第 个注意力头的结果;为注意力机制的结果;分别为矩阵的权重 矩阵;为矩阵的拼接;为自注意力头的数目;为拼接后的权重矩阵。
一个encoder模块的输出如下公式所示:
(17)
(18)
其中,为输入矩阵;为多头注意力机制的输出;为注意力机制矩阵; 为矩阵的标准化;为激活函数;为全连接层;为输出矩阵。
经过Transformer编码器的Encoder结构编码后生成的的动态词向量“H[CLS],H,H,H,H,H,H,H,H,H,H,H[SEP]”。
S503:提取事故文本中的局部特征和全局特征并生成特征序列;
该步骤中,如图4所示,特征提取层由迭代膨胀卷积神经网络和双向长短期记忆网 络融合组成,其中,迭代膨胀卷积神经网络通过将膨胀宽度运算添加到原始的卷积核来增 大感受野,只需要连接几层即可获得覆盖所有输入文本序列的效果,在捕捉长序列特征时 也能考虑到局部特征。将编码器输出的作为网络的输入,如公式(19)-公式(22)所 示,其中,表示全连接层;表示第一层的膨胀系数为1;表示卷积模块第一层的输 出;表示膨胀宽度,表示每一个卷积模块,由多个堆叠而成;表示卷积模块迭代 了次;表示激活函数;表示矩阵的标准化;表示输出。
(19)
(20)
(21)
(22)
双向长短期记忆网络由一个前向长短期记忆网络与后向长短期记忆网络连接组成,前向长短期记忆网络能够捕捉到当前燃气管道事故文本之前的依赖信息,后向长短期记忆网络能够捕捉到当前燃气管道事故文本之后的依赖信息,通过添加一个反向时序的长短期记忆网络,使得可以提取更完整的特征信息,因此可以提取事故文本全局的上下文特征。长短期记忆网络的关键结构是交互层中的三门层,即输入、输出和遗忘门。输入门将学习的当前信息和新信息一起输入到网络中,输出门将有用的信息进行输出,遗忘门能够在细胞态中丢弃对上下文分析无用的信息。例如,句子“燃气管道阀门密封性不好”中,“不”字是对“好”字的否定,即句子的情感是贬义的。
双向长短期记忆网络计算过程如公式(23)-公式(35)所示:
(1)前向计算时刻的输出
(23)
(24)
(25)
(26)
(27)
(28)
(2)反向计算时刻的输出
(29)
(30)
(31)
(32)
(33)
(34)
(3)将时刻前向和反向进行拼接:
(35)
其中,为sigmod激活函数;为双曲正切激活函数;分别 为在时刻遗忘门、输入门、记忆细胞、输出门和记忆体公式;分别为不同 门对应的权重矩阵;为偏置向量;为输入的中间状态;时刻的输入 向量;时刻经过输出门筛选之后的输出向量,其中变量上方的向右箭头和向左箭头 表示前向、反向。
为使得抽取的两类事故文本特征得到有效利用,对迭代膨胀卷积神经网络和双向长短期记忆网络的输出根据下式进行拼接,以对事故文本的局部特征和全局特征进行融合。
(36)
其中,为全连接层;为迭代膨胀卷积神经网络层输出; 为双向长 短期记忆网络层输出;为拼接操作;为融合层输出。
S504:对特征序列进行标签修正,获得最优标签序列结果。
由于迭代膨胀卷积神经网络和双向长短期记忆网络模型提取的燃气管道事故文本特征序列可能会存在输出的实体和标签不匹配的情况,例如,句子“居民楼发生天然气泄漏,发生爆炸。”,其事故原因为[‘天’,‘然’,‘气’,‘泄’,‘漏’],实际对应的标签为[‘B-REA’,‘I-REA’,‘I-REA’,‘I-REA’,‘E-EQU’],可能由模型输出的序列标签就变为了[‘I-REA’,‘E-REA’,‘B-REA’,‘I-REA’,‘I-REA’],输出的事故原因是[‘泄’,‘漏’,‘天’,‘然’,‘气’];另一种情况就是模型输出的一组序列标签中出现了两类实体标签[‘B-TIM’,‘I-ECO’,‘E-ECO’]。为了避免这些情况的发生,需要使用条件随机场来对模型的预测进行约束,通过条件随机场标签修正,学习标签之间的顺序依赖信息,从而保证预测标签的合理性,得到最终抽取的关键文本信息。
将迭代膨胀卷积神经网络和双向长短期记忆网络模型提取的燃气管道事故文本 特征序列作为条件随机场的输入,记作;序列的第个字记为;标注序列中给第个字 的标注记为;标注序列中给第个字的标注记为。那么预测的标注序列评分函数可 表示为:
(37)
其中,是每个句子中各标记序列的分数,为第个向量的特征,的特征权重值。
通过指数化和标准化该分数,我们可以获得标注序列的概率值,将概率值最大的作为最终的标记序列,获得最优标签序列结果。
(38)
S505:最后,根据最优标签序列结果识别事故文本中的燃气管道事故实体。其中,如果字符标记为B,则表示是燃气管道事故命名实体的首字符,如果字符标记为I,则表示是燃气管道事故命名实体的中间字符,如果字符标记为O,则表示是非燃气管道事故命名实体,如果字符标记为E,则表示是燃气管道事故命名实体的尾字符,如果字符标记为S,则表示是单个字符的燃气管道事故命名实体。如输入文本为“位于石景山区八角街道的家门口饭馆发生液化石油气爆燃事故。”,则最终标记为“位(O)于(O)石(B-LOC)景(I-LOC)山(I-LOC)区(I-LOC)八(I-LOC)角(I-LOC)街(I-LOC)道(E-LOC)的(O)家(O)门(O)口(O)饭(O)馆(O)发(O)生(O)液(B-REA)化(I-REA)石(I-REA)油(I-REA)气(I-REA)爆(I-REA)燃(E-REA)事(O)故(O)。(O)”根据标记识别出的燃气管道事故地点实体“石景山区八角街道”,原因实体“液化石油气爆燃”。又如,输入文本为“燃气管道泄漏导致爆炸”,则最终标记为“燃(B-REA)气(I-REA)管(I-REA)道(I-REA)泄(I-REA)漏(E-REA)导(O)致(O)爆(B-RES)炸(E-RES)”根据标记识别出的原因实体“燃气管道泄漏”,现象实体“爆炸”。
另一个实施例中,本发明还提出一种燃气管道事故文本识别系统,包括:
获取模块,用于获取待识别燃气管道原始事故文本;
预处理模块,用于对所获取的待识别燃气管道原始事故文本进行预处理;
标注模块,用于对预处理后的待识别燃气管道原始事故文本进行标注;
构建模块,用于构建燃气管道事故文本识别模型并进行训练;
识别模块,用于将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别。
另一个实施例中,本发明还提出一种电子设备,其特征在于,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
另一个实施例中,本发明还提出一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
虽然上面参照示范性实施例描述了本发明,但是本发明的保护范围并不局限于上面描述的实施例。对本领域技术人员而言显而易见的是,在不脱离本发明的范围和思想的情况下,可以进行形式和细节上的各种变化和修改。本发明的范围仅由所附权利要求及其等价物定义。

Claims (10)

1.一种燃气管道事故文本识别方法,其特征在于,包括以下步骤:
S100:获取待识别燃气管道原始事故文本;
S200:对所获取的待识别燃气管道原始事故文本进行预处理;
S300:对预处理后的待识别燃气管道原始事故文本进行标注;
S400:构建燃气管道事故文本识别模型并进行训练;
S500:将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别,以识别事故文本中的燃气管道事故实体。
2.根据权利要求1所述的方法,其中,步骤S200中,所述对所获取的燃气管道事故文本预处理包括以下步骤:
S201:对事故文本进行修订;
S202:对修订后的事故文本进行字符级切分。
3.根据权利要求1所述的方法,其特征在于,步骤S300中,采用BIOES标注法对预处理后的燃气管道原始事故文本进行标注。
4.根据权利要求1所述的方法,其特征在于,步骤S400中,所述燃气管道事故文本识别模型包括:标签输入层、词向量生成层、特征提取层和序列优化层。
5.根据权利要求4所述的方法,其特征在于,所述词向量生成层包括Transformer编码器,所述特征提取层包括迭代膨胀卷积神经网络和双向长短期记忆网络,所述序列优化层包括条件随机场。
6.根据权利要求1所述的方法,其特征在于,步骤S400中,所述燃气管道事故文本识别模型的训练包括以下步骤:
S401:将标注好的燃气管道事故文本划分为训练集和验证集;
S402:设置网络参数,将训练集转化为向量后对模型进行训练,用训练好的参数初始化燃气管道事故文本识别模型;
S403:利用验证集对训练后的模型进行验证,在验证过程中,通过包括精确率、召回率和F1值在内的评价指标对模型进行评估,当达到预设评估值时,模型验证通过;否则调整模型参数重新对模型进行训练。
7.根据权利要求1所述的方法,其特征在于,步骤S500包括以下步骤:
S501:在事故文本中插入标签;
S502:事故文本词向量转换,获得每个字的特征向量;
S503:提取事故文本中的局部特征和全局特征并生成特征序列;
S504:对特征序列进行标签修正,获得最优标签序列结果;
S505:根据最优标签序列结果识别事故文本中的燃气管道事故实体。
8.一种燃气管道事故文本识别系统,其特征在于,包括:
获取模块,用于获取待识别燃气管道原始事故文本;
预处理模块,用于对所获取的待识别燃气管道原始事故文本进行预处理;
标注模块,用于对预处理后的待识别燃气管道原始事故文本进行标注;
构建模块,用于构建燃气管道事故文本识别模型并进行训练;
识别模块,用于将标注后的待识别燃气管道原始事故文本输入训练好的燃气管道事故文本识别模型进行识别。
9.一种电子设备,其特征在于,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现权利要求1至7任一所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7任一所述的方法。
CN202311061812.2A 2023-08-23 2023-08-23 一种燃气管道事故文本识别方法及系统 Active CN116756328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311061812.2A CN116756328B (zh) 2023-08-23 2023-08-23 一种燃气管道事故文本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311061812.2A CN116756328B (zh) 2023-08-23 2023-08-23 一种燃气管道事故文本识别方法及系统

Publications (2)

Publication Number Publication Date
CN116756328A true CN116756328A (zh) 2023-09-15
CN116756328B CN116756328B (zh) 2023-11-07

Family

ID=87959499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311061812.2A Active CN116756328B (zh) 2023-08-23 2023-08-23 一种燃气管道事故文本识别方法及系统

Country Status (1)

Country Link
CN (1) CN116756328B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651995A (zh) * 2020-06-07 2020-09-11 上海建科工程咨询有限公司 基于深度循环神经网络的事故信息自动提取方法及系统
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法
CN114638229A (zh) * 2022-03-25 2022-06-17 高新兴科技集团股份有限公司 笔录数据的实体识别方法、装置、介质及设备
CN116432645A (zh) * 2023-01-17 2023-07-14 西安石油大学 一种基于预训练模型的交通事故命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651995A (zh) * 2020-06-07 2020-09-11 上海建科工程咨询有限公司 基于深度循环神经网络的事故信息自动提取方法及系统
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法
CN114638229A (zh) * 2022-03-25 2022-06-17 高新兴科技集团股份有限公司 笔录数据的实体识别方法、装置、介质及设备
CN116432645A (zh) * 2023-01-17 2023-07-14 西安石油大学 一种基于预训练模型的交通事故命名实体识别方法

Also Published As

Publication number Publication date
CN116756328B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN112163416B (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN109684440B (zh) 基于层级标注的地址相似度度量方法
CN109597994B (zh) 短文本问题语义匹配方法和系统
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN106557462A (zh) 命名实体识别方法和系统
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN110188347A (zh) 一种面向文本的知识主题间认知关系抽取方法
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN112749265B (zh) 一种基于多信息源的智能问答系统
CN109949637B (zh) 一种客观题目的自动解答方法和装置
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN110110116A (zh) 一种整合深度卷积网络和语义分析的商标图像检索方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116757164A (zh) 一种gpt生成语言识别与检测系统
CN111222330A (zh) 一种中文事件的检测方法和系统
He English grammar error detection using recurrent neural networks
CN110888989A (zh) 一种智能学习平台及其构建方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
Agarwal et al. Autoeval: A nlp approach for automatic test evaluation system
CN115033659A (zh) 基于深度学习的子句级自动摘要模型系统及摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant