CN111651995A - 基于深度循环神经网络的事故信息自动提取方法及系统 - Google Patents

基于深度循环神经网络的事故信息自动提取方法及系统 Download PDF

Info

Publication number
CN111651995A
CN111651995A CN202010509228.9A CN202010509228A CN111651995A CN 111651995 A CN111651995 A CN 111651995A CN 202010509228 A CN202010509228 A CN 202010509228A CN 111651995 A CN111651995 A CN 111651995A
Authority
CN
China
Prior art keywords
accident
named entity
text information
information
construction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010509228.9A
Other languages
English (en)
Inventor
王彦忠
纪梅
周红波
蔡来炳
杨奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD
Original Assignee
SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD filed Critical SHANGHAI JIANKE ENGINEERING CONSULTING CO LTD
Priority to CN202010509228.9A priority Critical patent/CN111651995A/zh
Publication of CN111651995A publication Critical patent/CN111651995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度循环神经网络的事故信息自动提取方法及系统,涉及建筑事故信息自动领域,主要包括:采用词向量模型对待提取结构化数据的建筑事故文本信息进行处理,得到建筑事故文本信息对应的字符对序列;将字符对序列输入到训练好的命名实体识别模型中,以获取建筑事故文本信息对应的命名实体标注结果;训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对命名实体识别结构进行训练得到的;根据建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。本发明能够低成本的获取所需的结构化事故数据。

Description

基于深度循环神经网络的事故信息自动提取方法及系统
技术领域
本发明涉及建筑事故信息自动领域,特别是涉及一种基于深度循环神经网络的事故信息自动提取方法及系统。
背景技术
在开发事故风险预测平台时发现,在人工检索事故信息文本过程中,从中提取有用信息的成本极高,且结构化的事故信息文本又难以利用。
发明内容
针对背景技术存在的缺陷,本发明提供了一种基于深度循环神经网络的事故信息自动提取方法及系统。
为实现上述目的,本发明提供了如下方案:
一种基于深度循环神经网络的事故信息自动提取方法,包括:
获取待提取结构化数据的建筑事故文本信息;
采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;
将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果;
根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
可选的,还包括:
根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
可选的,所述采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列,具体包括:
将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理;
计算所有分段处理后的建筑事故文本信息的平均长度,并记作m;
将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息;
采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
可选的,所述训练好的命名实体识别模型的构建过程为:
根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构;其中,所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层,且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入;
将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中,并结合反向传播算法,对所述命名实体识别结构进行训练,以得到训练好的命名实体识别模型。
可选的,所述样本数据集的构建过程为:
采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息;
将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故新闻文本样本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故新闻文本样本信息进行分段处理;
计算所有分段处理后的建筑事故新闻文本样本信息的平均长度,并记作m;
将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故新闻文本样本信息;
按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注,得到每条所述建筑事故新闻文本样本信息对应的样本标注序列;所述标注规则为:命名实体X的标注为B-X,未结束的标注为I-X,非命名实体的标注为O,每个字的标注为<字,标注>;
将每个所述样本标注序列作为一条样本数据,采用word2vec模型对所有所述样本数据进行处理,得到样本字符对序列;
将所有所述样本字符对序列合并,得到样本字符对序列集。
一种基于深度循环神经网络的事故信息自动提取系统,包括:
建筑事故文本信息获取模块,用于获取待提取结构化数据的建筑事故文本信息;
字符对序列计算模块,用于采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;
命名实体标注结果获取模块,用于将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果;
结构化建筑事故数据提取模块,用于根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
可选的,还包括:
建筑事故知识库构建模块,用于根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
可选的,所述字符对序列计算模块,具体包括:
预处理单元,用于将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息;
分段处理单元,用于以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理;
平均长度计算单元,用于计算所有分段处理后的建筑事故文本信息的平均长度,并记作m;
长度一致建筑事故文本信息确定单元,用于将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息;
字符对序列计算单元,用于采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于深度循环神经网络的事故信息自动提取方法及系统,首先使用双向长短期记忆神经网络和条件随机场层构建一个训练好的命名实体标注模型,然后将待处理的建筑事故新闻文本信息输入到训练好的命名实体标注模型,从而自动化地提取所需要的结构化数据,同时降低提取信息成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一基于深度循环神经网络的事故信息自动提取方法的流程图;
图2为本发明实施例二基于深度循环神经网络的事故信息自动提取系统的结构图;
图3为本发明实施例三基于深度循环神经网络的建筑事故知识库自动构建方法的流程图;
图4为本发明实施例三双向长短期记忆神经网络计算流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于深度循环神经网络的事故信息自动提取方法及系统,能够低成本的获取所需的结构化事故数据。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本实施例提供的一种基于深度循环神经网络的事故信息自动提取方法,包括如下步骤。
步骤101:获取待提取结构化数据的建筑事故文本信息。
步骤102:采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。具体为:
将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息。
以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理。
计算所有分段处理后的建筑事故文本信息的平均长度,并记作m。
将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息。
采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
步骤103:将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果。
所述训练好的命名实体识别模型的构建过程为:
根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构;其中,所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层,且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入。
将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中,并结合反向传播算法,对所述命名实体识别结构进行训练,以得到训练好的命名实体识别模型。
所述样本数据集的构建过程为:
采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息。
将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故新闻文本样本信息。
以逗号和句号为分隔符,对所述预处理后的建筑事故新闻文本样本信息进行分段处理。
计算所有分段处理后的建筑事故新闻文本样本信息的平均长度,并记作m。
将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故新闻文本样本信息。
按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注,得到每条所述建筑事故新闻文本样本信息对应的样本标注序列;所述标注规则为:命名实体X的标注为B-X,未结束的标注为I-X,非命名实体的标注为O,每个字的标注为<字,标注>。
将每个所述样本标注序列作为一条样本数据,采用word2vec模型对所有所述样本数据进行处理,得到样本字符对序列。
将所有所述样本字符对序列合并,得到样本字符对序列集。
步骤104:根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
步骤105:根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
实施例二
如图2所示,本实施例提供了一种基于深度循环神经网络的事故信息自动提取系统,包括:
建筑事故文本信息获取模块201,用于获取待提取结构化数据的建筑事故文本信息。
字符对序列计算模块202,用于采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
命名实体标注结果获取模块203,用于将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果。
结构化建筑事故数据提取模块204,用于根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
建筑事故知识库构建模块205,用于根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
其中,所述字符对序列计算模块202,具体包括:
预处理单元,用于将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息。
分段处理单元,用于以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理。
平均长度计算单元,用于计算所有分段处理后的建筑事故文本信息的平均长度,并记作m。
长度一致建筑事故文本信息确定单元,用于将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息。
字符对序列计算单元,用于采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
在所述命名实体标注结果获取模块203中,所述训练好的命名实体识别模型的构建过程为:
根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构;其中,所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层,且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入。
将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中,并结合反向传播算法,对所述命名实体识别结构进行训练,以得到训练好的命名实体识别模型。
在所述命名实体标注结果获取模块203中,所述样本数据集的构建过程为:
采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息。
将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故新闻文本样本信息。
以逗号和句号为分隔符,对所述预处理后的建筑事故新闻文本样本信息进行分段处理。
计算所有分段处理后的建筑事故新闻文本样本信息的平均长度,并记作m。
将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故新闻文本样本信息。
按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注,得到每条所述建筑事故新闻文本样本信息对应的样本标注序列;所述标注规则为:命名实体X的标注为B-X,未结束的标注为I-X,非命名实体的标注为O,每个字的标注为<字,标注>。
将每个所述样本标注序列作为一条样本数据,采用word2vec模型对所有所述样本数据进行处理,得到样本字符对序列。
将所有所述样本字符对序列合并,得到样本字符对序列集。
实施例三
本实施例提出一种基于深度循环神经网络的建筑事故知识库自动构建方法,该方法首先对一部分建筑事故文本语料进行预处理和命名体标注,作为训练语料,并转化为字符对序列;然后对字符对序列进行双向长短期记忆神经网络(Bidirectional Long-ShortTerm MemoryNeuralNetwork,简称Bi-LSTM)与条件随机场(Conditional Random Field,简称CRF)层的训练;通过多次迭代后使用测试预料评估精准率、召回率和F1值;使用训练好的模型对未标注的建筑事故文本语料进行命名体识别,提取出其中的领域信息,并形成结构化数据,自动化构建建筑事故知识库。
如图3所示,本实施例提供的一种基于深度循环神经网络的建筑事故知识库自动构建方法,包括:
步骤1:通过网络爬虫技术获取大量无标注的建筑事故新闻文本信息,然后对这些建筑事故新闻文本信息进行预处理工作。
预处理工作为:将建筑事故新闻文本信息转化为UTF-8编码的中文字符,并且去除无效字符(例如“\xa0”,“\u3000”等),得到预处理后的建筑事故新闻文本信息;其中,预处理后的建筑事故新闻文本信息为纯文本,例如“常熟市万通通信建设有限公司光纤安装工付某某,在张家港沙太钢铁有限公司棒线厂七车间2#线主跨与副跨中间行车维修走道上敷设光纤作业时……”。
步骤2:首先以逗号和句号为分隔符,对预处理后的建筑事故新闻文本信息进行分段处理;其次计算所有分段处理后的建筑事故新闻文本信息的平均长度,并记作m;然后将长度大于m的分段处理后的建筑事故新闻文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故新闻文本信息增加无意义字符直到长度为m,从而得到长度一致的建筑事故新闻文本信息;最后并按照设定标注规则对长度一致的建筑事故新闻文本信息进行标注。
标注规则为:命名实体X的标注为B-X,未结束的标注为I-X,非命名实体的标注为O,每个字的标注为<字,标注>,等同于有监督训练中的<x,y>。
信息标注过程为:首先找多个人先对10%的长度一致的建筑事故新闻文本信息进行标注,然后进行经验与规则总结。例如,命名实体中含有双引号,则也需标注为实体;定义最大规则,如果遇到一句话中的实体可以拆分为多个实体,仅将其作为一个实体进行标注,如“县人民政府新闻办”,仅标注为“县人民政府新闻办”,而不是“县人民政府”“新闻办”两个实体。最后总结经验与规则后进行正式标注,并且针对同一句话的同一个字,必须标为实体的人数比例超过一定阈值θ才形成标注结果,否则重新商讨后对其进行重新标注,直至所有数据(该数据为长度一致的建筑事故新闻文本信息)全部标注完毕。
步骤3:标注完成后,将每个长度一致的建筑事故新闻文本信息的标注序列{<字1,标注1>,<字1,标注1>,……,<字m,标注m>}作为一条样本数据,并且使用模型维度为n的词向量模型word2vec将其中的“字”转化成字符特征向量,得到样本字符对序列;每个样本字符对序列的维度也为n,则每条样本数据均可以构造为一个样本字符对序列I={x<1>,x<2>,...,x<n>}。
步骤4:首先随机划分70%样本字符对序列作为训练集,30%样本字符对序列作为测试集,其次将训练集的每个样本字符对序列I输入到双向长短期记忆神经网络中进行训练,然后将双向长短期记忆神经网络的输出再作为发射矩阵输入到条件随机场层中,得到命名实体识别模型;最后将测试集的每个样本字符对序列I输入命名实体识别模型中进行测试,得到训练好的命名实体识别模型。这个训练好的命名实体识别模型能够计算字符对序列中的每个字属于某个命名实体类别标志的概率,并且以最大概率所属的命名实体类别标志对应的标注结果作为字符对序列的标注结果。
如图4所示,双向长短期记忆神经网络包含一个输入层,两个隐含层和一个softmax层,通过反向传播算法进行学习,第一个隐含层表示前向LSTM神经网络,第二个隐含层表示后向LSTM神经网络,每个隐含层都拥有固定大小的LSTM神经元,并且每个LSTM神经元都具有遗忘门和保存机制,可以选择性遗忘和保留输入的信息,从而缓解梯度消失或者梯度爆炸的问题。
公式
Figure BDA0002527814320000121
为LSTM神经元的遗忘门(forget gate)公式;其中,σ为sigmoid激活函数;a<t-1>为上一个LSTM神经元的隐状态,如果当前计算的是该隐含层的第一个LSTM神经元,则a<t-1>为随机初始化的向量;x<t>为按照时序输入的第t个向量;bf为随机初始化的偏置向量;Wf为遗忘门参数矩阵。第一次训练时的参数为随机初始化的参数,后续根据反向传播进行学习,遗忘门
Figure BDA0002527814320000122
是用来决定哪些信息需要遗忘。
公式
Figure BDA0002527814320000123
为LSTM神经元的更新门(update gate)公式;其中,σ为sigmoid激活函数;a<t-1>为上一个LSTM神经元的隐状态,如果当前计算的是该隐含层的第一个LSTM神经元,则a<t-1>为随机初始化的向量;x<t>为按照时序输入的第t个向量;bu为随机初始化的偏置向量;Wu为更新门参数矩阵。第一次训练时的参数为随机初始化的参数,后续根据反向传播进行学习,更新门
Figure BDA0002527814320000124
是用来决定要增加哪些新的信息。
公式
Figure BDA0002527814320000125
为LSTM神经元的候选值向量计算公式;其中,a<t-1>为上一个LSTM神经元的隐状态,如果当前计算的是该隐含层的第一个LSTM神经元,则a<t-1>为随机初始化的向量;x<t>为按照时序输入的第t个向量;bc为随机初始化的偏置向量;Wu为候选值向量参数矩阵。第一次训练时的参数为随机初始化的参数,后续根据反向传播进行学习,候选值向量
Figure BDA0002527814320000126
是用来与更新门点乘得到要增加的信息。
公式
Figure BDA0002527814320000127
为LSTM神经元的循环单元c<t>历史信息的保存公式;其中,c<t-1>为上一个循环单元保存的历史信息,如果当前计算的是该隐含层的第一个LSTM神经元,则c<t-1>为随机初始化的向量;
Figure BDA0002527814320000128
为该LSTM神经元的遗忘门输出;
Figure BDA0002527814320000129
为该LSTM神经元的更新门输出;
Figure BDA00025278143200001210
为该LSTM神经元的候选值向量。
公式
Figure BDA0002527814320000131
为LSTM神经元的输出门(output gate)计算公式;其中,a<t-1>为上一个LSTM神经元的隐状态,如果当前计算的是该隐含层的第一个LSTM神经元,则a<t-1>为随机初始化的向量;x<t>为按照时序输入的第t个向量;bo为随机初始化的偏置向量;Wo为输出门参数矩阵。第一次训练时的参数为随机初始化的参数,
Figure BDA0002527814320000132
为该LSTM神经元的输出门输出。
公式
Figure BDA0002527814320000133
为双向长短期记忆神经网络的第t个LSTM神经元的输出公式,c<t>为该LSTM神经元的历史信息,a<t>为该LSTM神经元的输出内容。
经过上述公式获得每一个输出门的输出内容a<t>,组合成一个长度为m的输出序列X=(a<1>,a<2>,...,a<m>),输出序列对应的预测序列为y=(y1,y2,...,ym),通过公式
Figure BDA0002527814320000134
定义预测序列的得分;其中,
Figure BDA0002527814320000135
为第i个softmax位置输出为yi的概率,
Figure BDA0002527814320000136
为从yi到yi+1的转移概率。
使用公式(7)求出所有可能的预测序列y的得分s(X,y),然后采用公式
Figure BDA0002527814320000137
对所有得分进行归一化;其中,YX为预测序列y所有可能的取值,
Figure BDA0002527814320000138
为针对于输出序列X的预测值。最后通过公式
Figure BDA0002527814320000139
求出所有可能的预测序列y对应的最高得分,并将得分最高的标注结果作为预测结果输出,标注文本如表1所示。
表1标注文本表
Figure BDA00025278143200001310
Figure BDA0002527814320000141
步骤5:针对每一条收集的建筑事故文本信息,先对该建筑事故文本信息进行处理得到字符对序列;然后将字符对序列输入到训练好的命名实体识别模型,得到该建筑事故文本信息的标注结果,并从标注结果中提取出以B-X开头、I-X结尾的所有结构化数据,从而形成大量结构化数据;最后将大量结构化数据存储到数据库中,从而自动构建成为建筑事故知识库。结构化数据如表2所示。
表2结构化数据表
地区 浙江省台州温岭市
机构 捷宇鞋材有限公司
在本实施例中,通过多人对数据集进行标注,并且对标注标准不断修改,可以提高标注的准确率,从而提高模型的效果;
在本实施例中,通过使用word2vec模型(词向量模型)对文本进行向量化,能够将各个字符的向量维度固定,并且能够保留字符的语义信息,提高数据提取精度。
在本实施例中,通过使用CRF学习输出的标注关系,从而实现对隐含状态的建模,以达到更好的效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,包括:
获取待提取结构化数据的建筑事故文本信息;
采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;
将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果;
根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
2.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,还包括:
根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
3.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列,具体包括:
将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理;
计算所有分段处理后的建筑事故文本信息的平均长度,并记作m;
将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息;
采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
4.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述训练好的命名实体识别模型的构建过程为:
根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构;其中,所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层,且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入;
将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中,并结合反向传播算法,对所述命名实体识别结构进行训练,以得到训练好的命名实体识别模型。
5.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述样本数据集的构建过程为:
采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息;
将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故新闻文本样本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故新闻文本样本信息进行分段处理;
计算所有分段处理后的建筑事故新闻文本样本信息的平均长度,并记作m;
将长度大于m的分段处理后的建筑事故新闻文本样本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故新闻文本样本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故新闻文本样本信息;
按照设定标注规则对所述长度一致的建筑事故新闻文本样本信息进行标注,得到每条所述建筑事故新闻文本样本信息对应的样本标注序列;所述标注规则为:命名实体X的标注为B-X,未结束的标注为I-X,非命名实体的标注为O,每个字的标注为<字,标注>;
将每个所述样本标注序列作为一条样本数据,采用word2vec模型对所有所述样本数据进行处理,得到样本字符对序列;
将所有所述样本字符对序列合并,得到样本字符对序列集。
6.一种基于深度循环神经网络的事故信息自动提取系统,其特征在于,包括:
建筑事故文本信息获取模块,用于获取待提取结构化数据的建筑事故文本信息;
字符对序列计算模块,用于采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;
命名实体标注结果获取模块,用于将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果;
结构化建筑事故数据提取模块,用于根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。
7.根据权利要求6所述的一种基于深度循环神经网络的事故信息自动提取系统,其特征在于,还包括:
建筑事故知识库构建模块,用于根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。
8.根据权利要求6所述的一种基于深度循环神经网络的事故信息自动提取系统,其特征在于,所述字符对序列计算模块,具体包括:
预处理单元,用于将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息;
分段处理单元,用于以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理;
平均长度计算单元,用于计算所有分段处理后的建筑事故文本信息的平均长度,并记作m;
长度一致建筑事故文本信息确定单元,用于将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息;
字符对序列计算单元,用于采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。
CN202010509228.9A 2020-06-07 2020-06-07 基于深度循环神经网络的事故信息自动提取方法及系统 Pending CN111651995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010509228.9A CN111651995A (zh) 2020-06-07 2020-06-07 基于深度循环神经网络的事故信息自动提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010509228.9A CN111651995A (zh) 2020-06-07 2020-06-07 基于深度循环神经网络的事故信息自动提取方法及系统

Publications (1)

Publication Number Publication Date
CN111651995A true CN111651995A (zh) 2020-09-11

Family

ID=72347114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010509228.9A Pending CN111651995A (zh) 2020-06-07 2020-06-07 基于深度循环神经网络的事故信息自动提取方法及系统

Country Status (1)

Country Link
CN (1) CN111651995A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113341894A (zh) * 2021-05-27 2021-09-03 河钢股份有限公司承德分公司 事故规律数据的生成方法、装置和终端设备
CN116756328A (zh) * 2023-08-23 2023-09-15 北京宝隆泓瑞科技有限公司 一种燃气管道事故文本识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109670727A (zh) * 2018-12-30 2019-04-23 湖南网数科技有限公司 一种基于众包的分词标注质量评估系统及评估方法
CN109992770A (zh) * 2019-03-04 2019-07-09 昆明理工大学 一种基于组合神经网络的老挝语命名实体识别方法
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109670727A (zh) * 2018-12-30 2019-04-23 湖南网数科技有限公司 一种基于众包的分词标注质量评估系统及评估方法
CN109992770A (zh) * 2019-03-04 2019-07-09 昆明理工大学 一种基于组合神经网络的老挝语命名实体识别方法
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王红等: "民航突发事件实体识别方法研究", pages 0 - 5 *
胡扬;闫宏飞;陈?;: "面向金融知识图谱的实体和关系联合抽取算法", no. 05 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113341894A (zh) * 2021-05-27 2021-09-03 河钢股份有限公司承德分公司 事故规律数据的生成方法、装置和终端设备
CN116756328A (zh) * 2023-08-23 2023-09-15 北京宝隆泓瑞科技有限公司 一种燃气管道事故文本识别方法及系统
CN116756328B (zh) * 2023-08-23 2023-11-07 北京宝隆泓瑞科技有限公司 一种燃气管道事故文本识别方法及系统

Similar Documents

Publication Publication Date Title
CN107203511B (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN107085581B (zh) 短文本分类方法和装置
CN108388560B (zh) 基于语言模型的gru-crf会议名称识别方法
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN112148832B (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112766359B (zh) 一种面向食品安全舆情的字词双维度微博谣言识别方法
CN111651995A (zh) 基于深度循环神经网络的事故信息自动提取方法及系统
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN113449508B (zh) 一种基于事件链的网络舆情关联推演预测分析方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN111291550B (zh) 一种中文实体提取方法及装置
CN110929006B (zh) 一种数据型问答系统
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN113486649B (zh) 文本评论的生成方法以及电子设备
CN112163414B (zh) 一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination