CN115129875A - 基于图神经网络的建筑事故报告分类系统及其方法 - Google Patents
基于图神经网络的建筑事故报告分类系统及其方法 Download PDFInfo
- Publication number
- CN115129875A CN115129875A CN202210751321.XA CN202210751321A CN115129875A CN 115129875 A CN115129875 A CN 115129875A CN 202210751321 A CN202210751321 A CN 202210751321A CN 115129875 A CN115129875 A CN 115129875A
- Authority
- CN
- China
- Prior art keywords
- module
- graph
- text
- representation
- accident
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于图神经网络的建筑事故报告分类系统及方法,由数据预处理模块,对建筑事故报告文本进行清洗、分词和类别标注处理;由文本编码模块,将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元;由图构建模块,将序列化结构文本转化为图结构数据;模型构建模块,构建可以处理图结构数据的神经网络模型;报告分类模块,将经过模型运算处理后的文本按照预设类别分类。支持归纳学习,将每个文档构建为单个图,每个图均包含单词节点的同构图,使用图神经网络学习基于其局部结构的细粒度单词表示,为新文档中未出现的单词生成嵌入,将单词节点的表示聚合为文档的表示,不需要在检测新的事故报告时每次重新构建图,节省大量时间资源。
Description
技术领域
本发明涉及一种基于图神经网络的建筑事故报告分类系统及其方法。
背景技术
在许多国家,建筑施工的安全控制是一个具有挑战性的问题。近年来,建筑安全的改善步伐放缓,传统安全控制方法的有效性受限。为了防止类似事故的发生并促进工作场所的安全管理,需要对以往事故研究分析,其中,事故报告提供了有用的信息来源,有助于理解事件发生的原因和方式,安全管理人员可以采取适当的预防措施来消除或减少同类事故的发生;但是,通常情况下,事故报告是以非结构化或半结构化的形式存在,需要进行手动分析事故文本,这种耗时且低效的方法导致安全管理人员无法及时得到关于事故原因的信息。因此,自动化处理事故报告的方法被提出用于建筑安全信息管理中。
自动化分类建筑事故报告所涉及的文本分类技术,主要的技术方法分为:基于浅层机器学习的方法和基于深度学习的方法,其中基于深度学习的方法又分为直接处理序列结构文本的神经网络方法和处理图结构数据的图神经网络方法。
用于检查安全报告的现有文本分类方法倾向于人工手动结合词汇、句法和语义特征,这些方法被称为浅层机器学习,包括支持向量机、朴素贝叶斯和最近邻等方法;但这种手动特征提取过程受到特征提取者个人领域知识的限制,只能使用人工指定的浅层特征进行学习。
相比之下,深度学习算法使用神经网络可以自动识别特征,并使用多个单一函数从训练数据中学习具有非线性参数组合的复杂任务。其中,卷积神经网络、门控循环单元等方法可以自动提取文本特征并对事故报告文本进行分类,无需人工特征处理。这些深度学习模型可以很好地获得局部连续文本所包含的语义信息,但对于文本中非连续单词之间的长距离语义交互往往会被忽视。
在非欧式空间数据上或者数据关系结构丰富的任务中,图神经网络可以充分利用图结构处理全局信息并取得不错的效果,在文本分类任务中,图卷积神经网络将整个语料库构建为包含文档节点和单词节点的异构图,对文档节点进行分类;或者将整个语料库构建为包含主题节点、文档节点和实体节点的异构图,使用两层注意力网络捕获节点间的权重信息。相同之处在于都是将数据集视为单个图,这也意味着这些方法并不支持归纳学习,即在每次遇到新的文档时需要重新构建图用于分类。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种基于图神经网络的建筑事故报告分类系统及其方法。
本发明的目的通过以下技术方案来实现:
基于图神经网络的建筑事故报告分类系统,特点是:包含数据预处理模块、文本编码模块、图构建模块、模型构建模块以及报告分类模块,所述数据预处理模块,对建筑事故报告文本进行清洗、分词和类别标注处理;
所述文本编码模块,将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元;
所述图构建模块,将序列化结构文本转化为图结构数据;
所述模型构建模块,根据分类任务构建模型框架,构建处理图结构数据的神经网络模型;
所述报告分类模块,将经过模型运算处理后的文本按照预设类别分类。
进一步地,上述的基于图神经网络的建筑事故报告分类系统,其中,所述数据预处理模块包含文本清洗模块、分词模块和类别标注模块,所述文本清洗模块,将原始事故报告中的噪音去除,保留事故经过与事故原因两部分文本,并去除标点符号;所述分词模块,面向清洗后报告文本,采用分词工具,将文本中的词语进行切分,得到词语序列;所述类别标注模块,面向每份事故报告文本,为每份文本标注类别标签。
进一步地,上述的基于图神经网络的建筑事故报告分类系统,其中,所述文本编码模块,将数据预处理模块处理后的词语进行向量化表示,将词语表示映射到高维向量空间中,采用分布式词表示,将文本编码成计算机理解和处理的序列。
进一步地,上述的基于图神经网络的建筑事故报告分类系统,其中,所述图构建模块,将序列化文本转换为图结构数据表示,每份建筑事故报告分别构建为图,其中,图节点表示词语,边表示词语之间共现关系。
进一步地,上述的基于图神经网络的建筑事故报告分类系统,其中,所述模型构建模块,包含信息交互模块和信息聚合模块,所述信息交互模块,在构建的图结构数据基础上,使用长短期记忆网络实现节点间的信息交互;所述信息聚合模块,经过信息交互后,将图中节点表示聚合为整个图结构表示,用于下一步分类。
进一步地,上述的基于图神经网络的建筑事故报告分类系统,其中,所述报告分类模块,将经过模型构建模块的信息交互模块和信息聚合模块后的文本表示输入softmax函数中,进行类别划分。
基于图神经网络的建筑事故报告分类方法,特点是:
首先,将建筑事故报告文本进行预处理;
其次,将数据预处理之后的事故文本数据进行分布式词表示编码后,生成相应的词语向量;
然后,将序列化结构的文本数据转化为图结构数据表示;
之后,构建模型,充分利用图结构,提取文本特征信息,获取整个事故报告的文本表示;
最后,将文本表示输入分类器中得到事故类别,作为最终输出。
更进一步地,上述的基于图神经网络的建筑事故报告分类方法,由数据预处理模块,对建筑事故报告本进行清洗、分词以及类别标注;由文本编码模块,对文本进行分布式词表示编码;由图构建模块,将文本序列结构转换为图结构表示;由模型构建模块,在图基础上进行信息交互和聚合,提取文本特征表示;由报告分类模块,将提取的文本特征转输入分类器获取事故类别。
更进一步地,上述的基于图神经网络的建筑事故报告分类方法,由数据预处理模块的文本清洗模块保留原始事故报告中的事故经过与事故原因两部分文本,并去除标点符号;数据预处理模块的分词模块采用jieba分词工具清洗报告文本,将文本中的词语进行切分,得到词语序列;数据预处理模块的类别标注模块,为每份事故报告文本标注类别标签;
由文本编码模块,将文本编码成计算机可处理的向量编码序列;
图构建模块,将每份事故报告构建为独立的图G(V,E),其中,节点V表示事故报告中去除重复后的唯一词语集合,边E是词语之间的共现关系集合,使用文本编码得到的词语向量作为图节点的特征初始化,表示为h∈R|V|×d,其中d是特征维数,|V|是文档中唯一词语的数量;
模型构建模块的信息交互模块,在每个图中使用长短期记忆网络LSTM来学习图节点的特征表示,通过图结构实现节点间的信息交互,将邻居节点传递过来的信息x与自身的表示相结合完成特征更新,代入公式(1~7)中;
xt=Aht-1Wa (1)
ft=σ(Wf[ht-1,xt]+bf) (2)
it=σ(Wi[ht-1,xt]+bi) (3)
ot=σ(Wo[ht-1,xt]+bo) (6)
ht=ot*tanh(Ct) (7)
其中,A∈R|V|×|V|是邻接矩阵,σ是sigmoid激活函数,所有的W,U,b均是可训练的权值和偏差,f和i分别为遗忘门和输入门,以确定多少邻居信息被保留并用于更新当前节点嵌入表示,每次更新将自身特征与周围一阶邻域内其它节点特征相结合,更新重复t次,完成高阶邻域节点特征信息交互,即节点获得t跳内所有节点的特征信息;
为使词语节点的初始上下文信息被更加充分利用,在每次LSTM更新完成后使用式(8)保留部分初始特征信息,通过调整参数λ的大小确定信息的保留程度;
ht+1=λh0+(1-λ)Aht (8)
模型构建模块的信息聚合模块,所有词语节点在充分特征交互之后,将被聚合成文档的特征表示,并用于最终事故类别的预测,将信息交互输出每个词语的文本表示代入式(9)中,其中f1表示多层感知器,N是节点的数量;
由于每个词语节点对于整个文档的重要性是不同的,应当被分配不同的权重,因此,使用注意力机制预测每个词语节点对整个文档图表示的贡献,将hg与hv代入式(10)中计算贡献值αv,其中score(a,b)为向量a与b之间相似度计算函数,采用LuongAttention进行计算;
αv=softmax(score(hg,hv)) (10)
同时,将最大池化函数用于最后的文档图表示,聚合公式表示如式(11),其中f2表示多层感知器;
报告分类模块通过向softmax层传递图级表示来预测标签,并通过交叉熵函数训练将损失值L降至最低;
ZG=softmax(WhG+b) (12)
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明支持归纳学习,将每个文档都构建为单个图,每个图都是包含单词节点的同构图,然后使用图神经网络学习基于其局部结构的细粒度单词表示,有效地为新文档中未出现的单词生成嵌入,最后将单词节点的表示聚合为文档的表示,实际应用中不需要在检测新的事故报告时每次重新构建图,从而节省大量时间资源;
②新型模型融合模式,取代传统的浅层机器学习与深度学习方法;创造性地利用图神经网络解决了建筑安全领域的事故报告分类问题,相比于现有技术,在建筑安全事故报告数据集上有更高的分类准确率;
③本发明基于图神经网络的建筑事故报告分类系统利用图神经网络,解决建筑领域事故报告分类问题,具有更好的分类效果。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1:本发明系统的架构原理示意图;
图2:数据预处理模块的架构原理示意图;
图3:文本编码模块的架构原理示意图;
图4:图构建模块的架构原理示意图;
图5:模型构建模块的架构原理示意图;
图6:本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,方位术语和次序术语等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,基于图神经网络的建筑事故报告分类系统,包含数据预处理模块1、文本编码模块2、图构建模块3、模型构建模块4以及报告分类模块5,所述数据预处理模块1,对建筑事故报告文本进行清洗、分词和类别标注处理;
文本编码模块2,将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元;
图构建模块3,将序列化结构文本转化为图结构数据;
模型构建模块4,在图结构的基础上构建神经网络模型框架,包含文本的信息交互与聚合两部分模块,根据分类任务构建模型框架,构建可处理图结构数据的神经网络模型;
报告分类模块5,将经过模型运算处理后的文本按照预设类别分类。
如图2,数据预处理模块1包含文本清洗模块101、分词模块102和类别标注模块103,文本清洗模块101,将原始事故报告中的噪音去除,保留事故经过与事故原因两部分文本,并去除标点符号;分词模块102,面向清洗后报告文本,采用分词工具,将文本中的词语进行切分,得到词语序列;类别标注模块103,面向每份事故报告文本,依据国家统计局公布常见建筑安全事故类型,为每份文本标注类别标签。
如图3,文本编码模块2,将数据预处理模块1处理后的词语进行向量化表示,将词语表示映射到高维向量空间中,采用分布式词表示,将文本编码成计算机理解和处理的序列。
如图4,图构建模块3,将序列化文本转换为图结构数据表示,每份建筑事故报告分别构建为图,其中,图节点表示词语,边表示词语之间共现关系。
如图5,模型构建模块4,包含信息交互模块401和信息聚合模块402,信息交互模块401,在构建的图结构数据基础上,使用长短期记忆网络实现节点间的信息交互;信息聚合模块402,经过充分地信息交互后,将图中节点表示聚合为整个图结构表示,用于下一步分类。
报告分类模块5,将经过模型构建模块4的信息交互模块401和信息聚合模块402后的文本表示输入softmax函数中,进行类别划分。
如图6所示,基于图神经网络的建筑事故报告分类方法,步骤如下:
首先,将建筑事故报告文本进行预处理;
其次,将数据预处理之后的事故文本数据进行分布式词表示编码后,生成相应的词语向量;
然后,将序列化结构的文本数据转化为图结构数据表示;
之后,构建模型,充分利用图结构,提取文本特征信息,获取整个事故报告的文本表示;
最后,将文本表示输入分类器中得到事故类别,作为最终输出。
由数据预处理模块1,对建筑事故报告本进行清洗、分词以及类别标注;由文本编码模块2,对文本进行分布式词表示编码;由图构建模块3,将文本序列结构转换为图结构表示;由模型构建模块4,在图基础上进行信息交互和聚合,提取文本特征表示;由报告分类模块5,将提取的文本特征转输入分类器获取事故类别。
由数据预处理模块1的文本清洗模块101保留原始事故报告中的事故经过与事故原因两部分文本,并去除标点符号;数据预处理模块1的分词模块102采用jieba分词工具清洗报告文本,将文本中的词语进行切分,得到词语序列;数据预处理模块1的类别标注模块103,为每份事故报告文本标注类别标签;
由文本编码模块2,将文本编码成计算机可处理的向量编码序列;
图构建模块3,将每份事故报告构建为独立的图G(V,E),其中,节点V表示事故报告中去除重复后的唯一词语集合,边E是词语之间的共现关系集合,使用文本编码得到的词语向量作为图节点的特征初始化,表示为h∈R|V|×d,其中d是特征维数,|V|是文档中唯一词语的数量;
模型构建模块4的信息交互模块401,在每个图中使用长短期记忆网络LSTM来学习图节点的特征表示,通过图结构实现节点间的信息交互,将邻居节点传递过来的信息x与自身的表示相结合完成特征更新,代入公式(1~7)中;
xt=Aht-1Wa (1)
ft=σ(Wf[ht-1,xt]+bf) (2)
it=σ(Wi[ht-1,xt]+bi) (3)
ot=σ(Wo[ht-1,xt]+bo) (6)
ht=ot*tanh(Ct) (7)
其中,A∈R|V|×|V|是邻接矩阵,σ是sigmoid激活函数,所有的W,U,b均是可训练的权值和偏差,f和i分别为遗忘门和输入门,以确定多少邻居信息被保留并用于更新当前节点嵌入表示,每次更新将自身特征与周围一阶邻域内其它节点特征相结合,更新重复t次,完成高阶邻域节点特征信息交互,即节点可获得t跳内所有节点的特征信息;
为使词语节点的初始上下文信息被更加充分利用,在每次LSTM更新完成后使用式(8)保留部分初始特征信息,通过调整参数λ的大小确定信息的保留程度;
ht+1=λh0+(1-λ)Aht (8)
模型构建模块4的信息聚合模块402,所有词语节点在充分特征交互之后,将被聚合成文档的特征表示,并用于最终事故类别的预测,将信息交互输出每个词语的文本表示代入式(9)中,其中f1表示多层感知器,N是节点的数量;
由于每个词语节点对于整个文档的重要性是不同的,应当被分配不同的权重,因此,使用注意力机制预测每个词语节点对整个文档图表示的贡献,将hg与hv代入式(10)中计算贡献值αv,其中score(a,b)为向量a与b之间相似度计算函数,采用Luong等人提出的LuongAttention进行计算;
αv=softmax(score(hg,hv)) (10)
同时,文本中关键词有助于文本类别的判断,为了使其更明确地发挥作用,将最大池化函数用于最后的文档图表示,聚合公式表示如式(11),其中f2表示多层感知器;
报告分类模块5通过向softmax层传递图级表示来预测标签,并通过交叉熵函数训练将损失值L降至最低;
ZG=softmax(WhG+b) (12)
将建筑安全事故报告文本进行数据预处理,对文本数据进行清洗,然后分词,去除一些无用的数据和词语,再标注类别标签;将文本输入文本编码模块,利用Glove模型训练生成分布式词向量表示;其次将预处理后的数据转换图结构表示,其中词向量作为初始输入特征;然后构建分类模型提取文本特征,即使用LSTM进行信息交互,使用注意力机制与最大池化进行信息聚合,获得文档特征表示;最后将特征输入报告分类模块,根据文档所属类别进行训练,并将事故类别作为最终输出。
例如:原始事故报告文本“XX年3月29日,上午9时20分,庆阳银陇嘉苑商住小区工地11#楼第7层电焊作业人员在进行电压力焊时,造成焊渣外溅,落至第二层西南角外架,引起外架隔离防护板燃烧,造成两片毛竹片、一张安全网烧毁。”经过数据预处理后,转换为“上午庆阳银陇嘉苑商住小区工地楼层电焊作业人员电压力焊时焊渣外溅落至第二层西南角外架外架隔离防护板燃烧两片毛竹片一张安全网烧毁”,然后将文本中的每个词语进行向量化表示,同时每个词语都是图网络中的一个节点,如图4所示,最后,经过特征提取模型与报告分类模块后将该文本划分为“火灾”类别。
综上所述,本发明基于图神经网络的建筑事故报告分类系统及其方法,支持归纳学习,将每个文档都构建为单个图,每个图都是包含单词节点的同构图,然后使用图神经网络学习基于其局部结构的细粒度单词表示,有效地为新文档中未出现的单词生成嵌入,最后将单词节点的表示聚合为文档的表示,实际应用中不需要在检测新的事故报告时每次重新构建图,从而节省大量时间资源;新型的模型融合模式,取代传统的浅层机器学习与深度学习方法,本发明创造性地利用图神经网络解决了建筑安全领域的事故报告分类问题,相比于现有技术在建筑安全事故报告数据集上有更高的分类准确率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
上述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.基于图神经网络的建筑事故报告分类系统,其特征在于:包含数据预处理模块(1)、文本编码模块(2)、图构建模块(3)、模型构建模块(4)以及报告分类模块(5),所述数据预处理模块(1),对建筑事故报告文本进行清洗、分词和类别标注处理;
所述文本编码模块(2),将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元;
所述图构建模块(3),将序列化结构文本转化为图结构数据;
所述模型构建模块(4),构建处理图结构数据的神经网络模型;
所述报告分类模块(5),将经过模型运算处理后的文本按照预设类别分类。
2.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统,其特征在于:所述数据预处理模块(1)包含文本清洗模块(101)、分词模块(102)和类别标注模块(103),所述文本清洗模块(101),将原始事故报告中的噪音去除,保留事故经过与事故原因两部分文本,并去除标点符号;所述分词模块(102),面向清洗后报告文本,采用分词工具,将文本中的词语进行切分,得到词语序列;所述类别标注模块(103),面向每份事故报告文本,为每份文本标注类别标签。
3.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统,其特征在于:所述文本编码模块(2),将数据预处理模块(1)处理后的词语进行向量化表示,将词语表示映射到高维向量空间中,采用分布式词表示,将文本编码成计算机理解和处理的序列。
4.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统,其特征在于:所述图构建模块(3),将序列化文本转换为图结构数据表示,每份建筑事故报告分别构建为图,其中,图节点表示词语,边表示词语之间共现关系。
5.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统,其特征在于:所述模型构建模块(4),包含信息交互模块(401)和信息聚合模块(402),所述信息交互模块(401),在构建的图结构数据基础上,使用长短期记忆网络实现节点间的信息交互;所述信息聚合模块(402),经过信息交互后,将图中节点表示聚合为整个图结构表示,用于下一步分类。
6.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统,其特征在于:所述报告分类模块(5),将经过模型构建模块(4)的信息交互模块(401)和信息聚合模块(402)后的文本表示输入softmax函数中,进行类别划分。
7.基于图神经网络的建筑事故报告分类方法,其特征在于:
首先,将建筑事故报告文本进行预处理;
其次,将数据预处理之后的事故文本数据进行分布式词表示编码后,生成相应的词语向量;
然后,将序列化结构的文本数据转化为图结构数据表示;
之后,构建模型,充分利用图结构,提取文本特征信息,获取整个事故报告的文本表示;
最后,将文本表示输入分类器中得到事故类别,作为最终输出。
8.根据权利要求7所述的基于图神经网络的建筑事故报告分类方法,其特征在于:由数据预处理模块(1),对建筑事故报告本进行清洗、分词以及类别标注;由文本编码模块(2),对文本进行分布式词表示编码;由图构建模块(3),将文本序列结构转换为图结构表示;由模型构建模块(4),在图基础上进行信息交互和聚合,提取文本特征表示;由报告分类模块(5),将提取的文本特征转输入分类器获取事故类别。
9.根据权利要求7所述的基于图神经网络的建筑事故报告分类方法,其特征在于:由数据预处理模块(1)的文本清洗模块(101)保留原始事故报告中的事故经过与事故原因两部分文本,并去除标点符号;数据预处理模块(1)的分词模块(102)采用jieba分词工具清洗报告文本,将文本中的词语进行切分,得到词语序列;数据预处理模块(1)的类别标注模块(103),为每份事故报告文本标注类别标签;
由文本编码模块(2),将文本编码成计算机可处理的向量编码序列;
图构建模块(3),将每份事故报告构建为独立的图G(V,E),其中,节点V表示事故报告中去除重复后的唯一词语集合,边E是词语之间的共现关系集合,使用文本编码得到的词语向量作为图节点的特征初始化,表示为h∈R|V|×d,其中d是特征维数,|V|是文档中唯一词语的数量;
模型构建模块(4)的信息交互模块(401),在每个图中使用长短期记忆网络LSTM来学习图节点的特征表示,通过图结构实现节点间的信息交互,将邻居节点传递过来的信息x与自身的表示相结合完成特征更新,代入公式(1~7)中;
xt=Aht-1Wa (1)
ft=σ(Wf[ht-1,xt]+bf) (2)
it=σ(Wi[ht-1,xt]+bi) (3)
ht=ot*tanh(Ct) (7)
其中,A∈R|V|×|V|是邻接矩阵,σ是sigmoid激活函数,所有的W,U,b均是可训练的权值和偏差,f和i分别为遗忘门和输入门,以确定多少邻居信息被保留并用于更新当前节点嵌入表示,每次更新将自身特征与周围一阶邻域内其它节点特征相结合,更新重复t次,完成高阶邻域节点特征信息交互,即节点获得t跳内所有节点的特征信息;
为使词语节点的初始上下文信息被更加充分利用,在每次LSTM更新完成后使用式(8)保留部分初始特征信息,通过调整参数λ的大小确定信息的保留程度;
ht+1=λh0+(1-λ)Aht (8)
模型构建模块(4)的信息聚合模块(402),所有词语节点在充分特征交互之后,将被聚合成文档的特征表示,并用于最终事故类别的预测,将信息交互输出每个词语的文本表示代入式(9)中,其中f1表示多层感知器,N是节点的数量;
由于每个词语节点对于整个文档的重要性是不同的,应当被分配不同的权重,因此,使用注意力机制预测每个词语节点对整个文档图表示的贡献,将hg与hv代入式(10)中计算贡献值αv,其中score(a,b)为向量a与b之间相似度计算函数,采用LuongAttention进行计算;
αv=softmax(score(hg,hv)) (10)
同时,将最大池化函数用于最后的文档图表示,聚合公式表示如式(11),其中f2表示多层感知器;
报告分类模块(5)通过向softmax层传递图级表示来预测标签,并通过交叉熵函数训练将损失值L降至最低;
ZG=softmax(WhG+b) (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751321.XA CN115129875A (zh) | 2022-06-28 | 2022-06-28 | 基于图神经网络的建筑事故报告分类系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751321.XA CN115129875A (zh) | 2022-06-28 | 2022-06-28 | 基于图神经网络的建筑事故报告分类系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129875A true CN115129875A (zh) | 2022-09-30 |
Family
ID=83379559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210751321.XA Pending CN115129875A (zh) | 2022-06-28 | 2022-06-28 | 基于图神经网络的建筑事故报告分类系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129875A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
-
2022
- 2022-06-28 CN CN202210751321.XA patent/CN115129875A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
CN117725928B (zh) * | 2024-02-18 | 2024-04-30 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN113392986B (zh) | 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
CN109597997A (zh) | 基于评论实体、方面级情感分类方法和装置及其模型训练 | |
Xiao et al. | Using convolution control block for Chinese sentiment analysis | |
CN109165275B (zh) | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 | |
CN109766410A (zh) | 一种基于fastText算法的新闻文本自动分类系统 | |
CN113343690B (zh) | 一种文本可读性自动评估方法及装置 | |
CN111339440B (zh) | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 | |
CN115129875A (zh) | 基于图神经网络的建筑事故报告分类系统及其方法 | |
Mo et al. | Large language model (llm) ai text generation detection based on transformer deep learning algorithm | |
AU2021102006A4 (en) | A system and method for identifying online rumors based on propagation influence | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
Gul et al. | Tanz-indicator: A novel framework for detection of perso-arabic-scripted urdu sarcastic opinions | |
CN115204280A (zh) | 一种基于图马尔可夫注意网络的滚动轴承故障诊断方法 | |
CN113360680A (zh) | 一种基于电力审计制度的无监督知识图谱构建方法 | |
Li et al. | A rule-based Chinese sentiment mining system with self-expanding dictionary-taking TripAdvisor as an example | |
Sithole et al. | Mining knowledge graphs to map heterogeneous relations between the internet of things patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |