CN114637827A

CN114637827A - 一种基于图神经网络的碳交易文本事件抽取方法

Info

Publication number: CN114637827A
Application number: CN202111471323.5A
Authority: CN
Inventors: 贾海涛; 黄婧; 陈泓秀; 林思远; 江雪婷; 李家伟; 刘桐; 许文波
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2022-06-17

Abstract

本发明公开了一种基于图神经网络的碳交易事件抽取方法，属于自然语言处理技术领域。本发明首先定向爬取中文碳交易文本，对文本进行清洗和预处理，获取相应的数据集；然后通过预处理模型BERT和BiGRU网络，融合词性特征，提取长距离语义信息，获得词级特征和句级特征；再者，通过CRF模型提取句子中的候选触发词和候选论元；然后基于候选事件元素构建图神经网络节点，根据句级特征相似度构建图神经网络边，加入多头注意力机制，通过图神经网络学习事件触发词和事件论元的依赖关系；最后基于全连接层和Sigmoid层分类事件候选元素。本发明针对中国新兴的碳交易市场的非结构化信息，可理解深层语义信息，关注句子中重要的词，有效提取结构化的碳交易事件信息。

Description

一种基于图神经网络的碳交易文本事件抽取方法

技术领域

本发明属于自然语言处理领域，具体涉及对碳交易文本的事件抽取。

背景技术

碳交易是温室气体排放权交易的总称。在碳达峰和碳中和的“双碳”背景下，碳交易市场是中国实现“双碳”目标的重要抓手。我国的碳交易市场处于起步阶段，碳交易案例、政策等，大多以文本形式呈现给大众，这些非结构化信息对企业转型、投资者决策等具有重要意义。通过事件抽取提取结构化的碳交易事件信息，可以帮助企业和投资人了解市场和做出决策。

事件抽取方法主要分为两类：基于模式匹配的方法和基于机器学习的方法。基于模式匹配的方法，是根据专业领域人员构建的模板进行事件抽取。该方法能在特定领域取得较高性能，但需大量人工干预且可移植性差。基于机器学习的方法将事件抽取建模为多分类问题，使模型从文本中学习特征，接着进行事件抽取，其核心是合理选取特征和分类器，大量研究表明，基于机器学习的事件抽取方法可取得更好的效果。事件抽取方法分为基于流水线模型和基于联合模型的方法。基于流水线模型的方法先进行触发词的识别和分类，再进行事件论文的识别和分类，该方法的误差传递问题严重。基于联合模型的方法在同一模型中进行两个子任务，共享模型参数，该方法降低了误差传递的影响。

图神经网络指基于图数据的神经网络学习方法，广泛应用于语音识别、目标检测、自然语言处理等领域。图注意力网络指引入注意力机制的图卷积神经网络，属于基于空间的图卷积网络，该方法解决了图卷积网络不能处理有向图、不能为不同节点分配不同注意力权值的问题，具有计算简洁、不依赖图结构的优势。

目前，中文碳交易文本主要以新闻、公告等形式呈现，具有时效性高、句法结构复杂、高维稀疏、信息冗余、事件论元分散和无规律性等特点，主要存在多事件相互关联的问题、文本中事件信息分散的问题。针对这些问题，需要构建可理解深层语义信息、联系上下文对应关系的联合事件抽取方法。本发明结合预训练模型BERT和图注意力网络GAT，设计了针对碳交易文本的事件抽取方法。

发明内容

本发明针对新兴的碳交易领域，旨在解决上述技术问题，提出一种基于预训练模型和图注意力网络的中文碳交易文本事件抽取方法，该方法是一种基于触发词识别分类和论元识别分类的事件信息联合抽取框架。

本发明所采用的技术方案为：一种基于图神经网络的碳交易文本事件抽取方法，包括以下步骤：

步骤1：爬取中文碳交易文本；

步骤2：清洗文本数据中的文本噪声，对自然语言文本进行预处理；

其中，预处理过程包括分句分词、词性标注、人工碳交易实体标注。

步骤3：利用预训练模型BERT提取句子级特征，融合词性特征获取词级特征，通过BiGRU网络结构进一步提取远距离语义信息；

步骤4：通过CRF模型和sigmoid层识别碳交易候选事件元素；

步骤5：以事件候选元素词为GNN节点，根据句级特征构建GNN边，加入多头注意力机制，构建图注意力神经网路；

步骤6：通过全连接层和sigmoid层对候选事件元素分类；

步骤7：输出结构化碳交易事件信息。

为了提取深层语义信息，捕获文本中多事件的关联信息，关注事件抽取中作用较大的词，本发明采用图注意力网络，所述步骤5的具体方法如下：

步骤501：将候选事件元素的词作为图神经网络的节点，候选事件元素包括事件触发词和事件论元，通过上述步骤1至步骤4，词特征融合了实体标记特征、句位置特征、词位置特征、词性特征和上下文表示特征；

步骤502：将融合了上下文表示信息的句级特征输入CRF模型，识别当前句子中的事件触发词和事件论元，构建事件触发词到论元的有向边；

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)可以获取结构化的碳交易事件信息；

(2)融合多种特征，可以有效理解深度语义信息；

(3)针对文本中多事件关联的问题，利用图注意力网络，为不同节点分配权重，提高碳交易事件抽取的性能。

附图说明

图1为本方法实现总体流程图；

图2为碳交易事件框架。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明目的是基于中文碳交易文本结合预训练模型和图神经网络，获取结构化的碳交易事件信息，解决事件信息分散和文本中多事件关联的问题。

本发明解决的技术问题的技术方案为：一种基于图神经网络的碳交易文本事件抽取方法。基于预训练模型提取语义特征的基础上，融合词性特征和上下文表示特征，理解深层语义信息；构建图注意力神经网络，通过图卷积网络获取多事件关联信息，通过注意力权值分配关注更重要的词。

如图1，本具体实施方式中，基于图神经网络的碳交易事件抽取的具体处理包括下述处理步骤：

步骤1：爬取碳交易中文文本；

步骤2：通过数据清洗和文本预处理获取训练数据集；

步骤3：融合多种语义特征，获取句级特征和词级特征；

步骤4：通过CRF模型识别候选事件元素，包括候选事件触发词和候选事件论元；

步骤5：以候选事件元素为图神经网络节点，根据句级特征构建图神经网络边，引入多头注意力机制，构建图注意力网络；

步骤6：通过全连接层和sigmoid层对事件候选元素分类；

步骤7：输出碳交易事件抽取结果。

步骤101：以中国碳交易为关键词获取相关网页信息，如碳交易市场网等。

步骤102：根据网页，基于python的爬虫框架，爬取碳交易中文文本。

步骤201：数据清洗。

基于正则表达式，去除文本中无意义的字符或符号，如字数极少的通识类文本、一些URL 和特殊字符等。

步骤202：文本预处理。

基于jieba工具，对清洗后的文本进行分句和分词；基于LTP工具完成词性标注；人工标注碳交易事件实体，采用BIO标注方式，包括企业名(COPR)、人名(PER)、金额(MON)、碳资产(CA)、碳排放量(CE)、碳交易(CT)、时间(TIME)、地点(LOC)，例如，文本中碳债券、碳基金等标注为CA，具体的碳排放数量标注为CE，买卖碳资产标注为CT；以一定比例，乱序排列数据集，获取训练集、验证集和测试集。

步骤301：通过BERT模型获取词级特征和句级特征。

将数据集中的词和实体标记转化为id序列，构建BERT模型的输入，包括三个部分：token_embedding、segment_embedding和position_embedding。假设样本数量为N，句子的最大长度为L，BERT模型的隐藏层个数为M，获得词嵌入特征为[N,L,M]。

将词性标记转化为id序列，输入BERT模型，获得词性的词嵌入特征为[N,L,M]。

步骤302：融合多种语义特征，提取长距离语义信息。

假设经过BERT提取的词特征为C_w＝[w₁,w₂,……,w_L]，词性特征为C_p＝[p₁,p₂,……,p_L]，融合两种特征得到词级特征C：

将词级特征C输入至双控循环网络结构BiGRU中，利用前向GRU网络提取当前单词的上文信息，利用后向网络提取当前单词的下文信息，拼接双向的语义依赖获得每个词的句级特征h_i，则BiGRU网络的输出H为[L,M*2]:

H＝[h₁；h₂；……；h_L] (2)

步骤401：定义碳交易事件类型和框架。

针对碳交易事件，定义事件类型：碳配额分配、碳交易、碳质押、碳回购、碳保险。事件框架如图2，包括触发词及其他碳交易事件论元。

步骤402：通过CRF模型识别事件触发词和事件论元。

将融合多种语义特征的句级特征H输入线性层获得发射概率矩阵P规模为[L，K]，K为碳事件实体标记的个数。假设A[K,K]为转移概率矩阵，a_i,j表示由标记i转移到标记j的概率。输入的观测序列为x＝{x₁,x₂,……,x_L}，输入的标记序列为y＝{y₁,y₂,……,y_L}，P中每个元素a_i,j表征词的各个标记得分：

利用CRF模型抽取出s个候选事件元素，包括事件触发词和事件论元。

步骤501：构建图神经网络节点。

候选事件要素词作为图神经网络的s个节点，节点特征为相应的词级特征C_i。

步骤502：构建图神经网络边。

计算各个节点的句级特征h_i间的相似度，通过softmax层分类关联节点和无关联节点：

根据softmax层的输出，连接关联节点，构建有向无环图。

步骤503：加入多头注意力机制。

输入节点特征C_i至前馈神经网络和非线性激活函数，获得每个节点的邻接节点的重要程度e_i,j，计算归一化的注意力系数ATT_i,j:

ATT_i，j＝Softmax(e_i，j) (5)

假设当前节点i的所有邻接节点集合为D_i，加权求和当前节点的所有邻接节点特征，获得注意力特征q_i:

其中，f(·)表示非线性函数，W为权重矩阵。为提高模型鲁棒性，采取多头注意力机制，假设注意力头个数为m，m中注意力计算相互独立，利用取平均的方式获取各个节点的新特征g_i，该特征融合了词级特征、句级特征和注意力特征。

步骤601：通过全连接层和Sigmiod层分类事件候选元素。

构建(候选事件触发词，候选事件论元)词对特征输入全连接层和Sigmoid层，对事件类型分类，识别事件论元在事件触发词对应事件中承担的角色。具体地，(w_i，w_j)的特征为g_i,j＝(g_i，g_j)，(i≠j)设权重矩阵为W^F，偏置为b:

E(w_i，w_j)＝Sigmoid(W^Fg_i，j+b) (8)

步骤602：通过损失函数进行参数优化。

针对事件触发词识别和分类及事件论元识别和分类分别构建损失函数L₁和L₂，构建总体损失函数：

L_total＝αL₁+βL₂ (9)

步骤701：输出碳交易事件信息。

例如，输入文本为：“河南省新乡市一家名为天洁生物发电有限公司的民营企业在2013 年8月，其减排的18.6万吨二氧化碳指标被联合国气候变化框架公约组织核查认定，在国际碳市场上达成交易，赚取外汇149.86万欧元。”

输出的碳交易事件信息应为：事件类型(碳交易)；触发词(赚取)；碳资产(减排的二氧化碳指标)；交易体量(18.6万吨)；交易日期(2013年8月)；交易收入(149.86万欧元)。

以上所述，仅为本发明的具体实施方式，本说明中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了相互排斥的特征或、和步骤外，均可以任何方式组合。

Claims

1.一种基于图神经网络的碳交易事件抽取方法，其特征在于，包括下列步骤：

步骤1：爬取中文碳交易文本；

步骤4：通过CRF模型和sigmoid层识别碳交易候选事件元素；

步骤6：通过全连接层和sigmoid层对候选事件元素分类；

步骤7：输出结构化碳交易事件信息。

2.根据权利要求1所述的碳交易事件抽取方法，其特征在于，所述步骤3中提取语义的方法具体为：

步骤301：利用BERT模型获取输入句子的词嵌入特征，输入词性id序列，通过BERT模型获取词性的词嵌入特征，融合两种词嵌入特征获取词级特征；

步骤302：输入词级特征至BiGRU网络结构，进一步提取远距离的语义特征，拼接双向的语义依赖，获得每个词的句级特征。

3.根据权利要求1所述的碳交易事件抽取方法，其特征在于，所述步骤5中提出构建图注意力网络的方法具体为：

步骤501：构建图神经网络节点，将事件候选要素词作为图神经网络的节点，节点特征为相应的词级特征；

步骤502：构建图神经网络边，通过计算各个节点的句级特征间的相似度，找出各个节点的关联节点，连接关联节点，构造有向边。

步骤503：在图神经网络中加入多头注意力机制，计算每个节点的邻接节点的重要程度，通过注意力层获取注意力特征，取多个独立的注意力计算，通过取平均的方式获得最终的注意力特征，既能关注更重要的邻接节点，又能提高系统的鲁棒性。