CN114880428A - 一种基于图神经网络的语篇成分识别方法 - Google Patents

一种基于图神经网络的语篇成分识别方法 Download PDF

Info

Publication number
CN114880428A
CN114880428A CN202210215736.5A CN202210215736A CN114880428A CN 114880428 A CN114880428 A CN 114880428A CN 202210215736 A CN202210215736 A CN 202210215736A CN 114880428 A CN114880428 A CN 114880428A
Authority
CN
China
Prior art keywords
sentence
feature
vector
article
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210215736.5A
Other languages
English (en)
Other versions
CN114880428B (zh
Inventor
黄震
王思杰
郭敏
于修彬
郭振梁
苏鑫鑫
陈中午
罗军
窦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210215736.5A priority Critical patent/CN114880428B/zh
Publication of CN114880428A publication Critical patent/CN114880428A/zh
Application granted granted Critical
Publication of CN114880428B publication Critical patent/CN114880428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图神经网络的语篇成分识别方法,目的是提高语篇成分识别的准确率和Macro‑F1值。技术方案是先构建结合图神经网络的语篇成分识别系统;准备训练语篇成分识别系统所需的中文议论文数据集。采用多轮循环的方式对语篇成分识别系统进行训练获取最优的网络结构权重参数,将训练得到的权重参数加载到语篇成分识别系统,得到训练后的语篇成分识别系统。训练后的语篇成分识别系统对用户输入的文章进行预处理,并进行语篇成分识别,得到文章的识别结果。本发明实现了利用图神经网络技术提高语篇成分识别效果的目的,相比现有语篇成分识别方法,本发明Acc和Macro‑F1值都有提升。

Description

一种基于图神经网络的语篇成分识别方法
技术领域
本发明涉及语篇成分识别领域,特指一种基于图神经网络的语篇成分识别方 法。
背景技术
自然语言处理,简称为NLP(Natural Language Processing),可以分为 两个部分进行理解:“自然语言”和“自然语言处理”。自然语言是一种区别于 计算机语言的语言,这是人类区别于其他生物最本质的特征,因为在所有的生物 当中,只有人类才具有语言能力。自然语言记录着人类发展历程中的信息交流, 一句简单的“你好”,无论是汉语、英语或者其他语言,还是文字或是语音形式, 都属于自然语言的一部分。自然语言处理,通俗来说是一种利用人类交流使用的 自然语言与机器进行交互通讯的技术。通过对自然语言形式输入的数据进行处理, 并使用人类定义的算法进行加工或者运算,来模拟人类对自然语言的理解。本质 上就是对文字,词语,句子,语篇等不同层次的信息进行处理与分析,得到需要 的特征信息并生成有意义的结果。
自然语言处理是一门融合了计算机科学、数学和语言学于一体的科学,随着 近年来人工智能技术的飞速发展,以及大数据的广泛的可用性,推动了自然语言 处理技术的飞速发展,在实体识别、知识图谱、文本分类、舆情监测等多个方面 有着深入的研究。
论据挖掘,英文名称Argument Mining,也是自然语言处理中的一个领域, 旨在自动地识别文本中的论辩结构。理解论辩结构不仅可以确定人们的立场,还 可以确定他们为什么持有自己的观点,这为信息检索、自动论文评分、金融市场 预测和法律决策支持等领域提供了很多有价值的见解。目前论据挖掘通常包括以 下四个子任务:(1)论据成分分割,它将议论文句子与非议论文句子分开;(2) 论据组件类型分类,即确定论据组件(用于将含议论性质的句子进行分类,也就 是判断含议论性质的句子归属哪个类型,例如,引言、主要观点、结论等类别); (3)论据关系识别,用于判断论据之间,也就是议论文句子之间是否存在一定 的关系(例如,因果关系);(4)论据关系类型分类,即确定论据关系的类型 (例如,原因和结果)。语篇成分识别任务则涵盖论据挖掘中的第二个子任务, 并且会增加一个额外的“其他”类别(用于划分非议论性质的句子),因为即使 是一篇合格的议论文中也不是每个句子都含有议论性质的话语。语篇成分识别旨 在识别语篇要素,确定它们的功能(也就是判断议论文中的每个句子属于议论成 分中的哪个类别,或者属于“其他”类别),便于后续对议论文结构进行更加清 晰地分析,可以为自动论文评分、议论文篇章分析等多个领域产生有益的帮助。
目前用于衡量语篇成分识别的标准主要是两个:Acc(准确率)和Macro-F1 (宏观F1数值)。准确率Acc表示的是预测为正的样本中有多少是真正的正样 本,可以作为多分类问题的一个评价标准;Macro-F1则是一种适用于多分类问 题下的评价标准,不受数据不平衡影响,它是在准确率和召回率(recall,表示 样本中的正例有多少被预测为正确)基础上进行构建的。Macro-F1的定义如下: Macro-F1分数=召回率×准确率×2/(召回率+准确率),之后将每个类别的 Maceo-F1分数加和除以类别总数,获得最终的Maceo-F1得分。
语篇成分识别最早由人工进行,但是它要求操作者必须对当前类别的数据 (例如,学生议论文,法律判决卷宗、政府报告等等)有相当熟练且清晰的认知, 才能保证当前类别数据下分类的准确性与有效性,这是一个相当耗时的过程。并 且,一旦数据的类别发生改变或更换,就需要重头对新的数据类别进行研究与学 习,会增加额外的时间成本。同时,随着大数据的发展与互联网的普及,需要进 行语篇成分识别的内容也越来越多,篇幅越来越长,人工的速度过于缓慢,无法 满足现有的速度与效率要求。因此需要跳出人工的过程,将语篇成分识别任务与 人工智能技术结合起来。
用于语篇成分识别的方法也是逐步迭代与递进的过程。从早期的基于分类的 方法,将语篇成分识别任务视为一个分类问题;到之后基于序列标记的方法,使 用条件随机场或递归神经网络来归纳上下文信息,例如HBiLSTM网络,使用两个 BiLSTM层来编码单词和句子,从而用于语篇成分识别;然后是使用特征的方法, 通过分析句法、词汇和语义关系,来构建新的人为特征,辅助用于语篇成分识别; 近年来随着新的训练模型BERT的出现(见文献“Devlin J,Chang M W,Lee K, et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].2018”,Devlin J,ChangM W,Lee K等人的论文:BERT, 基于深度双向Transformer预训练进行自然语言理解),基于Bert模型进行微 调,来训练句子分类器用于语篇成分识别。随着方法的不断创新与递进,语篇成 分识别的准确率与效果也在不断提升。
目前最好的语篇成分识别方法是利用神经网络和深度学习的语篇成分识别 方法,先提取每个词的特征矩阵,通过平均池化(取每个矩阵块(例如2x2)的元 素平均值,作为下一层元素值的输入,并且在反向传播时,下一层的每一元素的 loss值要除以矩阵块的大小(例如2x2=4),再分配到矩阵块的每个元素上)来获 得每句话的特征表示。接着为每句话添加位置特征信息,将添加了位置信息的句 子特征与未添加位置信息的句子特征分别添加自注意力和自适应池化,获得两种 不同的文章特征表示。将添加了位置信息的句子特征与这两种文章特征表示拼接 到一起,进行句子类型的预测。基于神经网络和深度学习的语篇成分识别方法的 缺陷在于仅考虑了单个句子的特征信息来识别语篇元素,忽略了每个句子表达的 含义不应该只取决于句子本身,还取决于句子的上下文语境信息,从而导致Acc 和Macro-F1数值不足够高(Acc为0.681,Macro-F1为0.657),不能放心地应 用在对语篇成分识别准确率要求较高的法律判决记录文本和金融营销策划文本 等方面。因此,如何增强句子间的关系与关联性,通过上下文信息更加清楚地来 辅助句子核心意思的表达,提升Acc和Macro-F1的效果,是一个很有价值且重 要的研究点。
一种有效解决句子之间上下文信息交互不足的方法是图神经网络(GNN, GraphNeural Network),它是一种基于图结构的广义神经网络,可以处理非结 构化的数据,通过在整张图上传递、转换和聚合节点特征信息,获得更好的特征 表示。目前还没有公开文献涉及将GNN应用于语篇成分识别的方法。
将图神经网络应用于语篇成分识别时如何构建图结构是一个难点。将一篇文 章中的每个句子作为一个节点,如果构建全连接图(在一个图中,任意两个顶点 之间有路径相连),那么添加GNN的语篇成分识别系统的训练耗时就会大大增加, 并且存在加深GNN的层数后,语篇成分识别效果下降的问题,因为无论特征矩阵 的初始状态如何(随机产生),多次卷积后,同一联通分量内所有节点的特征会 趋于一致,从而导致添加GNN的语篇成分识别系统的识别效果下降。另一个难点 是如何选择图神经网络,图神经网络又划分为四大类别,分别是:图卷积网络 (GCN)、图注意力网络(GAT)、图生成网络(GGN)和图时空网络(GSN), 不同的图神经网络也会带来不同的训练耗时和效果,并且需要对不同的参数选择进行衡量。最后一个难点,在语篇成分识别系统的什么位置添加图神经网络结构, 可以选择在单词、句子等多个位置对不同的成分进行聚合,不同的位置会对模型 产生不同的效果。
因此,如何充分利用文章的上下文信息来增强每个句子特征表示,提高语篇 成分识别的准确率,提出一种基于图神经网络的语篇成分识别方法,提升语篇成 分识别的Acc和Macro-F1数值,是本领域研究人员正在研究的热点问题。
发明内容
本发明要解决的技术问题是针对现有利用神经网络和深度学习的语篇成分 识别方法识别出来的Acc和Macro-F1数值低,提出一种基于图神经网络的语篇 成分识别方法。本发明基于现有的深度学习模型框架,利用图神经网络GNN,使 得添加了GNN的语篇成分识别系统的识别效果相比于背景技术所述的深度学习 框架,语篇成分识别的Acc和Macro-F1均有提升。
为解决上述技术问题,本发明技术方案是:构建结合图神经网络的语篇成分 识别系统。该系统由特征提取模块,位置编码模块,语篇自注意力模块,特征拼 接模块构成。准备语篇成分识别系统所需的中文数据集,将数据集按照大约 8:1:1的比例划分为训练集、验证集和测试集。同时,经过查询各种文献资料, 将议论文数据集中的句子类别大致分为七类,分别是:导言,主题,主要观点, 证据,结论,阐述和其他。
首先采用训练集对语篇成分识别系统进行训练,在训练的每一轮训练迭代中, 特征提取模块接收输入的训练集数据文本,利用图神经网络方法生成每个句子的 特征表示,分别输入到位置编码模块和语篇自注意力模块。位置编码模块在特征 提取模块所产生的句子特征表示上额外增添每个句子在文章中的位置信息,分别 发送到语篇自注意力模块和特征拼接模块。语篇自注意力模块接收来自特征提取 模块和位置编码模块的两个特征输入,分别通过句间自注意力和自适应池化步骤 来获得两个不同的文章特征表示,将这两者输入到特征拼接模块。特征拼接模块 将来自位置编码模块的添加了位置信息的句子特征表示和来自语篇自注意力模 块的两个不同的文章特征表示拼接到一起,通过一层MLP(多层感知机,用于解 决神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数)将特征 矩阵的维度降低到议论文句子的类别个数7,接着通过softmax函数(一种归一 化函数,使得每个元素的范围都在(0,1)之间。例如输入向量[1,2,3,4],经过 softmax函数后,输出向量变为[0.1,0.2,0.3,0.4]),将数值最大的所属类别作 为当前句子的预测类别。之后将句子的预测类别与实际类别之间的差距作为loss 值,不断进行模型的训练与参数的更新。同时,在模型训练的过程中,使用验证 集对模型不断进行验证,将性能优异的模型保存下来。最后,使用测试集作为用 户输入的语篇对先前保存下来的模型进行测试,记录模型的效果。
本发明包括以下具体步骤:
第一步:构建语篇成分识别系统。该系统由特征提取模块,位置编码模块, 语篇自注意力模块,特征拼接模块构成。
特征提取模块与位置编码模块和语篇自注意力模块相连,功能是提取句子特 征,它是一个深度前馈神经网络,由表示层、序列编码层和一个图神经网络层构 成。特征提取模块将输入的文章中的单词特征信息进行汇总,获得每个句子的特 征表示,利用图神经网络对每个句子特征信息进行更新,得到每个句子的特征表 示,将每个句子的特征表示发送给位置编码模块和语篇自注意力模块。
表示层使用预训练的词向量new_embeddings2.txt(来自网站时 https:// ai.tencent.com/ailab/nlp/en/download.html,选择历史版本下载中 的v0.1.0)作为初始化的单词表示。将每句话中所有的单词表示加和求平均值, 并使用tanh激活函数(见文献“Lecun Y A,BottouL,Orr G B,et al.Efficient backprop[J].Lecture Notes inComputer Science,1998.”Lecun Y A, BottouL,Orr G B等人的论文:高效的反向传播)来获得每句话的初始向量表示, 初始向量表示称为句子向量,将句子向量发送给序列编码层。
序列编码层使用一个单层的模型BiLSTM(见文献“Huang Z,Wei X,Kai Y.Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science,2015.”,Huang Z,Wei X,Kai Y等人的论文:用于序列标记的双向LSTM-CRF 模型)对从表示层收到的句子向量进行建模,得到建模后的句子向量序列,将句 子向量序列发送给图神经网络层。序列编码层的BiLSTM分为两个并行的分支结 构,分别为正向模型
Figure BDA0003534510530000051
(接收句子向量的正序输入,最终输出更新后的正序 句子向量
Figure BDA0003534510530000052
)和逆向模型
Figure BDA0003534510530000053
(接收句子向量的逆序输入,最终输出更新后 的逆序句子向量
Figure BDA0003534510530000054
),将两个更新后的句子向量
Figure BDA0003534510530000055
Figure BDA0003534510530000056
进行拼接,使得句 子向量的维度大小变为之前的两倍,得到更新后的句子向量序列,将更新后的句 子向量序列输入到图神经网络层。
图神经网络层使用图神经网络(见文献“Scarselli F,Gori M,Tsoi A C, etal.The graph neural network model[J].IEEE transactions on neural networks,2008.”Scarselli F,Gori M,Tsoi A C等人的论文:图神经网络 模型)将从序列编码层收到的句子向量序列作为节点(一篇文章中的一句话当作 一个节点)的初始特征向量,对一篇文章中的所有句子构建全连接图或者局部连 通图(以每个句子为中心位置,分别朝前和朝后选择与之相邻的M个句子进行连 接),每对节点之间的连接边的权重通过两个节点的初始特征向量的相似度来确 定。通过每个节点与自己相连节点进行特征信息的交互与传播,获得每个句子的 特征向量表示(称为句子特征向量),将句子特征向量发送给位置编码模块和语 篇自注意力模块。
位置编码模块是一个循环神经网络,与特征提取模块、语篇自注意力模块和 特征拼接模块相连,从特征提取模块接收句子特征向量,为每个句子特征向量添 加维度为16的全局相对位置信息(假设当前句子是整篇文章中的第m句话,整 篇文章中一共有E句话,则全局相对位置信息为
Figure BDA0003534510530000061
),段落相对位置信息(假设当 前句子所在段落是全局中的第b段,整篇文章一共有P个段落,则段落相对位置 信息为
Figure BDA0003534510530000062
)和局部相对位置信息(假设当前句子是当前段落中的第c句话,当前段 落有Ep句话,则局部相对位置信息为
Figure BDA0003534510530000063
)。然后,与特征提取模块中的序列编码 层类似,通过一层BiLSTM对融入了位置信息的句子特征向量重新进行建模,获 得添加了位置信息的句子特征向量,将添加了位置信息的句子特征向量分别发送 给语篇自注意力模块和特征拼接模块。
语篇自注意力模块是一个前向神经网络,与特征提取模块、位置编码模块、 特征拼接模块相连,从特征提取模块接收未添加位置信息的句子特征向量,从位 置编码模块接收添加了位置信息的句子特征向量,对这两种特征向量进行相同的 处理。语篇自注意力模块由一层句子间的自注意力层和一层自适应池化层构成。 自注意力层(见文献“VaswaniA,Shazeer N,Parmar N,et al.Attention is all you need[C].Advances in neuralinformation processing systems,2017.” Vaswani A,Shazeer N,Parmar N等人的论文:注意力就是你所需要的)通过 将不同位置的句子特征信息联合起来建模,得到每个句子的注意力向量,注意力 向量越大代表句子在文章中的重要性越高。由于不同文章的句子数量不相同,为 了获得固定长度的语篇特征向量,因此需要采用自适应池化层(见文献“He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networksfor visual recognition[J].IEEE transactions on pattern analysis and machineintelligence,2015.”He K,Zhang X,Ren S等人的论文:用 于视觉识别的深度卷积网络中的空间金字塔池化)对从自注意力层接收的句子注 意力向量进行处理,统一向量维度大小。提取出不同尺度的输出特征可以提高深 度网络的识别准确率,因此对句子注意力向量分别提取输出维度为1,2,4,8的向 量,将这些向量拼接成维度为15的语篇特征向量。将输入中含位置信息的句子 特征向量得到的结果称为添加了位置信息的语篇特征向量,输入中不含位置信息 的句子特征向量得到的结果称为未添加位置信息的语篇特征向量,将这两种语篇 特征向量发送给特征拼接模块。
特征拼接模块是一个简单的前向网络,与位置编码模块、语篇自注意力模块 相连,从位置编码模块接收添加了位置信息的句子特征向量,从语篇自注意力模 块接收添加了位置信息的语篇特征向量和未添加位置信息的语篇特征向量,将这 三种特征向量进行拼接,得到最终的特征向量。接着通过多层感知机(用于解决 神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数),将最终 特征向量的维度降低到议论文句子的类别个数大小7,然后通过softmax函数(一 种归一化函数,使得每个元素的范围都在[0,1]之间,并且所有元素的和为1)(见 文献“Bishop,Christopher M.Pattern Recognition andMachine Learning, 2006”Bishop,Christopher M的著作:模式识别和机器学习)将输出的数值限 制在[0,1]之间,将数值最大的所属类别作为当前句子的预测类别。
特征提取模块中的深度前馈神经网络,位置编码模块中的循环神经网络,语 篇自注意力模块中的前向神经网络,特征拼接模块中的简单前向网络一起构成语 篇成分识别模型,是语篇成分识别系统中的网络结构。该网络结构统称为 discource_block。
第二步:准备中文形式的议论文数据集(见文献“Song W,Song Z,Fu R,etal.Discourse Self-Attention for Discourse Element Identification inArgumentative Student Essays[C].Proceedings of the 2020Conference onEmpirical Methods in Natural Language Processing(EMNLP),2020.”Song W,Song Z,Fu R等人的论文:议论文中语篇成分识别的话语自注意力),共1230 篇中文形式高中生撰写的议论文文章,涵盖不同的主题。这些文章是从 LeleKetang(http://www。 leleketang.com/zuowen/list30-0-0-1-1.shtml,其 中文章年级选择高中,文章体裁选择议论文)网站上收集的,总计约有33000 个句子,按照大约8∶1∶1的比例分为训练集T、验证集D与测试集S三部分。对于 议论文数据集中的句子类别主要分为以下七类:导言(在发表声明之前介绍背景 或吸引读者的注意)、主题(表达作者关于论文主题的中心主张)、主要观点(确 立与主题相关的基本观点或内容)、证据(提供用于支持主要观点和主体的示例或其他证据)、阐述(细化元素进一步解释主要观点或提供理由,但不包含示例 或其他证据)、结论(中心论点的延伸,总结全文,并呼应文章论点)和其他(与 上述类别均不匹配的要素)。
第三步:使用随机梯度下降方法(SGD)对第一步语篇成分识别系统的网络 结构进行训练,得到特征提取模块,位置编码模块、语篇自注意力模块和特征拼 接模块中的网络的最佳权重参数。
方法是:
3.1初始化权重参数,将discource_block中的权重参数集合
Figure BDA0003534510530000071
Figure BDA0003534510530000081
中所有元素值都初始化为[0,1]之间的随机数。
Figure BDA0003534510530000082
表示 discource_block中特征提取模块包含的网络结构的权重参数,
Figure BDA0003534510530000083
表示 discource_block中位置编码模块包含的网络结构的权重参数,
Figure BDA0003534510530000084
表示 discource_block中语篇自注意力模块包含的网络结构的权重参数,
Figure BDA0003534510530000085
表示 discource_block中特征拼接模块包含的网络结构的权重参数。
3.2设置网络训练参数,设定学习率(learning_rate)为0.2,批处理尺寸 (batch_size)为50,隐藏层维度(hidden_dim)为128,句子维度(sent_dim) 为128,训练迭代阈值数K为700,随机失活(dropout)为0.1,这样可以获得 最好的语篇成分识别结果。
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1 (表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的文章 数目为numT,则最大批次大小
Figure BDA0003534510530000086
Figure BDA0003534510530000087
Figure BDA0003534510530000088
表示对numT/batch_size向上取整,因此1≤num_batch≤ max_batch),初始化文章迭代参数essay=1(表示当前batch_size篇文章中的 第essay篇文章,1≤essay≤batch_size),初始化误差值无下降的累计迭代数 numno-increase=0,初始化第0轮训练的误差值Losspre=0;
3.4训练语篇成分识别系统,方法是将应用当前discource_block权重参数的 语篇成分识别系统进行语篇成分识别得到的句子类别与实际类别之间的差距作 为loss值,不断最小化loss值并更新discource_block的权重参数,直到满足迭代 阈值数K,或者出现训练终止条件(learning_rate<0.0001或者loss<0.5),终 止训练。每次训练的一个迭代结束后,使用验证集数据对当前discource_block权 重参数下语篇成分识别系统进行测试,保存在验证集上效果优异的 discource_block的参数权重。具体方法如下:
3.4.1特征提取模块的表示层从训练集T中取出第num_batch批共batch_size 数量的文章。
3.4.2记第num_batch批文章中第essay篇文章为E。
3.4.3特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特 征提取:表示层对E进行句子向量的初始化表示,得到向量形式的数据
Figure BDA0003534510530000089
(sn表示E中初始化后的第n个句子向量,Ns是E中的句子总 数,1≤n≤Ns),并通过空白的句子对
Figure BDA00035345105300000810
进行补齐,得到
Figure BDA00035345105300000811
sm为补齐后的文章E中的第m个句子,1≤m≤ Nmax,Nmax为第num_batch个batch_size中最长文章的句子个数,将
Figure BDA0003534510530000091
发送给序列编码层。序列编码层的BiLSTM对
Figure BDA0003534510530000092
进行句子向量之间的初步建模,得到建模后的句子 向量序列
Figure BDA0003534510530000093
(
Figure BDA0003534510530000094
表示第m个句子的向量序列,2*hidden_dim表示句子向量的维 度是隐藏层维度乘以2,因为是双向LSTM,隐藏层维度需要加倍),将建模后的 句子向量序列发送给图神经网络层。图神经网络层将接收的建模后的句子的向量 序列作为节点的初始特征向量,为文本数据中的所有句子构建全连接图或者局部 连通图,节点之间连接边的权重通过两个节点的初始特征向量的相似度来确定。 通过图神经网络中每个节点与邻居节点之间特征信息的交互与传播,得到Nmax个句子的特征向量的表示
Figure BDA0003534510530000095
(其中
Figure BDA0003534510530000096
表示第m个句子的特征向量)。特征提取模块对E进行句子级 别的特征提取的具体方法如下:
3.4.3.1一句话由很多单词构成,为了统一所有句子的长度,便于统一训练, 限制E中每个句子的长度标准为M(M为正整数,优选为40),超出长度标准的句 子截断成标准长度,剩余内容丢弃,不足标准长度的句子用空白的单词进行补齐 (因为是空白单词,不需要含有任何特征信息,所以用[0]([0]表示矩阵里面的 数字是0)来表示空白的信息,同时要保证词向量的维度不发生改变,因此用[0]* vecsize来替代每一个空白单词,其中vecsize是词向量的维度,大小为200,[0]* vecsize相当于一个200维的零向量)。从而将E中的Ns句话均标记为
Figure BDA0003534510530000097
其中Nw表示一句话中实际的单词个数, 剩下的(M-Nw)是补充的空白单词个数,M表示句子的标准长度(一个句子的最 多单词个数),
Figure BDA0003534510530000098
表示当前句子中的第d个单词,200表示词向量的维度,1≤ d≤M。因此
Figure BDA0003534510530000099
也可以标记为
Figure BDA00035345105300000910
其中
Figure BDA00035345105300000911
表示文章E中第n个句子的第j个单词。
同时,为了保证每个batch_size中的任一文章E具有相同的句子数目,需要记 录第num_batch个batch_size中最长文章的句子个数,记为Nmax,句子数量不足 Nmax的文章通过空白的句子进行补齐(先填充空白的单词,用[0]*vecsize(一 个200维的零向量)表示空白的单词;再为每个句子填充句子标准长度的单词个 数,因此用[0]*vecsize*M(即M个200维的零向量)来填充句子,需要替代的 空白句子个数为(Nmax-Ns)。此时,文章E中的句子标记为
Figure BDA0003534510530000101
sm为补齐后的文章E中的第m个句子,1≤m≤ Nmax
3.4.3.2将补齐后的文章E中Nmax句话中的单词所表示的向量进行平均化,得 到Nmax句话的初始向量,方法是:
3.4.3.2.1初始化变量m为1;
3.4.3.2.2从文章E中取出第m个句子,计算第m个句子的临时特征stemp, stemp是第m句话中所有的单词矩阵的平均值,
Figure BDA00035345105300001028
Figure BDA0003534510530000102
3.4.3.2.3通过tanh激活函数对第m个句子的临时特征stemp进行激活,得到激 活后的第m个句子临时特征
Figure BDA0003534510530000103
即第m个初始的句子向量,
Figure BDA0003534510530000104
200表示词向量维度。
3.4.3.2.4令m=m+1,若m≤Nmax,转3.4.3.2.2继续处理第m句话,若m> Nmax,转3.4.3.3;
3.4.3.3汇总文章E中Nmax个句子激活后的句子临时特征,得到文章E下Nmax句话的初始句子向量
Figure BDA0003534510530000105
将初始句子向量
Figure BDA0003534510530000106
发送给序列编码层。
3.4.3.4序列编码层的
Figure BDA0003534510530000107
从表示层接收正序的初始句子向量
Figure BDA0003534510530000108
对正序的句子向量进行建模后得到正序句子的输 出
Figure BDA0003534510530000109
(由
Figure BDA00035345105300001010
组成,
Figure BDA00035345105300001011
表示第m句话的正序向量输出);
Figure BDA00035345105300001012
从表示层接收倒序的初始句 子向量
Figure BDA00035345105300001013
对倒序的句子向量进行建模后得到 逆序句子的输出
Figure BDA00035345105300001014
(由
Figure BDA00035345105300001015
组成,
Figure BDA00035345105300001016
表示第m句话的倒序向量输出)。序列编码层将
Figure BDA00035345105300001017
Figure BDA00035345105300001018
在 隐藏层维度上拼接到一起,使得隐藏层维度加倍,得到更新了句子初始特征矩阵 的句子向量序列,标记为
Figure BDA00035345105300001019
(其中
Figure BDA00035345105300001020
表示文章E中第m个句子的向量序列,由
Figure BDA00035345105300001021
Figure BDA00035345105300001022
拼接构成)。将
Figure BDA00035345105300001023
发送给图神经网络 层。
3.4.3.5图神经网络层从序列编码层接收更新了句子初始特征矩阵的句子向 量序列
Figure BDA00035345105300001024
构建基础的 图结构,将句子向量序列看作第一节点集合
Figure BDA00035345105300001025
Figure BDA00035345105300001026
实际用于构建图结构的第二节点集合为
Figure BDA00035345105300001027
Figure BDA0003534510530000111
(前面Ns个是实际句子,是可以使用的节点,后面 (Nmax-Ns)个是填充的空白句子,没有实际的特征,无法参与图结构的构建)。
若文章的段落之间表达的意思相近,用户就需要聚合更多的全文句子特征来 辅助进行句子类型的识别,并且在有充足的时间进行训练(即对训练时间没有要 求)的基础上,则转3.4.3.6构建全连接图;若文章的段落之间表达的意思相距 较大,用户就需要聚合相近句子的特征,避免距离太远的句子表意差距较大而影 响当前句子类型的识别,并且想要加快模型训练速度(即对训练时间有要求)的 话,则转3.4.3.7构建局部连通图。
3.4.3.6图神经网络层构建全连接图,方法是:将第二节点集合为Vtrue中的每 对节点两两连接,组成全连接图
Figure BDA0003534510530000112
Figure BDA0003534510530000113
Figure BDA0003534510530000114
((vi,vj)表示节点i 和节点j之间的连接边,1≤i≤j≤Ns),每个节点是文章E中的一个句子,第 二节点集合Vtrue中节点vn的初始特征向量由句子向量序列中前Ns个有实际特征 的向量
Figure BDA0003534510530000115
依次赋值,节点之间连接边权重等于两个节点的初始特征向 量之间的相似度(假设节点vi的特征向量为[x1,x2,...,xt,...,x2*hidden_dim],xt是vi第t个维度的特征数值,节点vj的特征向量为[y1,y2,...,yt,...,y2*hidden_dim],yt是 vj第t个维度的特征数值。边权重可采用余弦相似度(利用两个向量之间夹角的 余弦值来衡量两个向量之间的余弦相似度。两个向量越相似夹角越小,余弦值越 接近1)或欧氏距离(以空间为基准的两点之间的最短距离)定义。若文章中存 在多个句子的长度差距很大、但内容相近时(这些句子在特征空间中的欧氏距离 通常很大,从而导致相似度很小;而如果使用余弦相似度的话,它们之间的夹角 很小,从而相似度高,更符合实际情况),或者词向量的维度很高的情况下(余 弦相似度在词向量维度很高的情况下依然保持“相同时为1,正交时为0,相反 时为-1”的性质),则采用余弦相似度定义边权重,相似度
Figure BDA0003534510530000116
Figure BDA0003534510530000117
若对句子的分类更看重价值性,即数值上的 不同时,则采用欧氏距离定义边权重,首先节点vi和节点vj的欧式距离为
Figure BDA0003534510530000118
),相似度
Figure BDA0003534510530000119
Figure BDA00035345105300001110
)。句子节点聚合相连句子节点特征的方式有LSTM(将当前节点 的邻居节点随机打乱作为输入序列,将所得的特征向量与当前节点的特征向量分 别经过非线性变换后拼接,得到当前节点更新后的特征向量)和Pool(先对当前 节点的邻居节点特征向量进行一次非线性变换,然后对变换后的特征向量进行池 化操作,最后将所得结果与当前节点的特征向量分别进行非线性变换后拼接或者 相加得到当前节点更新后的特征向量)两种形式。若是想加强节点之间信息交互 对更新后节点特征向量的影响,则采用LSTM的聚合方式;若是想在更新后更多 保留节点本身的特征向量,则采用Pool的聚合方式。构建完成后,转3.4.3.8;
3.4.3.7图神经网络层构建部分连通图,方法是:与滑动窗口(Sliding Window)的使用方法相类似,以第二节点集合为Vtrue中的每个节点为中心位置,分别朝 前和朝后选择与之相邻的window_size个节点进行连接,从而组成部分连通图
Figure BDA0003534510530000121
Figure BDA0003534510530000122
(注意首节点v1只能往后,尾节 点
Figure BDA0003534510530000123
只能往前)。部分连通图的节点权重、边权重构建方式以及图的聚合方式如 3.4.3.6所述,与全连接图的构建方式相同。构建完成后,转3.4.3.8;
3.4.3.8根据构建好的图结构,图神经网络层采用图神经网络技术中的图卷积 神经网络(GCN),将传统的卷积操作应用在图节点数据的特征传播与更新上, 每个节点通过集成自己和相连邻居的特征来更新自身的节点特征表示,得到每个 句子节点的特征向量
Figure BDA0003534510530000124
(
Figure BDA0003534510530000125
表 示基于图结构更新节点特征之后的第n个句子节点特征向量)。对于后面的 (Nmax-Ns)个空白句子节点特征,将句子向量序列中后面的(Nmax-Ns)个特征 向量即
Figure BDA0003534510530000126
原封不动依次赋值给句子节点特征
Figure BDA0003534510530000127
从而图神经网络层的最终输出为
Figure BDA0003534510530000128
(每个节点都可以看作一个句子,因此称之为句子特征向量)。将文章E中的所 有句子特征向量
Figure BDA0003534510530000129
发送到位置编码模块和语篇自注意力模块。
3.4.4位置编码模块采用融合句子位置信息方法对特征提取模块得到的句子 特征向量添加每个句子的位置信息并融合,方法是:
3.4.4.1为了进一步增加语篇成分识别的准确率,位置编码模块先对Nmax个 句子添加位置信息,方法是:
3.4.4.1.1首先提取文章E中每个句子的位置信息并加入到句子的特征表示中,方法是:
3.4.4.1.1.1初始化变量m为1;
3.4.4.1.1.2从文章E中取出第m个句子,位置编码模块一共使用三种位置信息:全局位置(描述句子在文章中的位置)、段落位置(描述句子所在的段落在文章 中的位置)和局部位置(描述句子在该段落中的位置)。将文章E中第m个句子的 三种位置信息分别表示为
Figure BDA0003534510530000131
Figure BDA0003534510530000132
(
Figure BDA0003534510530000133
表示第m句话的全局位置,
Figure BDA0003534510530000134
表示第m句话的段落位置,
Figure BDA0003534510530000135
表示第m句话的局部位置),将这三种位置信息简单记做gp(全局位 置),hp(段落位置)和lp(局部位置)。位置编码模块采用相对位置编码对三种 位置信息进行处理,得到三种位置信息类型的相对位置,分别为
Figure BDA0003534510530000136
Figure BDA0003534510530000137
其中Nmax表示文章E中的句子数量,P表示文章E中的段落数量,Ep表示文章E第p个段落中的句子数量。最终第m个句子的位置表 示为三个相对位置表示的线性组合:
Figure BDA0003534510530000138
Figure BDA0003534510530000139
其中weightg,weightp和weightl三个 向量均初始化为1,是在模型训练中可学习的参数,相当于赋予了三种相对位置 信息不同的重要性大小。最后将第m句话的位置表示POS(m)与图神经网络层输 入的第m句话的句子特征向量
Figure BDA00035345105300001310
在每一个隐藏层维度上相加
Figure BDA00035345105300001311
Figure BDA00035345105300001312
得到文章E中第m 句话与位置信息相加后的特征表示
Figure BDA00035345105300001313
3.4.4.1.1.3令m=m+1,若m≤Nmax,转3.4.4.1.1.2继续处理第m个句子, 若m>Nmax,转3.4.4.1.2;
3.4.4.1.2汇总文章E中每个句子的特征表示,得到文章E下Nmax句话的句子 特征表示
Figure BDA00035345105300001314
3.4.4.2与特征提取模块中的序列编码层相同,位置编码模块通过一层 BiLSTM层对句子特征表示再次编码,将Nmax个句子的位置信息彻底融入到Nmax个句子特征向量之中,得到的添加了位置信息的Nmax个句子特征向量,表示为
Figure BDA00035345105300001315
(
Figure BDA00035345105300001316
表示 文章E中第m句融合了位置信息特征的句子特征向量),将添加了位置信息的 Nmax个句子特征向量分别发送给语篇自注意力模块和特征拼接模块。
3.4.5语篇自注意力模块从特征提取模块接收未添加位置信息的句子特征向 量
Figure BDA0003534510530000141
从位置编码模块接收添加并融合了句子位置信息的句子特征向量
Figure BDA0003534510530000142
因为这两部分输入 的特征向量的维度相同,均是2*hidden_dim,只是特征向量的数值不同,因此 对这两种向量分别进行特征传递与交互:
3.4.5.1语篇自注意力模块采用注意力加池化语篇特征提取方法对
Figure BDA0003534510530000143
进行特征传递与交互,方法是:
3.4.5.1.1自注意力层将未添加位置信息的句子特征向量中不同位置的句子 特征信息联合起来,捕获句子之间的关联性,使用
Figure BDA0003534510530000144
作为注意力向 量(其中Q是查询向量,
Figure BDA0003534510530000145
Figure BDA0003534510530000146
K是键向量,K=Q;dk是输入向量的维度,即2*hidden_dim;tanh是激活函 数),注意力向量as越大,表示该句子在文章中的重要性越高。从而注意力向量as可以表示为
Figure BDA0003534510530000147
(
Figure BDA0003534510530000148
表示文章E中第m句话的注 意力向量)(Nmax为当前batch_size文章中最多的句子个数;注意力向量的维度 也是Nmax,因为查询向量Q和键向量K是两个相同的特征向量矩阵,Q乘以K的 转置后维度变为Nmax),之后将注意力向量as发送给自适应池化层。
3.4.5.1.2自适应池化层从自注意力层接收注意力向量as,对as进行自适应池 化以提取不同尺度的语篇特征,分别提取出维度为1,2,4,8的特征向量。这样产 生的特征向量看作是一个句子与其文章E不同区域之间关系的描述,将结果标记 为
Figure BDA0003534510530000149
Figure BDA00035345105300001410
其中四元组
Figure BDA00035345105300001411
表示文章E中由第m句话提取出的维度为1,2,4,8 的特征向量。
3.4.5.1.3自适应池化层将
Figure BDA00035345105300001412
Figure BDA00035345105300001413
分别 进行拼接,得到输出维度为15的未添加位置信息的语篇特征向量
Figure BDA00035345105300001414
Figure BDA00035345105300001415
其中
Figure BDA00035345105300001416
表示文章E中第m句话的未添加位置信息的语篇特征向量 (
Figure BDA00035345105300001417
即将四元红
Figure BDA00035345105300001418
在向 量维度上进行拼接),将未添加位置信息的语篇特征向量发送给特征拼接模块。
3.4.5.2语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方 法对添加并融合了句子位置信息的句子特征向量
Figure BDA0003534510530000151
进行特征传递与交 互,得到含位置信息的语篇特征向量
Figure BDA0003534510530000152
Figure BDA0003534510530000153
其中
Figure BDA0003534510530000154
表示文章E中第m句话的添 加了位置信息的语篇特征向量,将含位置信息的语篇特征向量发送给特征拼接模 块。
3.4.6特征拼接模块采用特征拼接预测方法对特征向量进行拼接,并进行语 篇成分类型的识别,方法是:
3.4.6.1特征拼接模块从位置编码模块接收添加了位置信息的句子特征向量
Figure BDA0003534510530000155
从语篇自注意力模 块接收不含位置信息的语篇特征向量
Figure BDA0003534510530000156
Figure BDA0003534510530000157
和含位置信息的语篇特征向量
Figure BDA0003534510530000158
Figure BDA0003534510530000159
将这三种特征 向量进行拼接,得到最终特征向量
Figure BDA00035345105300001510
(其中
Figure BDA00035345105300001511
表示文章E中的第m句话的最终特征向量表示;隐藏层维 度为2*hidden_dim+2*15,是用于拼接的三个特征向量的维度之和)。
3.4.6.2特征拼接模块将最终特征向量通过一个MLP(多层感知机)把输出的 维度降低到议论文句子的类别个数大小7;
3.4.6.3特征拼接模块使用softmax函数(一种归一化函数,使得每个元素的 范围都介于[0,1]之间,并且所有元素的和为1)将输出的数值大小限制在[0,1]之 间,将softmax函数的输出结果标记为
Figure BDA00035345105300001512
Figure BDA00035345105300001513
(其中
Figure BDA00035345105300001514
表示文章E的第m句话属 于议论文第ii个类别的概率得分,1≤ii≤7)。选择第m个七元组
Figure BDA00035345105300001515
中最大数值的所属类别作为文章E中第m个句子 的预测类别,从而得到文章E中Nmax个句子类型的预测结果,记为
Figure BDA00035345105300001516
(qm表示文章E中第m句话的类型预测结果)。
3.4.7计算文章E中Nmax个句子的误差值
Figure BDA0003534510530000161
令 文章E中第m句话的损失值
Figure BDA0003534510530000162
其中C是议论文句子的类 别数(C=7),pi是句子实际类别,qi是预测的句子类别。则
Figure BDA0003534510530000163
Figure BDA0003534510530000164
表示文章E中Nmax个句子的误差值,简称 为文章E的误差值(其中essay是文章E的序号,代表文章E为当前batch_size篇 文章中的第essay篇文章)。
3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H,Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics,1951.”Robbins H,Monro S的论文:一种随机近似法)对
Figure BDA0003534510530000165
最小化,然后以反向 传播的方式更新网络权重参数。
3.4.9令essay=essay+1,若essay≤batch_size,转3.4.2继续第essay篇 文章的训练,若essay>batch_size,转3.4.10;
3.4.10汇总batch_size篇文章的误差值,即
Figure BDA0003534510530000166
Figure BDA0003534510530000167
得到第num_batch个批次下batch_size 篇文章的误差值
Figure BDA0003534510530000168
Figure BDA0003534510530000169
Figure BDA00035345105300001610
3.4.11令num_batch=num_batch+1,若num_batch≤max_batch,重新 赋值essay=1,转3.4.1继续第num_batch个批次文章的训练,若 num_batch>max_batch,转3.4.12;
3.4.12汇总当前epoch下各个批次损失值,求和之后取平均值得到该epoch的 误差值Losscur,
Figure BDA00035345105300001611
Figure BDA00035345105300001612
同时记录上一轮epoch的误差值为Losspre,对 比两个Loss数值的大小,如果Losscur>Losspre,转3.4.13,如果Losscur≤Losspre, 直接转3.4.14;
3.4.13令numno-increase=numno-increase+1,如果(numno-increase%10)= 0,即numno-increase可以被10整除,则将学习率降低,避免学习率太大而找不到 局部最优的下降点,令learning_rate=learning-rate×0.95,转3.4.14。
3.4.14令epoch=epoch+1。如果epoch>迭代阈值数K(K=700)或者 满足训练终止条件(learning_rate<0.0001或者Losscur<0.5),则语篇成分识 别系统的网络结构discource_block训练结束,转第四步。若epoch≤K,且 learning_rate≥0.0001,而且Losscur≥0.5,重新赋值essay=1,num_batch= 1,转3.4.15;
3.4.15对当前训练中的discource_block的网络结构权重参数进行语篇成分 识别效果的验证,方法是:
3.4.15.1初始化验证集D中文本数据计数参数numD=1,验证集D中文章总 数为max_numD,识别正确的句子数目num_correctD=0,识别错误的句子数目 num_wrongD=0;
3.4.15.2从验证集D中提取一篇新的文章EE(不可重复提取相同文章),记录 文章EE中每个句子的实际类别
Figure BDA0003534510530000171
(pn表示文章EE中第n句话的 实际类别,Ns表示文章EE的句子总数);
3.4.15.3特征提取模块采用3.4.3所述的深度网络句子特征提取方法对EE进 行句子级别的特征提取,得到句子特征向量GD
3.4.15.4位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征 向量GD添加句子位置信息并进行融合,得到添加了位置信息的句子特征向量PD;
3.4.15.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对GD进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure BDA0003534510530000172
3.4.15.6语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对PD进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure BDA0003534510530000173
3.4.15.7特征拼接模块采用3.4.6所述的特征拼接预测方法对PD,
Figure BDA0003534510530000174
Figure BDA0003534510530000175
进 行拼接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句子, 并记录文章EE的识别结果
Figure BDA0003534510530000176
(qn表示文章EE中第n句话的预测 类别)。对比句子的实际类别与预测类别,若pn=qn,则num_correctD= num_correctD+1;转3.4.15.8;若pn≠qn,则num_wrongD=num_wrongD+1, 转3.4.15.8;
3.4.15.8令numD=numD+1,若numD≤max_numD,转3.4.15.2继续第 numD篇文章的识别,若numD>max_numD,转3.4.15.9;
3.4.15.9汇总验证集D所有文章的识别结果,计算句子类型预测结果与实际 类型之间的准确率Acc,Acc=num_correctD/(num_correctD+num_wrongD)。 若Acc>0.6,则保存当前训练中的discource_block的权重参数,转3.4.1继续第 epoch个迭代的训练。若Acc≤0.6,则不保存当前迭代下的discource_block的权 重参数,转3.4.1继续第epoch个迭代的训练。
第四步:将经过训练并保存的discource_block的权重参数加载到语篇成分 识别系统discource_block的网络结构中,得到训练后的语篇成分识别系统。
第五步,训练后的语篇成分识别系统对用户输入的文章进行预处理,并进行 语篇成分识别,方法是:
5.1训练后的语篇成分识别系统接收用户输入的文章Euser
5.2特征提取模块采用3.4.3所述的深度网络句子特征提取方法对Euser进行 句子级别的特征提取,得到句子特征向量Guser
5.3位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征向量 Guser添加句子位置信息并进行融合,得到添加了位置信息的句子特征向量Puser
5.4语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法 对Guser进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure BDA0003534510530000181
5.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法 对Puser进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure BDA0003534510530000182
5.6特征拼接模块采用3.4.6所述的特征拼接预测方法对Puser
Figure BDA0003534510530000183
Figure BDA0003534510530000184
进行拼接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句 子,得到文章Euser的识别结果。
本发明与现有技术相比,具有以下技术效果:
对于背景技术的第一个难点,本发明第三步中特征提取模块的图神经网络层 考虑采用局部连通图(在一个图中,并非任意两个节点之间有路径相连,至少存 在一对节点之间没有路径连接)的方式进行改善,以每个句子为中心位置,分别 朝前和朝后选择与之相邻的window_size个句子来连接,window_size范围在 {1,2,3}之间,既能够满足每个句子获取足够的上下文语境信息,也可以加快添加 GNN的语篇成分识别模型的训练速度,并且能够很大程度缓解因为GNN层数加深 而导致的模型性能下降问题。
对于背景技术的第二个难点,图注意力网络中的每一个节点都对与之相连的 节点训练相应的注意力作为连接边的权重,但是一个节点可能会有多个相连的节 点,这样定义的连接边的权重不能够很好地反应两个节点特征之间的相似性,不 能够获取更加准确的上下文特征信息,因此本发明在特征提取模块的图神经网络 层中着重采用图卷积网络来进行节点之间特征的交互。
对于背景技术的第三个难点,本发明选择在通过特征提取的序列编码层已经 完整获得每句话特征表示之后,再添加图神经网络层,之后再添加位置编码模块。 因为若是将图神经网络层前置,放在表示层和序列编码层之间,那么此时序列编 码层聚合的每句话的特征表示,不能很好地获得每句话的上下文特征信息;若是 将图神经网络层后置,在位置编码模块之后再添加图神经网络层,此时由于图神 经网络层中节点信息的交互,每个节点(每句话)的位置信息就会受到相邻句子 位置信息的影响,导致性能下降。因此本发明选择将图神经网络层放在序列编码 层之后,位置编码模块之前。
1.本发明将图神经网络技术与相结合构建了一个完整的语篇成分识别系统, 融合了特征提取模块,位置编码模块,语篇注意力模块和特征拼接模块。在保证 句子特征信息充分性的基础之上,使用图神经网络技术,进一步加强每个句子与 上下文信息的深层交互与传递,与现有最好的语篇成分识别方法相比,能够提升 语篇成分的识别的效果(Macro-F1和Acc数值)。
2.本发明使用了两种图结构的构图方法。全连接图方法可以广泛获取全文信 息,部分连通图使用的滑动窗口法则可以明确上下文信息的具体交互位置,为句 子带来更加准确的特征信息,并且相比于全连接图需要每对节点间都要连接,部 分连通图可以大大减少图中节点的连接边数,从而加快了训练的速度。无论采用 这两种构图方式的哪一种,语篇成分识别的Acc和Macro-F1数值都有提升。
附图说明
图1为本发明第一步构建的语篇成分识别系统逻辑结构图;
图2为本发明总体流程图。
具体实施方式
如图2所示,本发明包括以下步骤:
第一步:构建语篇成分识别系统。该系统如图1所示,由特征提取模块,位 置编码模块,语篇自注意力模块,特征拼接模块构成。
特征提取模块与位置编码模块和语篇自注意力模块相连,功能是提取句子特 征,它是一个深度前馈神经网络,由表示层、序列编码层和一个图神经网络层构 成。特征提取模块将输入的文章中的单词特征信息进行汇总,获得每个句子的特 征表示,利用图神经网络对每个句子特征信息进行更新,得到每个句子的特征表 示,将每个句子的特征表示发送给位置编码模块和语篇自注意力模块。
表示层使用预训练的词向量new_embeddings2.txt作为初始化的单词表示。 将每句话中所有的单词表示加和求平均值,并使用tanh激活函数来获得每句话 的初始向量表示,初始向量表示称为句子向量,将句子向量发送给序列编码层。
序列编码层使用一个单层的模型BiLSTM对从表示层收到的句子向量进行建 模,得到建模后的句子向量序列,将句子向量序列发送给图神经网络层。序列编 码层的BiLSTM分为两个并行的分支结构,分别为正向模型
Figure BDA0003534510530000191
(接收句子向 量的正序输入,以文字为例,正序输入为“今天”,“是”,“晴天”,最终输出更 新后的正序句子向量
Figure BDA0003534510530000192
)和逆向模型
Figure BDA0003534510530000193
(接收句子向量的逆序输入,以文 字为例,逆序输入为“晴天”,“是”,“今天”,最终输出更新后的逆序句子向量
Figure BDA0003534510530000194
),将两个更新后的句子向量
Figure BDA0003534510530000195
Figure BDA0003534510530000196
进行拼接,使得句子向量的维度大 小变为之前的两倍(例如,假设之前是两个1×10维度的向量,拼接后变成1× 20维度的向量),得到更新后的句子向量序列,将更新后的句子向量序列输入到 图神经网络层。
图神经网络层使用图神经网络将从序列编码层收到的句子向量序列作为节 点(一篇文章中的一句话当作一个节点)的初始特征向量,对一篇文章中的所有 句子构建全连接图或者局部连通图(以每个句子为中心位置,分别朝前和朝后选 择与之相邻的M个句子进行连接),每对节点之间的连接边的权重通过两个节点 的初始特征向量的相似度来确定。通过每个节点与自己相连节点进行特征信息的 交互与传播,获得每个句子的特征向量表示(称为句子特征向量),将句子特征 向量发送给位置编码模块和语篇自注意力模块。
位置编码模块是一个循环神经网络,与特征提取模块、语篇自注意力模块和 特征拼接模块相连,从特征提取模块接收句子特征向量,为每个句子特征向量添 加维度为16的全局相对位置信息(假设当前句子是整篇文章中的第m句话,整 篇文章中一共有E句话,则全局相对位置信息为
Figure BDA0003534510530000201
),段落相对位置信息(假设当 前句子所在段落是全局中的第b段,整篇文章一共有P个段落,则段落相对位置 信息为
Figure BDA0003534510530000202
)和局部相对位置信息(假设当前句子是当前段落中的第c句话,当前段 落有Ep句话,则局部相对位置信息为
Figure BDA0003534510530000203
)。然后,与特征提取模块中的序列编码 层类似,通过一层BiLSTM对融入了位置信息的句子特征向量重新进行建模,获 得添加了位置信息的句子特征向量,将添加了位置信息的句子特征向量分别发送 给语篇自注意力模块和特征拼接模块。
语篇自注意力模块是一个前向神经网络,与特征提取模块、位置编码模块、 特征拼接模块相连,从特征提取模块接收未添加位置信息的句子特征向量,从位 置编码模块接收添加了位置信息的句子特征向量,对这两种特征向量进行相同的 处理。语篇自注意力模块由一层句子间的自注意力层和一层自适应池化层构成。 自注意力层通过将不同位置的句子特征信息联合起来建模,得到每个句子的注意 力向量,注意力向量越大代表句子在文章中的重要性越高。由于不同文章的句子 数量不相同,为了获得固定长度的语篇特征向量,因此需要采用自适应池化层对 从自注意力层接收的句子注意力向量进行处理,统一向量维度大小。提取出不同 尺度的输出特征可以提高深度网络的识别准确率,因此对句子注意力向量分别提 取输出维度为1,2,4,8的向量,将这些向量拼接成维度为15的语篇特征向量。 将输入中含位置信息的句子特征向量得到的结果称为添加了位置信息的语篇特 征向量,输入中不含位置信息的句子特征向量得到的结果称为未添加位置信息的 语篇特征向量,将这两种语篇特征向量发送给特征拼接模块。
特征拼接模块是一个简单的前向网络,与位置编码模块、语篇自注意力模块 相连,从位置编码模块接收添加了位置信息的句子特征向量,从语篇自注意力模 块接收添加了位置信息的语篇特征向量和未添加位置信息的语篇特征向量,将这 三种特征向量进行拼接,得到最终的特征向量。接着通过多层感知机(用于解决 神经网络中的分类问题,将矩阵的维度降低到分类范围中的类别个数),将最终 特征向量的维度降低到议论文句子的类别个数大小7,然后通过softmax函数(一 种归一化函数,使得每个元素的范围都在[0,1]之间,并且所有元素的和为1)将 输出的数值限制在[0,1]之间,将数值最大的所属类别作为当前句子的预测类别。
特征提取模块中的深度前馈神经网络,位置编码模块中的循环神经网络,语 篇自注意力模块中的前向神经网络,特征拼接模块中的简单前向网络一起构成语 篇成分识别模型,是语篇成分识别系统中的网络结构。该网络结构统称为 discource_block。
第二步准备中文形式的议论文数据集,共1230篇中文形式高中生撰写的议 论文文章,涵盖不同的主题。这些文章是从LeleKetang网站上收集的,总计约 有33000个句子,按照大约8∶1∶1的比例分为训练集T、验证集D与测试集S三部 分。对于议论文数据集中的句子类别主要分为以下七类:导言(在发表声明之前 介绍背景或吸引读者的注意)、主题(表达作者关于论文主题的中心主张)、主要 观点(确立与主题相关的基本观点或内容)、证据(提供用于支持主要观点和主 体的示例或其他证据)、阐述(细化元素进一步解释主要观点或提供理由,但不 包含示例或其他证据)、结论(中心论点的延伸,总结全文,并呼应文章论点) 和其他(与上述类别均不匹配的要素)。
第三步:使用随机梯度下降方法(SGD)对第一步语篇成分识别系统的网络 结构进行训练,得到特征提取模块,位置编码模块、语篇自注意力模块和特征拼 接模块中的网络的最佳权重参数。
方法是:
3.1初始化权重参数,将discource_block中的权重参数集合
Figure BDA0003534510530000211
Figure BDA0003534510530000212
中所有元素值都初始化为[0,1]之间的随机数。
Figure BDA0003534510530000213
表示 discource_block中特征提取模块包含的网络结构的权重参数,
Figure BDA0003534510530000214
表示 discource_block中位置编码模块包含的网络结构的权重参数,
Figure BDA0003534510530000215
表示 discource_block中语篇自注意力模块包含的网络结构的权重参数,
Figure BDA0003534510530000216
表示 discource_block中特征拼接模块包含的网络结构的权重参数。
3.2设置网络训练参数,设定学习率(learning_rate)为0.2,批处理尺寸(batch_size)为50,隐藏层维度(hidden_dim)为128,句子维度(sent_dim) 为128,训练迭代阈值数K为700,随机失活(dropout)为0.1,这样可以获得 最好的语篇成分识别结果。
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1 (表示当前批次是当前epoch内的第num_batch个批次),定义训练集T中的文章 数目为numT,则最大批次大小
Figure BDA0003534510530000221
Figure BDA0003534510530000222
Figure BDA0003534510530000223
表示对numT/batch_size向上取整,因此1≤hum_batch≤ max_batch),初始化文章迭代参数essay=1(表示当前batch_size篇文章中的 第essay篇文章,1≤essay≤batch_size),初始化误差值无下降的累计迭代数 numno-increase=0,初始化第0轮训练的误差值Losspre=0;
3.4训练语篇成分识别系统,方法是将应用当前discource_block权重参数的 语篇成分识别系统进行语篇成分识别得到的句子类别与实际类别之间的差距作 为loss值,不断最小化loss值并更新discource_block的权重参数,直到满足迭代 阈值数K,或者出现训练终止条件(learning_rate<0.0001或者loss<0.5),终 止训练。每次训练的一个迭代结束后,使用验证集数据对当前discource_block权 重参数下语篇成分识别系统进行测试,保存在验证集上效果优异的 discource_block的参数权重。具体方法如下:
3.4.1特征提取模块的表示层从训练集T中取出第num_batch批共batch_size 数量的文章。
3.4.2记第num_batch批文章中第essay篇文章为E。
3.4.3特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特 征提取:表示层对E进行句子向量的初始化表示,得到向量形式的数据
Figure BDA0003534510530000224
(sn表示E中初始化后的第n个句子向量,Ns是E中的句子总 数,1≤n≤Ns),并通过空白的句子对
Figure BDA0003534510530000225
进行补齐,得到
Figure BDA0003534510530000226
sm为补齐后的文章E中的第m个句子,1≤m≤ Nmax,Nmax为第num_batch个batch_size中最长文章的句子个数,将
Figure BDA0003534510530000227
发送给序列编码层。序列编码层的BiLSTM对
Figure BDA0003534510530000228
进行句子向量之间的初步建模,得到建模后的句子 向量序列
Figure BDA0003534510530000229
(
Figure BDA00035345105300002210
表示第m个句子的向量序列,2*hidden_dim表示句子向量的维 度是隐藏层维度乘以2,因为是双向LSTM,隐藏层维度需要加倍),将建模后的 句子向量序列发送给图神经网络层。图神经网络层将接收的建模后的句子的向量 序列作为节点的初始特征向量,为文本数据中的所有句子构建全连接图或者局部 连通图,节点之间连接边的权重通过两个节点的初始特征向量的相似度来确定。 通过图神经网络中每个节点与邻居节点之间特征信息的交互与传播,得到Nmax个句子的特征向量的表示
Figure BDA0003534510530000231
(其中
Figure BDA0003534510530000232
表示第m个句子的特征向量)。特征提取模块对E进行句子级 别的特征提取的具体方法如下:
3.4.3.1一句话由很多单词构成,为了统一所有句子的长度,便于统一训练, 限制E中每个句子的长度标准为M(M为正整数,优选为40),超出长度标准的句 子截断成标准长度,剩余内容丢弃,不足标准长度的句子用空白的单词进行补齐 (因为是空白单词,不需要含有任何特征信息,所以用[0]([0]表示矩阵里面的 数字是0)来表示空白的信息,同时要保证词向量的维度不发生改变,因此用[0]* vecsize来替代每一个空白单词,其中vecsize是词向量的维度,大小为200,[0]* vecsize相当于一个200维的零向量)。从而将E中的Ns句话均标记为
Figure BDA0003534510530000233
其中Nw表示一句话中实际的单词个数, 剩下的(M-Nw)是补充的空白单词个数,M表示句子的标准长度(一个句子的最 多单词个数),
Figure BDA0003534510530000234
表示当前句子中的第d个单词,200表示词向量的维度,1≤ d≤M。因此
Figure BDA0003534510530000235
也可以标记为
Figure BDA0003534510530000236
其中
Figure BDA0003534510530000237
表示文章E中第n个句子的第j个单词。
同时,为了保证每个batch_size中的任一文章E具有相同的句子数目,需要记 录第num_batch个batch_size中最长文章的句子个数,记为Nmax,句子数量不足 Nmax的文章通过空白的句子进行补齐(先填充空白的单词,用[0]*vecsize(一 个200维的零向量)表示空白的单词;再为每个句子填充句子标准长度的单词个 数,因此用[0]*vecsize*M(即M个200维的零向量)来填充句子,需要替代的 空白句子个数为(Nmax-Ns)。此时,文章E中的句子标记为
Figure RE-GDA0003648764220000238
sm为补齐后的文章E中的第m个句子,1≤m≤ Nmax
3.4.3.2将补齐后的文章E中Nmax句话中的单词所表示的向量进行平均化,得 到Nmax句话的初始向量,方法是:
3.4.3.2.1初始化变量m为1;
3.4.3.2.2从文章E中取出第m个句子,计算第m个句子的临时特征stemp, stemp是第m句话中所有的单词矩阵的平均值,
Figure BDA0003534510530000239
Figure BDA00035345105300002310
3.4.3.2.3通过tanh激活函数对第m个句子的临时特征stemp进行激活,得到激 活后的第m个句子临时特征
Figure BDA0003534510530000241
即第m个初始的句子向量,
Figure BDA0003534510530000242
200表示词向量维度。
3.4.3.2.4令m=m+1,若m≤Nmax,转3.4.3.2.2继续处理第m句话,若m> Nmax,转3.4.3.3;
3.4.3.3汇总文章E中Nmax个句子激活后的句子临时特征,得到文章E下Nmax句话的初始句子向量
Figure BDA0003534510530000243
将初始句子向量
Figure BDA0003534510530000244
发送给序列编码层。
3.4.3.4序列编码层的
Figure BDA0003534510530000245
从表示层接收正序的初始句子向量
Figure BDA0003534510530000246
对正序的句子向量进行建模后得到正序句子的输 出
Figure BDA0003534510530000247
(由
Figure BDA0003534510530000248
组成,
Figure BDA0003534510530000249
表示第m句话的正序向量输出);
Figure BDA00035345105300002410
从表示层接收倒序的初始句 子向量
Figure BDA00035345105300002411
对倒序的句子向量进行建模后得到 逆序句子的输出
Figure BDA00035345105300002412
(由
Figure BDA00035345105300002413
组成,
Figure BDA00035345105300002414
表示第m句话的倒序向量输出)。序列编码层将
Figure BDA00035345105300002415
Figure BDA00035345105300002416
在 隐藏层维度上拼接到一起,使得隐藏层维度加倍,得到更新了句子初始特征矩阵 的句子向量序列,标记为
Figure BDA00035345105300002417
(其中
Figure BDA00035345105300002418
表示文章E中第m个句子的向量序列,由
Figure BDA00035345105300002419
Figure BDA00035345105300002420
拼接构成)。将
Figure BDA00035345105300002421
发送给图神经网络 层。
3.4.3.5图神经网络层从序列编码层接收更新了句子初始特征矩阵的句子向 量序列
Figure BDA00035345105300002422
构建基础的 图结构,将句子向量序列看作第一节点集合
Figure BDA00035345105300002423
Figure BDA00035345105300002424
实际用于构建图结构的第二节点集合为
Figure BDA00035345105300002425
Figure BDA00035345105300002426
(前面Ns个是实际句子,是可以使用的节点,后面 (Nmax-Ns)个是填充的空白句子,没有实际的特征,无法参与图结构的构建)。
若文章的段落之间表达的意思相近,用户就需要聚合更多的全文句子特征来 辅助进行句子类型的识别,并且在有充足的时间进行训练(即对训练时间没有要 求)的基础上,则转3.4.3.6构建全连接图;若文章的段落之间表达的意思相距 较大,用户就需要聚合相近句子的特征,避免距离太远的句子表意差距较大而影 响当前句子类型的识别,并且想要加快模型训练速度(即对训练时间有要求)的 话,则转3.4.3.7构建局部连通图。
3.4.3.6图神经网络层构建全连接图,方法是:将第二节点集合为Vtrue中的每 对节点两两连接,组成全连接图
Figure BDA0003534510530000251
Figure BDA0003534510530000252
Figure BDA0003534510530000253
((vi,vj)表示节点i 和节点j之间的连接边,1≤i≤j≤Ns),每个节点是文章E中的一个句子,第 二节点集合Vtrue中节点vn的初始特征向量由句子向量序列中前Ns个有实际特征 的向量
Figure BDA0003534510530000254
依次赋值,节点之间连接边权重等于两个节点的初始特征向 量之间的相似度(假设节点vi的特征向量为[x1,x2,...,xt,...,x2*hidden_dim],xt是vi第t个维度的特征数值,节点vj的特征向量为[y1,y2,...,yt,...,y2*hidden_dim],yt是 vj第t个维度的特征数值。边权重可采用余弦相似度(利用两个向量之间夹角的 余弦值来衡量两个向量之间的余弦相似度。两个向量越相似夹角越小,余弦值越 接近1)或欧氏距离(以空间为基准的两点之间的最短距离)定义。若文章中存 在多个句子的长度差距很大、但内容相近时(这些句子在特征空间中的欧氏距离 通常很大,从而导致相似度很小;而如果使用余弦相似度的话,它们之间的夹角 很小,从而相似度高,更符合实际情况),或者词向量的维度很高的情况下(余 弦相似度在词向量维度很高的情况下依然保持“相同时为1,正交时为0,相反 时为-1”的性质),则采用余弦相似度定义边权重,相似度
Figure BDA0003534510530000255
Figure BDA0003534510530000256
若对句子的分类更看重价值性,即数值上的 不同时(例如,对商务类文本进行句子划分时,想要区分句子的价值高低,假设 用二元组(消费次数,平均消费额)来表示每个句子的价值,这个时候用余弦夹 角是不恰当的,因为它会将(2,10)和(10,50)认为是相同的,但显然后者的价值 高得多,因为这个时候需要注重数值上的差异),则采用欧氏距离定义边权重, 首先节点vi和节点vj的欧式距离为
Figure BDA0003534510530000257
相似度
Figure BDA0003534510530000258
)。句子节点聚合相连句子节点特征的方式 有LSTM(将当前节点的邻居节点随机打乱作为输入序列,将所得的特征向量与 当前节点的特征向量分别经过非线性变换后拼接,得到当前节点更新后的特征向 量)和Pool(先对当前节点的邻居节点特征向量进行一次非线性变换,然后对变 换后的特征向量进行池化操作,最后将所得结果与当前节点的特征向量分别进行 非线性变换后拼接或者相加得到当前节点更新后的特征向量)两种形式。若是想 加强节点之间信息交互对更新后节点特征向量的影响,则采用LSTM的聚合方式; 若是想在更新后更多保留节点本身的特征向量,则采用Pool的聚合方式。构建完 成后,转3.4.3.8;
3.4.3.7图神经网络层构建部分连通图,方法是:与滑动窗口(Sliding Window)的使用方法相类似,以第二节点集合为Vtrue中的每个节点为中心位置,分别朝 前和朝后选择与之相邻的window_size个节点进行连接,从而组成部分连通图
Figure BDA0003534510530000261
Figure BDA0003534510530000262
(注意首节点v1只能往后,尾节 点
Figure BDA0003534510530000263
只能往前)。以节点vi,windowsize=1为例,组成的连接边分别是: (vi,vi-1),(vi,vi)(vi,vi+1)。若i=1,连接边为(v1,v1),(v1,v2);若i=Ns,连接 边为
Figure BDA0003534510530000264
部分连通图的节点权重、边权重构建方式以及图的 聚合方式如3.4.3.6所述,与全连接图的构建方式相同。构建完成后,转3.4.3.8;
3.4.3.8根据构建好的图结构,图神经网络层采用图神经网络技术中的图卷积 神经网络(GCN),将传统的卷积操作应用在图节点数据的特征传播与更新上, 每个节点通过集成自己和相连邻居的特征来更新自身的节点特征表示,得到每个 句子节点的特征向量
Figure BDA0003534510530000265
(
Figure BDA0003534510530000266
表 示基于图结构更新节点特征之后的第n个句子节点特征向量)。对于后面的 (Nmax-Ns)个空白句子节点特征,将句子向量序列中后面的(Nmax-Ns)个特征 向量即
Figure BDA0003534510530000267
原封不动依次赋值给句子节点特征
Figure BDA0003534510530000268
从而图神经网络层的最终输出为
Figure BDA0003534510530000269
(每个节点都可以看作一个句子,因此称之为句子特征向量)。将文章E中的所 有句子特征向量
Figure BDA00035345105300002610
发送到位置编码模块和语篇自注意力模块。
3.4.4位置编码模块采用融合句子位置信息方法对特征提取模块得到的句子 特征向量添加每个句子的位置信息并融合,方法是:
3.4.4.1为了进一步增加语篇成分识别的准确率,位置编码模块先对Nmax个 句子添加位置信息,方法是:
3.4.4.1.1首先提取文章E中每个句子的位置信息并加入到句子的特征表示中,方法是:
3.4.4.1.1.1初始化变量m为1;
3.4.4.1.1.2从文章E中取出第m个句子,位置编码模块一共使用三种位置信息:全局位置(描述句子在文章中的位置)、段落位置(描述句子所在的段落在文章 中的位置)和局部位置(描述句子在该段落中的位置)(以一篇包含了七个句子 和四个段落的文章为例,全局位置记为[1,2,3,4,5,6,7],段落位置记为 [1,2,2,3,3,3,4],局部位置记为[1,1,2,1,2,3,1])。将文章E中第m个句子的三种位置 信息分别表示为
Figure BDA0003534510530000271
Figure BDA0003534510530000272
(
Figure BDA0003534510530000273
表示 第m句话的全局位置,
Figure BDA0003534510530000274
表示第m句话的段落位置,
Figure BDA0003534510530000275
表示 第m句话的局部位置),将这三种位置信息简单记做gp(全局位置),hp(段落位 置)和lp(局部位置)。位置编码模块采用相对位置编码对三种位置信息进行处 理,得到三种位置信息类型的相对位置,分别为
Figure BDA0003534510530000276
Figure BDA0003534510530000277
其中Nmax表示文章E中的句子数量,P表示文章E中的段落数量, Ep表示文章E第p个段落中的句子数量。最终第m个句子的位置表示为三个相对 位置表示的线性组合:
Figure BDA0003534510530000278
Figure BDA0003534510530000279
其中weightg,weightp和weightl三个向量均初始化为1, 是在模型训练中可学习的参数,相当于赋予了三种相对位置信息不同的重要性大 小。最后将第m句话的位置表示POS(m)与图神经网络层输入的第m句话的句子 特征向量
Figure BDA00035345105300002710
在每一个隐藏层维度上相加
Figure BDA00035345105300002711
Figure BDA00035345105300002712
得到文章E中第m句话与位置信息相 加后的特征表示
Figure BDA00035345105300002713
3.4.4.1.1.3令m=m+1,若m≤Nmax,转3.4.4.1.1.2继续处理第m个句子, 若m>Nmax,转3.4.4.1.2;
3.4.4.1.2汇总文章E中每个句子的特征表示,得到文章E下Nmax句话的句子 特征表万
Figure BDA00035345105300002714
3.4.4.2与特征提取模块中的序列编码层相同,位置编码模块通过一层 BiLSTM层对句子特征表示再次编码,将Nmax个句子的位置信息彻底融入到Nmax个句子特征向量之中,得到的添加了位置信息的Nmax个句子特征向量,表示为
Figure BDA00035345105300002715
(
Figure BDA00035345105300002716
表示 文章E中第m句融合了位置信息特征的句子特征向量),将添加了位置信息的 Nmax个句子特征向量分别发送给语篇自注意力模块和特征拼接模块。
3.4.5语篇自注意力模块从特征提取模块接收未添加位置信息的句子特征向 重
Figure BDA0003534510530000281
从位置编码模块接收添加并融合了句子位置信息的句子特征向量
Figure BDA0003534510530000282
因为这两部分输入 的特征向量的维度相同,均是2*hidden_dim,只是特征向量的数值不同,因此 对这两种向量分别进行特征传递与交互:
3.4.5.1语篇自注意力模块采用注意力加池化语篇特征提取方法对
Figure BDA0003534510530000283
进行特征传递与交互,方法是:
3.4.5.1.1自注意力层将未添加位置信息的句子特征向量中不同位置的句子 特征信息联合起来,捕获句子之间的关联性,使用
Figure BDA0003534510530000284
作为注意力向 量(其中Q是查询向量,
Figure BDA0003534510530000285
Figure BDA0003534510530000286
K是键向量,K=Q;dk是输入向量的维度,即2*hidden_dim;tanh是激活函 数),注意力向量as越大,表示该句子在文章中的重要性越高。从而注意力向量as可以表示为
Figure BDA0003534510530000287
(
Figure BDA0003534510530000288
表示文章E中第m句话的注 意力向量)(Nmax为当前batch_size文章中最多的句子个数;注意力向量的维度 也是Nmax,因为查询向量Q和键向量K是两个相同的特征向量矩阵,Q乘以K的 转置后维度变为Nmax),之后将注意力向量as发送给自适应池化层。
3.4.5.1.2自适应池化层从自注意力层接收注意力向量as,对as进行自适应池 化以提取不同尺度的语篇特征,分别提取出维度为1,2,4,8的特征向量。这样产 生的特征向量看作是一个句子与其文章E不同区域之间关系的描述,将结果标记 为
Figure BDA0003534510530000289
Figure BDA00035345105300002810
其中四元组
Figure BDA00035345105300002811
表示文章E中由第m句话提取出的维度为1,2,4,8 的特征向量。
3.4.5.1.3自适应池化层将
Figure BDA00035345105300002812
Figure BDA00035345105300002813
分别 进行拼接,得到输出维度为15的未添加位置信息的语篇特征向量
Figure BDA00035345105300002814
Figure BDA00035345105300002815
其中
Figure BDA00035345105300002816
表示文章E中第m句话的未添加位置信息的语篇特征向量(
Figure BDA0003534510530000291
即将四元组
Figure BDA0003534510530000292
在向 量维度上进行拼接),将未添加位置信息的语篇特征向量发送给特征拼接模块。
3.4.5.2语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方 法对添加并融合了句子位置信息的句子特征向量
Figure BDA0003534510530000293
进行特征传递与交 互,得到含位置信息的晤篇特征向量
Figure BDA0003534510530000294
Figure BDA0003534510530000295
其中
Figure BDA0003534510530000296
表示文章E中第m句话的添 加了位置信息的语篇特征向量,将含位置信息的语篇特征向量发送给特征拼接模 块。
3.4.6特征拼接模块采用特征拼接预测方法对特征向量进行拼接,并进行语 篇成分类型的识别,方法是:
3.4.6.1特征拼接模块从位置编码模块接收添加了位置信息的句子特征向量
Figure BDA0003534510530000297
从语篇自注意力模 块接收不含位置信息的语篇特征向量
Figure BDA0003534510530000298
Figure BDA0003534510530000299
和含位置信息的语篇特征向量
Figure BDA00035345105300002910
Figure BDA00035345105300002911
将这三种特征 向量进行拼接,得到最终特征向量
Figure BDA00035345105300002912
(其中
Figure BDA00035345105300002913
表示文章E中的第m句话的最终特征向量表示;隐藏层维 度为2*hidden_dim+2*15,是用于拼接的三个特征向量的维度之和)。
3.4.6.2特征拼接模块将最终特征向量通过一个MLP(多层感知机)把输出的 维度降低到议论文句子的类别个数大小7;
3.4.6.3特征拼接模块使用softmax函数(一种归一化函数,使得每个元素的 范围都介于[0,1]之间,并且所有元素的和为1)将输出的数值大小限制在[0,1]之 间,将softmax函数的输出结果标记为
Figure BDA00035345105300002914
Figure BDA00035345105300002915
(其中
Figure BDA00035345105300002916
表示文章E的第m句话属 于议论文第ii个类别的概率得分,1≤ii≤7)。选择第m个七元组
Figure BDA00035345105300002917
和最大数值的所属类别作为文章E中第m个句子 的预测类别,从而得到文章E中Nmax个句子类型的预测结果,记为
Figure BDA0003534510530000301
(qm表示文章E中第m句话的类型预测结果)。(例如,假 设有第m个句子的七元组得分为[0.1(1),0.4(2),0.1(3),0.1(4),0.1(5),0.1(6),0.1(7)], 其中最大的数值是0.4,则第m个句子属于第2个类别,预测结果qm=2)。
3.4.7计算文章E中Nmax个句子的误差值
Figure BDA0003534510530000302
令 文章E中第m句话的损失值
Figure BDA0003534510530000303
其中C是议论文句子的类 别数(C=7),pi是句子实际类别,qi是预测的句子类别。则
Figure BDA0003534510530000304
Figure BDA0003534510530000305
表示文章E中Nmax个句子的误差值,简称 为文章E的误差值(其中essay是文章E的序号,代表文章E为当前batch_size篇 文章中的第essay篇文章)。
3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H,Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics,1951.”Robbins H,Monro S的论文:一种随机近似法)对
Figure BDA0003534510530000306
最小化,然后以反向 传播的方式更新网络权重参数。
3.4.9令essay=essay+1,若essay≤batch_size,转3.4.2继续第essay篇 文章的训练,若essay>batch_size,转3.4.10;
3.4.10汇总batch_size篇文章的误差值,即
Figure BDA0003534510530000307
Figure BDA0003534510530000308
得到第num_batch个批次下batch_size 篇文章的误差值
Figure BDA0003534510530000309
Figure BDA00035345105300003010
Figure BDA00035345105300003011
3.4.11令num_batch=num_batch+1,若num_batch≤max_batch,重新 赋值essay=1,转3.4.1继续第num_batch个批次文章的训练,若 num_batch>max_batch,转3.4.12;
3.4.12汇总当前epoch下各个批次损失值,求和之后取平均值得到该epoch的 误差值Losscur
Figure BDA00035345105300003012
Figure BDA00035345105300003013
同时记录上一轮epoch的误差值为Losspre,对 比两个Loss数值的大小,如果Losscur>Losspre,转3.4.13,如果Losscur≤Losspre, 直接转3.4.14;
3.4.13令numno-increase=numno-increase+1,如果(numno-increase%10)= 0,即numno-increase可以被10整除,则将学习率降低,避免学习率太大而找不到 局部最优的下降点,令learning_rate=learning_rate×0.95,转3.4.14。
3.4.14令epoch=epoch+1。如果epoch>迭代阈值数K(K=700)或者 满足训练终止条件(learning_rate<0.0001或者Losscur<0.5),则语篇成分识 别系统的网络结构discource_block训练结束,转第四步。若epoch≤K,且 learning_rate≥0.0001,而且Losscur≥0.5,重新赋值essay=1,num_batch= 1,转3.4.15;
3.4.15对当前训练中的discource_block的网络结构权重参数进行语篇成分 识别效果的验证,方法是:
3.4.15.1初始化验证集D中文本数据计数参数numD=1,验证集D中文章总 数为max_numD,识别正确的句子数目num_correctD=0,识别错误的句子数目 num_wrongD=0;
3.4.15.2从验证集D中提取一篇新的文章EE(不可重复提取相同文章),记录 文章EE中每个句子的实际类别
Figure BDA0003534510530000311
(pn表示文章EE中第n句话的 实际类别,Ns表示文章EE的句子总数);
3.4.15.3特征提取模块采用3.4.3所述的深度网络句子特征提取方法对EE进 行句子级别的特征提取,得到句子特征向量GD
3.4.15.4位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征 向量GD添加句子位置信息并进行融合,得到添加了位置信息的句子特征向量PD;
3.4.15.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对GD进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure BDA0003534510530000312
3.4.15.6语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对PD进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure BDA0003534510530000313
3.4.15.7特征拼接模块采用3.4.6所述的特征拼接预测方法对PD,
Figure BDA0003534510530000314
Figure BDA0003534510530000315
进 行拼接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句子, 并记录文章EE的识别结果
Figure BDA0003534510530000316
(qn表示文章EE中第n句话的预测 类别)。对比句子的实际类别与预测类别,若pn=qn,则num_correctD= num_correctD+1;转3.4.15.8;若pn≠qn,则num_wrongD=num_wrongD+1, 转3.4.15.8;
3.4.15.8令numD=numD+1,若humD≤max_numD,转3.4.15.2继续第 numD篇文章的识别,若numD>max_numD,转3.4.15.9;
3.4.15.9汇总验证集D所有文章的识别结果,计算句子类型预测结果与实际 类型之间的准确率Acc,Acc=num_correctD/(num_correctD+num_wrongD)。 若Acc>0.6,则保存当前训练中的discource_block的权重参数,转3.4.1继续第 epoch个迭代的训练。若Acc≤0.6,则不保存当前迭代下的discource_block的权 重参数,转3.4.1继续第epoch个迭代的训练。
第四步:对先前经过训练并保存的discource_block的网络结构权重参数, 进行语篇成分识别效果的测试,方法是:
4.1使用经过训练并保存的discource_block网络结构与权重参数,初始化测 试集S中文本数据计数参数numS=1,令验证集S中文章总数为max_nums
4.2从测试集S中提取一篇新的文章EEE(不可重复提取相同文章);
4.3特征提取模块采用3.4.1所述的深度网络句子特征提取方法对EE进行句 子级别的特征提取,得到句子特征向量GS
4.4位置编码模块采用3.4.2所述的融合句子位置信息方法对句子特征向量 GS添加额外的句子位置信息并进行融合,得到添加了位置信息的句子特征向量PS
4.5语篇自注意力模块采用3.4.3.1所述的注意力加池化语篇特征提取方法对 GS进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure BDA0003534510530000321
4.6篇自注意力模块采用3.4.3.1所述的注意力加池化语篇特征提取方法对PS进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure BDA0003534510530000322
4.7特征拼接模块采用3.4.4所述的特征拼接预测方法对RS
Figure BDA0003534510530000323
Figure BDA0003534510530000324
进行拼 接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句子,并 记录文章EEE的识别结果;
4.8令numS=numS+1,若numS≤max_nums,转4.2继续第numS篇文章 的识别,若numS>max_nums,转4.9;
4.9汇总测试集S所有文章的识别结果,得到语篇成分识别的Macro-F1和Acc。
选取来自中文议论文数据集中测试集S的118篇文章(第二步中说大约按照 8∶1∶1的比例进行数据集的划分,因此测试集选取118-125篇文章皆可),共3173 句话作为最终的测试集数据,对本发明进行了语篇成分识别的Acc和Macro-F1 数值测试,实验的系统环境为乌班图20.04版本(即Ubuntu 20.04,Linux系统 的一个版本),搭载英特尔i9-10900K系列的中央处理器,处理频率为3.70GHz, 另外配有一块英伟达TITAN RTX图像处理器,核心频率为1770MHz,显存容量为 24GB。实验时,3.2步的学习率为0.2,批处理尺寸batch_size为50,隐藏层维 度hidden_dim为128,句子维度sent_dim为128,训练迭代阈值数K为700。
在本实验环境下,表1表现出本发明在采用背景技术所述的图神经网络技术 下的语篇成分识别方法相比于其他方法时识别效果的优越性。表2表现出了采用 本发明进行语篇成分识别时,不同的参数选择模型所能达到的最优Acc和 Macro-F1数值。参数选择包括:不同GNN的层数、不同GNN的构图方式、不同 的GNN聚合方式,不同的边权重定义方式和不同尺寸大小的window_size(滑动 窗口大小)。
表1
Figure BDA0003534510530000331
表2
Figure BDA0003534510530000332
Figure BDA0003534510530000341
本发明针对的场景是一种中文议论文性质下的语篇成分识别方法,希望利用 图神经网络技术,进一步增强每个句子对自身语篇上下文信息的利用,使其对多 种参数选择得到的模型的Acc和Macro-F1数值都有提升。
实验表明,本发明对常用的不同参数设置的GNN都有一定的提升效果。综合 表1和表2所示,可以发现三点:
1、在全连接图的构图模式下(见表2),随着GNN层数的增加,聚合方式LSTM 还能保持较好的性能提升程度,无论边权重的计算方式是通过余弦相似度或者是 欧氏距离的情况下;聚合方式Pool的提升虽然还有,但是幅度明显降低。
2、在构图模式为部分连通图,且GNN层数为1的情况下(见表2),无论滑 动窗口window_size大小是1、2或者是3,都有明显的效果提升。并且总体来 看,部分连通图构图模式下的语篇成分识别效果比全连接图构图模式下的效果要 好。
3、与目前已有的语篇成分识别模型的效果进行对比(见表1),本发明无论 是在准确率Acc上,还是Macro-F1数值上,都超过以往所有模型的最佳数值, 即使与目前最好的模型进行比较,本发明实现的语篇成分识别系统可以在Acc 和Macro-F1数值上同时分别提升一个百分点左右。
随着神经网络的出现,众多模型的效果都有了质的飞跃,到达了一定的顶峰, 模型效果的提升幅度也逐渐变得缓慢,往往一个有效的改进即使只能对模型的效 果提升零点几个百分点,也会得到学术界的认可。本发明的改进虽然没有目前最 好的模型相比于之前其他模型的提升幅度,但是仍然可以在目前最好模型的基础 上,两个效果衡量指标数值均有一个百分点的提升,证明了本发明的先进性。
本发明提升的幅度一个百分点看似很小,但是在目前大数据横行的时代,一 项任务的数据量非常大的时候,一个百分点所带来的效果的改善也是非常可观的。
因此本发明实现了利用图神经网络技术提高语篇成分识别的效果。
以上对本发明所提供的一种基于图神经网络的语篇成分识别方法进行了详 细介绍。本文对本发明的原理及实施方式进行了阐述,以上说明用于帮助理解本 发明的核心思想。应当指出,对于本技术领域的普通研究人员来说,在不脱离本 发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落 入本发明权利要求的保护范围内。

Claims (10)

1.一种基于图神经网络的语篇成分识别方法,其特征在于包括以下步骤:
第一步:构建语篇成分识别系统,语篇成分识别系统由特征提取模块,位置编码模块,语篇自注意力模块,特征拼接模块构成;
特征提取模块与位置编码模块和语篇自注意力模块相连,功能是提取句子特征,它是一个深度前馈神经网络,由表示层、序列编码层和一个图神经网络层构成;特征提取模块将输入的文章中的单词特征信息进行汇总,获得每个句子的特征表示,利用图神经网络对每个句子特征信息进行更新,得到每个句子的特征表示,将每个句子的特征表示发送给位置编码模块和语篇自注意力模块;
表示层使用预训练的词向量new_embeddings2.txt作为初始化的单词表示;将每句话中所有的单词表示加和求平均值,并使用tanh激活函数来获得每句话的初始向量表示,初始向量表示称为句子向量,将句子向量发送给序列编码层;
序列编码层使用一个单层的模型BiLSTM对从表示层收到的句子向量进行建模,得到建模后的句子向量序列,将句子向量序列发送给图神经网络层;序列编码层的BiLSTM分为两个并行的分支结构,分别为正向模型
Figure FDA0003534510520000011
和逆向模型
Figure FDA0003534510520000012
Figure FDA0003534510520000013
接收句子向量的正序输入,输出更新后的正序句子向量
Figure FDA0003534510520000014
Figure FDA0003534510520000015
接收句子向量的逆序输入,输出更新后的逆序句子向量
Figure FDA0003534510520000016
Figure FDA0003534510520000017
Figure FDA0003534510520000018
进行拼接,使得句子向量的维度大小变为之前的两倍,得到更新后的句子向量序列,将更新后的句子向量序列输入到图神经网络层;
图神经网络层使用图神经网络将从序列编码层收到的句子向量序列作为节点的初始特征向量,对一篇文章中的所有句子构建全连接图或者局部连通图,节点是一篇文章中的一句话,局部连通图指以每个句子为中心位置,分别朝前和朝后选择与之相邻的M个句子进行连接,每对节点之间的连接边的权重通过两个节点的初始特征向量的相似度来确定;通过每个节点与自己相连节点进行特征信息的交互与传播,获得每个句子的特征向量表示即句子特征向量,将句子特征向量发送给位置编码模块和语篇自注意力模块;
位置编码模块是一个循环神经网络,与特征提取模块、语篇自注意力模块和特征拼接模块相连,从特征提取模块接收句子特征向量,为每个句子特征向量添加维度为16的全局相对位置信息,段落相对位置信息和局部相对位置信息;然后通过一层BiLSTM对融入了位置信息的句子特征向量重新进行建模,获得添加了位置信息的句子特征向量,将添加了位置信息的句子特征向量分别发送给语篇自注意力模块和特征拼接模块;
语篇自注意力模块是一个前向神经网络,与特征提取模块、位置编码模块、特征拼接模块相连,从特征提取模块接收未添加位置信息的句子特征向量,从位置编码模块接收添加了位置信息的句子特征向量,对这两种特征向量进行相同的处理;语篇自注意力模块由一层句子间的自注意力层和一层自适应池化层构成;自注意力层通过将不同位置的句子特征信息联合起来建模,得到每个句子的注意力向量,注意力向量越大代表句子在文章中的重要性越高;自适应池化层对从自注意力层接收的句子注意力向量进行处理,统一向量维度大小;对句子注意力向量分别提取输出维度为1,2,4,8的向量,将这些向量拼接成维度为15的语篇特征向量;将输入中含位置信息的句子特征向量得到的结果称为添加了位置信息的语篇特征向量,输入中不含位置信息的句子特征向量得到的结果称为未添加位置信息的语篇特征向量,将这两种语篇特征向量发送给特征拼接模块;
特征拼接模块是一个简单的前向网络,与位置编码模块、语篇自注意力模块相连,从位置编码模块接收添加了位置信息的句子特征向量,从语篇自注意力模块接收添加了位置信息的语篇特征向量和未添加位置信息的语篇特征向量,将这三种特征向量进行拼接,得到最终的特征向量;接着通过多层感知机将最终特征向量的维度降低到议论文句子的类别个数大小7,然后通过softmax函数将输出的数值限制在[0,1]之间,将数值最大的所属类别作为当前句子的预测类别;
特征提取模块中的深度前馈神经网络,位置编码模块中的循环神经网络,语篇自注意力模块中的前向神经网络,特征拼接模块中的简单前向网络一起构成语篇成分识别模型,是语篇成分识别系统中的网络结构,该网络结构统称为discource_block;
第二步:准备中文形式的议论文数据集,共1230篇中文议论文文章,总计33000个句子,按照8:1:1的比例分为训练集T、验证集D与测试集S三部分;对于议论文数据集中的句子类别主要分为以下七类:导言、主题、主要观点、证据、阐述、结论和其他;
第三步:使用随机梯度下降方法对语篇成分识别系统的网络结构进行训练,得到特征提取模块,位置编码模块、语篇自注意力模块和特征拼接模块中的网络的最佳权重参数,方法是:
3.1初始化权重参数,将discource_block中的权重参数集合
Figure FDA0003534510520000021
Figure FDA0003534510520000022
中所有元素值初始化为随机数;
Figure FDA0003534510520000023
表示discource_block中特征提取模块包含的网络结构的权重参数,
Figure FDA0003534510520000024
表示discource_block中位置编码模块包含的网络结构的权重参数,
Figure FDA0003534510520000025
表示discource_block中语篇自注意力模块包含的网络结构的权重参数,
Figure FDA0003534510520000026
表示discource_block中特征拼接模块包含的网络结构的权重参数;
3.2设置网络训练参数,设定学习率learning_rate为0.2,批处理尺寸batch_size为正整数,隐藏层维度hidden_dim为128,句子维度sent_dim为128,训练迭代阈值数K为正整数,随机失活dropout为0.1;
3.3初始化训练迭代参数为epoch=1,初始化批次迭代参数num_batch=1,定义训练集T中的文章数目为numT,最大批次大小
Figure FDA0003534510520000031
Figure FDA0003534510520000032
Figure FDA0003534510520000033
表示对numT/batch_size向上取整,初始化文章迭代参数essay=1,初始化误差值无下降的累计迭代数numno-increase=0,初始化第0轮训练的误差值Losspre=0;
3.4训练语篇成分识别系统,方法是将应用当前discource_block权重参数的语篇成分识别系统进行语篇成分识别得到的句子类别与实际类别之间的差距作为loss值,不断最小化loss值并更新discource_block的权重参数,直到满足迭代阈值数K,或者出现训练终止条件,终止训练;每次训练的一个迭代结束后,使用验证集数据对当前discource_block权重参数下语篇成分识别系统进行测试,保存在验证集上效果优异的discource_block的参数权重;具体方法如下:
3.4.1特征提取模块的表示层从训练集T中取出第num_batch批共batch_size数量的文章;
3.4.2记第num_batch批文章中第essay篇文章为E;
3.4.3特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特征提取:表示层对E进行句子向量的初始化表示,得到向量形式的数据
Figure FDA0003534510520000034
sn表示E中初始化后的第n个句子向量,Ns是E中的句子总数,1≤n≤Ns;表示层通过空白的句子对
Figure FDA0003534510520000035
进行补齐,得到
Figure FDA0003534510520000036
sm为补齐后的文章E中的第m个句子,1≤m≤Nmax,Nmax为第num_batch个batch_size中最长文章的句子个数,将
Figure FDA0003534510520000037
发送给序列编码层;序列编码层的BiLSTM对
Figure FDA0003534510520000038
进行句子向量之间的初步建模,得到建模后的句子向量序列
Figure FDA0003534510520000039
Figure FDA00035345105200000310
表示第m个句子的向量序列,2*hidden_dim表示句子向量的维度,将建模后的句子向量序列发送给图神经网络层;图神经网络层将接收的建模后的句子的向量序列作为节点的初始特征向量,为文本数据中的所有句子构建全连接图或者局部连通图,节点之间连接边的权重通过两个节点的初始特征向量的相似度来确定;通过图神经网络中每个节点与邻居节点之间特征信息的交互与传播,得到Nmax个句子的特征向量的表示
Figure FDA0003534510520000041
其中
Figure FDA0003534510520000042
表示第m个句子的特征向量;将
Figure FDA0003534510520000043
发送到位置编码模块和语篇自注意力模块;
3.4.4位置编码模块采用融合句子位置信息方法对特征提取模块得到的句子特征向量添加每个句子的位置信息并融合,方法是:
3.4.4.1位置编码模块对Nmax个句子添加位置信息,得到文章E的Nmax句话的句子特征表示
Figure FDA0003534510520000044
Figure FDA0003534510520000045
为第m句话与位置信息相加后的特征表示;
3.4.4.2位置编码模块通过一层BiLSTM层对句子特征表示再次编码,将Nmax个句子的位置信息彻底融入到Nmax个句子特征向量之中,得到的添加了位置信息的Nmax个句子特征向量,表示为
Figure FDA0003534510520000046
Figure FDA0003534510520000047
表示文章E中第m句融合了位置信息特征的句子特征向量,将添加了位置信息的Nmax个句子特征向量分别发送给语篇自注意力模块和特征拼接模块;
3.4.5语篇自注意力模块从特征提取模块接收未添加位置信息的句子特征向量
Figure FDA0003534510520000048
从位置编码模块接收添加并融合了句子位置信息的句子特征向量
Figure FDA0003534510520000049
对这两种向量分别进行特征传递与交互:
3.4.5.1语篇自注意力模块采用注意力加池化语篇特征提取方法对
Figure FDA00035345105200000410
进行特征传递与交互,方法是:
3.4.5.1.1自注意力层将未添加位置信息的句子特征向量中不同位置的句子特征信息联合起来,捕获句子之间的关联性,使用
Figure FDA00035345105200000411
作为注意力向量,其中Q是查询向量,
Figure FDA00035345105200000412
Figure FDA00035345105200000413
K是键向量,K=Q;dk是输入向量的维度,即2*hidden_dim;tanh是激活函数,注意力向量as越大,表示该句子在文章中的重要性越高;将注意力向量as表示为
Figure FDA0003534510520000051
Figure FDA0003534510520000052
表示文章E中第m句话的注意力向量,注意力向量的维度也是Nmax,将注意力向量as发送给自适应池化层;
3.4.5.1.2自适应池化层从自注意力层接收注意力向量as,对as进行自适应池化以提取不同尺度的语篇特征,分别提取出维度为1,2,4,8的特征向量;这样产生的特征向量看作是一个句子与其文章E不同区域之间关系的描述,将结果标记为
Figure FDA0003534510520000053
Figure FDA0003534510520000054
其中四元组
Figure FDA0003534510520000055
表示文章E中由第m句话提取出的维度为1,2,4,8的特征向量;
3.4.5.1.3自适应池化层将
Figure FDA0003534510520000056
Figure FDA0003534510520000057
分别进行拼接,得到输出维度为15的未添加位置信息的语篇特征向量
Figure FDA0003534510520000058
Figure FDA0003534510520000059
其中
Figure FDA00035345105200000510
Figure FDA00035345105200000511
表示文章E中第m句话的未添加位置信息的语篇特征向量,
Figure FDA00035345105200000512
Figure FDA00035345105200000513
即将四元组
Figure FDA00035345105200000514
在向量维度上进行拼接,将未添加位置信息的语篇特征向量发送给特征拼接模块;
3.4.5.2语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对添加并融合了句子位置信息的句子特征向量
Figure FDA00035345105200000515
进行特征传递与交互,得到含位置信息的语篇特征向量
Figure FDA00035345105200000516
Figure FDA00035345105200000517
其中
Figure FDA00035345105200000518
表示文章E中第m句话的添加了位置信息的语篇特征向量,将含位置信息的语篇特征向量发送给特征拼接模块;
3.4.6特征拼接模块采用特征拼接预测方法对特征向量进行拼接,并进行语篇成分类型的识别,方法是:
3.4.6.1特征拼接模块从位置编码模块接收添加了位置信息的句子特征向量
Figure FDA00035345105200000519
从语篇自注意力模块接收不含位置信息的语篇特征向量
Figure FDA00035345105200000520
Figure FDA00035345105200000521
和含位置信息的语篇特征向量
Figure FDA00035345105200000522
Figure FDA00035345105200000523
将这三种特征向量进行拼接,得到最终特征向量
Figure FDA0003534510520000061
,其中
Figure FDA0003534510520000062
表示文章E中的第m句话的最终特征向量表示;隐藏层维度为2*hidden_dim+2*15;
3.4.6.2特征拼接模块将最终特征向量通过一个多层感知机MLP把输出的维度降低到议论文句子的类别个数大小7;
3.4.6.3特征拼接模块使用softmax函数将输出的数值大小限制在[0,1]之间,将softmax函数的输出结果标记为
Figure FDA0003534510520000063
Figure FDA0003534510520000064
其中
Figure FDA0003534510520000065
表示文章E的第m句话属于议论文第ii个类别的概率得分,1≤ii≤7;选择第m个七元组
Figure FDA0003534510520000066
中最大数值的所属类别作为文章E中第m个句子的预测类别,从而得到文章E中Nmax个句子类型的预测结果,记为
Figure FDA0003534510520000067
qm表示文章E中第m句话的类型预测结果;
3.4.7计算文章E中Nmax个句子的误差值
Figure FDA0003534510520000068
令文章E中第m句话的损失值
Figure FDA0003534510520000069
其中C是议论文句子的类别数,C=7,pi是句子实际类别,qi是预测的句子类别;则
Figure FDA00035345105200000610
Figure FDA00035345105200000611
表示文章E中Nmax个句子的误差值,简称为文章E的误差值;
3.4.8使用随机梯度下降优化算法对
Figure FDA00035345105200000612
最小化,然后以反向传播的方式更新网络权重参数;
3.4.9令essay=essay+1,若essay≤batch_size,转3.4.2继续第essay篇文章的训练,若essay>batch_size,转3.4.10;
3.4.10汇总batch_size篇文章的误差值,即
Figure FDA00035345105200000613
Figure FDA00035345105200000614
得到第num_batch个批次下batch_size篇文章的误差值
Figure FDA00035345105200000615
Figure FDA00035345105200000616
Figure FDA00035345105200000617
3.4.11令num_batch=num_batch+1,若num_batch≤max_batch,重新赋值essay=1,转3.4.1继续第num_batch个批次文章的训练,若num_batch>max_batch,转3.4.12;
3.4.12汇总当前epoch下各个批次损失值,求和之后取平均值得到该epoch的误差值
Figure FDA0003534510520000071
Figure FDA0003534510520000072
同时记录上一轮epoch的误差值为Losspre,如果Losscur>Losspre,转3.4.13,如果Losscur≤Losspre,直接转3.4.14;
3.4.13令numno-increase=numno-increase+1,如果(numno-increase%10)=0,则令learning_rate=learning_rate×0.95,转3.4.14;
3.4.14令epoch=epoch+1;如果epoch>迭代阈值数K或者满足训练终止条件即learning_rate<0.0001或者Losscur<0.5,则语篇成分识别系统的网络结构discource_block训练结束,转第四步;若epoch≤K,且learning_rate≥0.0001,而且Losscur≥0.5,重新赋值essay=1,num_batch=1,转3.4.15;
3.4.15对当前训练中的discource_block的网络结构权重参数进行语篇成分识别效果的验证,若句子类型预测结果与实际类型之间的准确率Acc>0.6,则保存当前训练中的discource_block的权重参数,转3.4.1继续第epoch个迭代的训练;若Acc≤0.6,则不保存当前迭代下的discource_block的权重参数,转3.4.1继续第epoch个迭代的训练;
第四步:将经过训练并保存的discource_block的权重参数加载到语篇成分识别系统discource_block的网络结构中,得到训练后的语篇成分识别系统;
第五步,训练后的语篇成分识别系统对用户输入的文章进行预处理,并进行语篇成分识别,方法是:
5.1训练后的语篇成分识别系统接收用户输入的文章Euser
5.2特征提取模块采用3.4.3所述的深度网络句子特征提取方法对Euser进行句子级别的特征提取,得到句子特征向量Guser
5.3位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征向量Guser添加句子位置信息并进行融合,得到添加了位置信息的句子特征向量Puser
5.4语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对Guser进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure FDA0003534510520000073
5.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对Puser进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure FDA0003534510520000074
5.6特征拼接模块采用3.4.6所述的特征拼接预测方法对Puser
Figure FDA0003534510520000075
Figure FDA0003534510520000076
进行拼接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句子,得到文章Euser的识别结果。
2.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于第二步所述议论文数据集中1230篇中文形式议论文文章涵盖不同的主题,从eleKetang网站,即http://www.leleketang.com/zuowen/list30-0-0-1-1.shtml上收集。
3.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于第二步所述议论文数据集中的句子类别中的主题指表达作者关于论文主题的中心主张;主要观点指确立与主题相关的基本观点或内容;证据指提供用于支持主要观点和主体的示例或其他证据;阐述指细化元素进一步解释主要观点或提供理由,但不包含示例或其他证据;结论指中心论点的延伸,总结全文,并呼应文章论点;其他指与上述类别均不匹配的要素。
4.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.1步所述初始化权重参数时将权重参数集合
Figure FDA0003534510520000081
中所有元素值都初始化为[0,1]之间的随机数;3.2步所述批处理尺寸batch_size设置为50,训练迭代阈值数K设置为700。
5.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.3步所述特征提取模块采用深度网络句子特征提取方法对E进行句子级别的特征提取的具体方法是:
3.4.3.1限制E中每个句子的长度标准为M,超出长度标准的句子截断成标准长度,剩余内容丢弃,不足标准长度的句子用空白单词进行补齐;将E中的Ns句话均标记为
Figure FDA0003534510520000082
其中Nw表示一句话中实际的单词个数,剩下的(M-Nw)是补充的空白单词个数,
Figure FDA0003534510520000083
表示当前句子中的第d个单词,200表示词向量的维度,1≤d≤M;将
Figure FDA0003534510520000084
标记为
Figure FDA0003534510520000085
其中
Figure FDA0003534510520000086
表示文章E中第n个句子的第j个单词;
同时记录每个batch_size中最长文章的句子个数,记为Nmax,将句子数量不足Nmax的文章通过空白句子进行补齐;此时文章E中的句子标记为
Figure FDA0003534510520000087
sm为补齐后的文章E中的第m个句子,1≤m≤Nmax
3.4.3.2将补齐后的文章E中Nmax句话中的单词所表示的向量进行平均化,得到Nmax句话的初始向量,第m个初始的句子向量为
Figure FDA0003534510520000088
3.4.3.3汇总文章E中Nmax个句子激活后的句子临时特征,得到文章E下Nmax句话的初始句子向量
Figure FDA0003534510520000089
将初始句子向量
Figure FDA00035345105200000810
发送给序列编码层;
3.4.3.4序列编码层的
Figure FDA00035345105200000811
从表示层接收正序的初始句子向量
Figure FDA00035345105200000812
对正序的句子向量进行建模后得到正序句子的输出
Figure FDA0003534510520000091
Figure FDA0003534510520000092
Figure FDA0003534510520000093
组成,
Figure FDA0003534510520000094
表示第m句话的正序向量输出;
Figure FDA0003534510520000095
从表示层接收倒序的初始句子向量
Figure FDA0003534510520000096
对倒序的句子向量进行建模后得到逆序句子的输出
Figure FDA0003534510520000097
Figure FDA0003534510520000098
Figure FDA0003534510520000099
组成,
Figure FDA00035345105200000910
表示第m句话的倒序向量输出;序列编码层将
Figure FDA00035345105200000911
Figure FDA00035345105200000912
在隐藏层维度上拼接到一起,得到更新了句子初始特征矩阵的句子向量序列,标记为
Figure FDA00035345105200000913
其中
Figure FDA00035345105200000914
表示文章E中第m个句子的向量序列,由
Figure FDA00035345105200000915
Figure FDA00035345105200000916
拼接构成;将
Figure FDA00035345105200000917
发送给图神经网络层;
3.4.3.5图神经网络层从序列编码层接收
Figure FDA00035345105200000918
构建基础的图结构,将句子向量序列看作第一节点集合
Figure FDA00035345105200000919
将实际用于构建图结构的第二节点集合标记为
Figure FDA00035345105200000920
若文章的段落之间表达的意思相近,需要聚合更多的全文句子特征来辅助进行句子类型的识别,且对训练时间没有要求时,转3.4.3.6构建全连接图;若文章的段落之间表达的意思相距较大,需要聚合相近句子的特征,避免距离太远的句子表意差距较大而影响当前句子类型的识别,且对训练时间有要求时,转3.4.3.7构建局部连通图;
3.4.3.6图神经网络层构建全连接图,方法是:将第二节点集合为Vtrue中的每对节点两两连接,组成全连接图
Figure FDA00035345105200000921
Figure FDA00035345105200000922
Figure FDA00035345105200000923
表示节点i和节点j之间的连接边,1≤i≤j≤Ns,每个节点是文章E中的一个句子,第二节点集合Vtrue中节点vn的初始特征向量由句子向量序列中前Ns个有实际特征的向量
Figure FDA00035345105200000924
依次赋值,节点之间连接边权重等于两个节点的初始特征向量之间的相似度,节点vi的特征向量为[x1,x2,…,xt,…,x2*hidden_dim],xt是vi第t个维度的特征数值,节点vj的特征向量为[y1,y2,…,yt,…,y2*hidden_dim],yt是vj第t个维度的特征数值;句子节点聚合相连句子节点特征的方式有LSTM和Pool两种形式,LSTM指将当前节点的邻居节点随机打乱作为输入序列,将所得的特征向量与当前节点的特征向量分别经过非线性变换后拼接,得到当前节点更新后的特征向量;Pool指先对当前节点的邻居节点特征向量进行一次非线性变换,然后对变换后的特征向量进行池化操作,最后将所得结果与当前节点的特征向量分别进行非线性变换后拼接或者相加得到当前节点更新后的特征向量;若是想加强节点之间信息交互对更新后节点特征向量的影响,则采用LSTM的聚合方式;若是想在更新后更多保留节点本身的特征向量,则采用Pool的聚合方式;构建完成后,转3.4.3.8;
3.4.3.7图神经网络层构建部分连通图,方法是:以第二节点集合为Vtrue中的每个节点为中心位置,分别朝前和朝后选择与之相邻的window_size个节点进行连接,从而组成部分连通图
Figure FDA0003534510520000101
Figure FDA0003534510520000102
Figure FDA0003534510520000103
Figure FDA0003534510520000104
部分连通图的节点权重、边权重构建方式以及图的聚合方式与全连接图的构建方式相同;构建完成后,转3.4.3.8;
3.4.3.8根据构建好的图结构,图神经网络层采用图神经网络技术中的图卷积神经网络GCN,将卷积操作应用在图节点数据的特征传播与更新上,每个节点通过集成自己和相连邻居的特征来更新自身的节点特征表示,得到每个句子节点的特征向量
Figure FDA0003534510520000105
Figure FDA0003534510520000106
表示基于图结构更新节点特征之后的第n个句子节点特征向量;对于后面的(Nmax-Ns)个空白句子节点特征,将句子向量序列中后面的(Nmax-Ns)个特征向量即
Figure FDA0003534510520000107
原封不动依次赋值给句子节点特征
Figure FDA0003534510520000108
从而图神经网络层的最终输出为句子特征向量
Figure FDA0003534510520000109
6.如权利要求5所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.3.1步所述M为40,所述空白单词为[0]*vecsize,[0]表示矩阵里面的数字是0,vecsize是词向量的维度,大小为200;所述空白句子指[0]*vecsize*M,即M个200维的零向量。
7.如权利要求5所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.3.2步所述将补齐后的文章E中每句话中的单词所表示的向量进行平均化的方法是:
3.4.3.2.1初始化变量m为1;
3.4.3.2.2从文章E中取出第m个句子,计算第m个句子的临时特征stemp,stemp是第m句话中所有的单词矩阵的平均值,
Figure FDA00035345105200001010
Figure FDA00035345105200001011
3.4.3.2.3通过tanh激活函数对第m个句子的临时特征stemp进行激活,得到激活后的第m个句子临时特征
Figure FDA0003534510520000111
即第m个初始的句子向量,
Figure FDA0003534510520000112
200表示词向量维度;
3.4.3.2.4令m=m+1,若m≤Nmax,转3.4.3.2.2继续处理第m句话,若m>Nmax,结束。
8.如权利要求5所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.3.6步所述构建全连接图时,所述两个节点的初始特征向量之间的相似度包括余弦相似度和欧氏距离两种,若文章中存在多个句子的长度差距很大、但内容相近时,或者词向量的维度很高(通常当词向量维度在300及以上)的情况下,采用余弦相似度定义边权重,相似度
Figure FDA0003534510520000113
Figure FDA0003534510520000114
若对句子的分类更看重价值性,即数值上的不同时,则采用欧氏距离定义边权重,首先节点vi和节点vj的欧式距离为
Figure FDA0003534510520000115
相似度
Figure FDA0003534510520000116
Figure FDA0003534510520000117
9.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.4.1步所述位置编码模块对Nmax个句子添加位置信息的方法是:
3.4.4.1.1提取文章E中每个句子的位置信息并加入到句子的特征表示中,方法是:
3.4.4.1.1.1初始化变量m为1;
3.4.4.1.1.2从文章E中取出第m个句子,位置编码模块一共使用三种位置信息:描述句子在文章中的位置的全局位置、描述句子所在的段落在文章中的位置的段落位置和描述句子在该段落中的位置的局部位置;将文章E中第m个句子的三种位置信息分别表示为
Figure FDA0003534510520000118
Figure FDA0003534510520000119
表示第m句话的全局位置,
Figure FDA00035345105200001110
表示第m句话的段落位置,
Figure FDA00035345105200001111
表示第m句话的局部位置,将这三种位置信息简记为全局位置gp,段落位置hp和局部位置lp;位置编码模块采用相对位置编码对三种位置信息进行处理,得到三种位置信息类型的相对位置,分别为
Figure FDA00035345105200001112
Figure FDA00035345105200001113
其中P表示文章E中的段落数量,Ep表示文章E第p 个段落中的句子数量;最终第m个句子的位置表示为三个相对位置表示的线性组合:
Figure FDA0003534510520000121
其中weightg,weightp和weightl三个向量均初始化为1;最后将第m句话的位置表示POS(m)与图神经网络层输入的第m句话的句子特征向量
Figure FDA0003534510520000122
在每一个隐藏层维度上相加即
Figure FDA0003534510520000123
Figure FDA0003534510520000124
得到文章E中第m句话与位置信息相加后的特征表示
Figure FDA0003534510520000125
3.4.4.1.1.3令m=m+1,若m≤Nmax,转3.4.4.1.1.2继续处理第m个句子,若m>Nmax,转3.4.4.1.2;
3.4.4.1.2汇总文章E中每个句子的特征表示,得到文章E下Nmax句话的句子特征表示
Figure FDA0003534510520000126
10.如权利要求1所述的一种基于图神经网络的语篇成分识别方法,其特征在于3.4.15步所述对当前训练中的discource_block的网络结构权重参数进行语篇成分识别效果验证的方法是:
3.4.15.1初始化验证集D中文本数据计数参数numD=1,验证集D中文章总数为max_numD,识别正确的句子数目num_correctD=0,识别错误的句子数目num_wrongD=0;
3.4.15.2从验证集D中提取一篇新的文章EE即不重复提取相同文章,记录文章EE中每个句子的实际类别
Figure FDA0003534510520000127
pn表示文章EE中第n句话的实际类别,Ns表示文章EE的句子总数;
3.4.15.3特征提取模块采用3.4.3所述的深度网络句子特征提取方法对EE进行句子级别的特征提取,得到句子特征向量GD
3.4.15.4位置编码模块采用3.4.4所述的融合句子位置信息方法对句子特征向量GD添加句子位置信息并进行融合,得到添加了位置信息的句子特征向量PD
3.4.15.5语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对GD进行语篇特征信息的提取,得到未添加位置信息的语篇特征向量
Figure FDA0003534510520000128
3.4.15.6语篇自注意力模块采用3.4.5.1所述的注意力加池化语篇特征提取方法对PD进行语篇特征信息的提取,得到添加了位置信息的语篇特征向量
Figure FDA0003534510520000129
3.4.15.7特征拼接模块采用3.4.6所述的特征拼接预测方法对PD
Figure FDA00035345105200001210
Figure FDA00035345105200001211
进行拼接,并进行语篇成分识别,识别议论性质句子的类型以及非议论性质的句子,并记录文章EE的识别结果
Figure FDA00035345105200001212
qn表示文章EE中第n句话的预测类别;对比句子的实际类别与预测类别,若pn=qn,则num_correctD=num_correctD+1;转3.4.15.8;若pn≠qn,则num_wrongD=num_wrongD+ 1,转3.4.15.8;
3.4.15.8令numD=numD+1,若numD≤max_numD,转3.4.15.2继续第numD篇文章的识别,若numD>max_numD,转3.4.15.9;
3.4.15.9汇总验证集D所有文章的识别结果,计算句子类型预测结果与实际类型之间的准确率Acc,Acc=num_correctD/(num_correctD+num_wrongD);若Acc>0.6,则保存当前训练中的discource_block的权重参数;若Acc≤0.6,则不保存当前迭代下的discource_block的权重参数。
CN202210215736.5A 2022-03-07 2022-03-07 一种基于图神经网络的语篇成分识别方法 Active CN114880428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210215736.5A CN114880428B (zh) 2022-03-07 2022-03-07 一种基于图神经网络的语篇成分识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210215736.5A CN114880428B (zh) 2022-03-07 2022-03-07 一种基于图神经网络的语篇成分识别方法

Publications (2)

Publication Number Publication Date
CN114880428A true CN114880428A (zh) 2022-08-09
CN114880428B CN114880428B (zh) 2022-11-18

Family

ID=82667964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210215736.5A Active CN114880428B (zh) 2022-03-07 2022-03-07 一种基于图神经网络的语篇成分识别方法

Country Status (1)

Country Link
CN (1) CN114880428B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805059A (zh) * 2023-06-26 2023-09-26 重庆邮电大学 一种基于大数据的专利分类方法
CN117879907A (zh) * 2023-12-26 2024-04-12 中国人民解放军61660部队 一种基于图卷积行为特征提取的网络环境异常检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595407A (zh) * 2018-03-06 2018-09-28 首都师范大学 基于议论文篇章结构的评价方法及装置
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
US20210056445A1 (en) * 2019-08-22 2021-02-25 International Business Machines Corporation Conversation history within conversational machine reading comprehension
US20210073670A1 (en) * 2019-09-06 2021-03-11 International Business Machines Corporation Identifying related messages in a natural language interaction
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN113590821A (zh) * 2021-07-26 2021-11-02 首都师范大学 一种隐含语篇关系的分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595407A (zh) * 2018-03-06 2018-09-28 首都师范大学 基于议论文篇章结构的评价方法及装置
US20210056445A1 (en) * 2019-08-22 2021-02-25 International Business Machines Corporation Conversation history within conversational machine reading comprehension
US20210073670A1 (en) * 2019-09-06 2021-03-11 International Business Machines Corporation Identifying related messages in a natural language interaction
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN113590821A (zh) * 2021-07-26 2021-11-02 首都师范大学 一种隐含语篇关系的分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAIBIN CHEN 等: "Corpus-Aware Graph Aggregation Network for Sequence Labeling", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
PRIYANKAR BOSE 等: "A Survey on Recent Named Entity Recognition and Relationship Extraction Techniques on Clinical Texts", 《APPLIED SCIENCES》 *
SIJIE WANG 等: "Discourse Component Recognition via Graph Neural Network in Chinese Student Argumentative Essays", 《INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT》 *
王庆林 等: "面向飞腾多核处理器的Winograd快速卷积算法优化", 《计算机研究与发展》 *
郭少茹: "基于框架语义表示的机器阅读理解方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805059A (zh) * 2023-06-26 2023-09-26 重庆邮电大学 一种基于大数据的专利分类方法
CN116805059B (zh) * 2023-06-26 2024-04-09 重庆邮电大学 一种基于大数据的专利分类方法
CN117879907A (zh) * 2023-12-26 2024-04-12 中国人民解放军61660部队 一种基于图卷积行为特征提取的网络环境异常检测方法

Also Published As

Publication number Publication date
CN114880428B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN106649561B (zh) 面向税务咨询业务的智能问答系统
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN114880428B (zh) 一种基于图神经网络的语篇成分识别方法
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111368514B (zh) 模型训练及古诗生成方法、古诗生成装置、设备和介质
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN113392651A (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN111552781A (zh) 一种联合机器检索阅读的方法
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
CN117421410A (zh) 问答系统中的文本匹配方法及装置
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法
KR20230116143A (ko) 상담 유형 분류 시스템
Wang et al. Weakly Supervised Chinese short text classification algorithm based on ConWea model
CN114239565A (zh) 一种基于深度学习的情绪原因识别方法及系统
CN112860882A (zh) 一种基于神经网络的图书概念前后序关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant