CN112528642B

CN112528642B - 一种隐式篇章关系自动识别方法及系统

Info

Publication number: CN112528642B
Application number: CN202011472521.9A
Authority: CN
Inventors: 刘三女牙; 陈增照; 刘洪�; 易宝林; 戴志诚; 王旭阳; 曹子妍; 孟秉恒
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-07-18
Anticipated expiration: 2040-12-15
Also published as: CN112528642A

Abstract

本发明提供一种隐式篇章关系自动识别方法及系统，包括：将篇章粒度的文本划分为若干个由篇章关系衔接的两个连续文本片段，记为Arg1和Arg2组成的篇章论元对；对Arg1和Arg2进行分词并标记词性，生成以空格为间隔的词序列；基于Word2Vec语言模型，分别将Arg1和Arg2对应的词序列中每一个词映射成高维数值向量，从而得到Arg1和Arg2的矩阵表示；将Arg1和Arg2的矩阵表示输入到TLA‑Encoder和RC‑Encoder中进行编码，得到包含交互特征的论元表示和篇章论元的局部序列表示；利用外部注意机制融合包含交互特征的论元表示与局部序列特征，得到篇章论元的融合特征向量表示；送入SoftMax中识别融合特征向量所属的篇章关系分类。本发明对隐式篇章关系的识别更加精准。

Description

一种隐式篇章关系自动识别方法及系统

技术领域

本发明属于计算机技术应用在教育信息化领域，更具体地，涉及一种隐式篇章关系自动识别方法及系统。

背景技术

课堂话语记录了真实场景的实际教学体验，记录了教师教学方式、知识结构、信念和经验，是进行教学评价活动的重要依据。要实现课堂话语支撑教学评价的目的，自动分析课堂话语结构和可视化教学场景是十分重要的。课堂话语属于一种语言行为，文本粒度较大，语义连续且层次清晰。因此，通过切分课堂话语来构建篇章论元，识别课堂话语的篇章逻辑关系，从而可以挖掘出课堂话语中的活动事件之间的关联。通过这样一种篇章粒度的分析可以帮助教学反思重现课堂场景，从而推动课堂教学评价智能化发展。

识别课堂话语中的篇章关系，本质上是识别话语语义逻辑关系。中文篇章关系分为显式篇章关系和隐式篇章关系。在中文显式篇章关系识别上，这种语义表达在句子中表现为较强的词对关联特征，使得显式篇章关系识别较为容易；而中文隐式篇章关系中缺乏这种特征，需要捕捉其深层逻辑语义才能进行篇章关系的识别，因此隐式篇章关系成为了中文篇章关系识别的主要研究问题。

就目前中文隐式篇章识别研究工作而言，由于语料资源较为稀少，在该任务上的研究工作不多。根据已有的方法，也主要分为传统特征方法和深度学习阶段。

在传统特征方法上，主要通过人工抽取特征，过程繁琐且特征较为浅表，难以捕获深层的语义结构。深度学习方法较好的克服了以上问题，因而在近年的中文隐式篇章关系研究中逐渐兴起。

已有的深度学习方法虽然克服了传统方法中的工作量大、过程繁琐和难以捕捉深层语义结构特征等问题，但LSTM对于论元的编码仅考虑到论元的字词粒度的上下文特征，容易忽略论元全局的序列信息；另外，多任务架构要求具有相似语义结构的显隐式篇章论元，这对课堂话语环境下的隐式篇章关系识别提出了较为严格的语料库要求；现有技术提出的一种三层注意力网络架构，直接使用了注意力机制对论元进行编码，能较好的捕获长期的依赖和全局词对线索，但这种单一论元编码形式仅通过论元间交互来强化论元间的序列表示是不够的，且较容易忽略论元间的字、词粒度上局部序列信息的表达。

发明内容

针对现有技术的缺陷，本发明提供了一种隐式篇章关系自动识别方法及系统，旨在解决现有中文隐式篇章关系识别方法中的问题：传统的人工特征方法工作量大、过程繁琐、难以捕捉到深层的语义结构特征；目前已有的深度学习方法中均仅使用了一种编码结构，容易忽略论元序列信息的完整表达。

为实现上述目的，第一方面，本发明提供了一种隐式篇章关系自动识别方法，包括如下步骤：

将篇章粒度的文本划分为若干个由篇章关系衔接的两个连续文本片段，将两个连续文本片段标记为第一论元和第二论元组成的篇章论元对；

对第一论元和第二论元分别进行分词并标记词性，生成以空格为间隔的词序列，以便Word2Vec语言模型读取所述词序列；

基于训练好的Word2Vec语言模型，分别将第一论元和第二论元对应的词序列中每一个词映射成高维数值向量，从而得到第一论元的矩阵表示和第二论元的矩阵表示；

将第一论元的矩阵表示和第二论元的矩阵表示分别输入到三层注意力编码器TLA-Encoder和循环卷积编码器RC-Encoder中进行编码；在TLA-Encoder中计算得到包含交互特征的论元表示；在RC-Encoder中计算得到篇章论元的局部序列特征；

利用外部注意机制将RC-Encoder得到的篇章论元的局部序列特征表示为一种外部记忆，融合TLA-Encoder得到的包含交互特征的论元表示，通过非线性变化得到篇章论元的融合特征向量表示；

将所述融合特征向量表示送入SoftMax分类器中识别所述融合特征向量所属的篇章关系分类。

在一个可选的实施例中，在TLA-Encoder中，第一论元的矩阵表示和第二论元的矩阵表示分别输入到各自的自注意力层中计算每个论元的内部词对联系，将每个论元的内部词对联系通过两个交互注意力层计算得到论元间的交互表示，基于外部注意力机制将所述每个论元内部词对联系和论元间的交互表示叠加，计算得到包含交互特征的论元表示。

在一个可选的实施例中，在RC-Encoder中，使用Bi-LSTM抽取第一论元的矩阵表示和第二论元的矩阵表示的双向序列表示，对所述双向序列表示通过两次连续卷积操作抽取得到第一论元和第二论元的N-Gram特征，用N-Gram特征过滤出双向序列表示中重要的序列信息，从而得到篇章论元的局部序列特征。

在一个可选的实施例中，所述SoftMax分类器可以识别的篇章关系类别数为4个，分别为因果、比较、扩展以及平行四种篇章关系。

第二方面，本发明提供一种隐式篇章关系自动识别系统，包括：

篇章论元确定单元，用于将篇章粒度的文本划分为若干个由篇章关系衔接的两个连续文本片段，将两个连续文本片段标记为第一论元和第二论元组成的篇章论元对；

词序列生成单元，用于对第一论元和第二论元分别进行分词并标记词性，生成以空格为间隔的词序列，以便Word2Vec语言模型读取所述词序列；

论元矩阵确定单元，用于基于训练好的Word2Vec语言模型，分别将第一论元和第二论元对应的词序列中每一个词映射成高维数值向量，从而得到第一论元的矩阵表示和第二论元的矩阵表示；

论元表示编码单元，用于将第一论元的矩阵表示和第二论元的矩阵表示分别输入到三层注意力编码器TLA-Encoder和循环卷积编码器RC-Encoder中进行编码；在TLA-Encoder中计算得到包含交互特征的论元表示；在RC-Encoder中计算得到篇章论元的局部序列特征；

融合特征确定单元，用于利用外部注意机制将RC-Encoder得到的篇章论元的局部序列特征表示为一种外部记忆，融合TLA-Encoder得到的包含交互特征的论元表示，通过非线性变化得到篇章论元的融合特征向量表示；

篇章关系识别单元，用于将所述融合特征向量表示送入SoftMax分类器中识别所述融合特征向量所属的篇章关系分类。

在一个可选的实施例中，所述论元表示编码单元在TLA-Encoder中，将第一论元的矩阵表示和第二论元的矩阵表示分别输入到各自的自注意力层中计算每个论元的内部词对联系，将每个论元的内部词对联系通过两个交互注意力层计算得到论元间的交互表示，基于外部注意力机制将所述每个论元内部词对联系和论元间的交互表示叠加，计算得到包含交互特征的论元表示。

在一个可选的实施例中，所述论元表示编码单元在RC-Encoder中，使用Bi-LSTM抽取第一论元的矩阵表示和第二论元的矩阵表示的双向序列表示，对所述双向序列表示通过两次连续卷积操作抽取得到第一论元和第二论元的N-Gram特征，用N-Gram特征过滤出双向序列表示中重要的序列信息，从而得到篇章论元的局部序列特征。

在一个可选的实施例中，所述篇章关系识别单元使用的SoftMax分类器可以识别的篇章关系类别数为4个，分别为因果、比较、扩展以及平行四种篇章关系。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种隐式篇章关系自动识别方法及系统，提出了一种包含循环卷积模块的四层注意力网络架构，其中除了与RC-Encoder并行的TLA-Encoder中包含了三层注意力，在RC-Encoder和TLA-Encoder之上，还有一层注意力机制。本发明采用了一种双编码结构并行的架构方式，相比较之前的模型，TLA-Encoder较好的解决了长期的数据依赖问题，能较好的捕捉全局的词对线索；同时，RC-Encoder对于TLA-Encoder中的交互阅读是一个很好的补充，通过一种连续局部卷积操作过滤出了Bi-LSTM重要的局部序列信息，更加关注字、词粒度上的序列信息的表达。最后，通过外部注意力机制将两种编码器得到的特征进行融合，可以得到编码粒度更细、表达更为准确的篇章论元表示，从而提高了中文隐式篇章关系的识别效果。

附图说明

图1是本发明实施例提供的隐式篇章关系自动识别方法流程图；

图2是本发明实施例提供的隐式篇章关系识别处理流程图；

图3是本发明实施例提供的隐式篇章关系自动识别方法模型结构图；

图4是本发明实施例提供的隐式篇章关系自动识别方法模型中的局部卷积结构图；

图5是本发明实施例提供的隐式篇章关系自动识别系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于WordEmbedding技术生成低维稠密的数值向量来表征篇章论元，采用了一种并行架构的方式，通过一种多层注意力网络抽取论元间的词对联系，并使用循环卷积网络增强论元词粒度上的序列表示；并以这种序列表示作为词对联系的一种外部注意力来构建篇章逻辑语义，实现了一种中文隐式篇章关系识别的新方法。

图1是本发明实施例提供的隐式篇章关系自动识别方法流程图；如图1所示，包括如下步骤：

S101，将篇章粒度的文本划分为若干个由篇章关系衔接的两个连续文本片段，将两个连续文本片段标记为第一论元和第二论元组成的篇章论元对；

S102，对第一论元和第二论元分别进行分词并标记词性，生成以空格为间隔的词序列，以便Word2Vec语言模型读取所述词序列；

S103，基于训练好的Word2Vec语言模型，分别将第一论元和第二论元对应的词序列中每一个词映射成高维数值向量，从而得到第一论元的矩阵表示和第二论元的矩阵表示；

S104，将第一论元的矩阵表示和第二论元的矩阵表示分别输入到三层注意力编码器TLA-Encoder和循环卷积编码器RC-Encoder中进行编码；在TLA-Encoder中计算得到包含交互特征的论元表示；在RC-Encoder中计算得到篇章论元的局部序列特征；

S105，利用外部注意机制将RC-Encoder得到的篇章论元的局部序列特征表示为一种外部记忆，融合TLA-Encoder得到的包含交互特征的论元表示，通过非线性变化得到篇章论元的融合特征向量表示；

S106，将所述融合特征向量表示送入SoftMax分类器中识别所述融合特征向量所属的篇章关系分类。

在一个具体的实施例中，本发明的识别流程如图2所示，主要分为三个部分：文本预处理、语言模型训练和篇章关系的识别；其中，文本预处理中首先将语料进行篇章单元切分，然后进行篇章关系标注，最后采用现有分词技术进行分词并标注词性，并去除停用词等语义无关单元；预训练语言模型阶段，利用Word2Vec技术用预处理后的文本训练语言模型，抽取文本中的语义特征，生成篇章论元的矩阵表示；此后将论元矩阵送入增强序列表示的注意力网络中，抽取其论元间的逻辑语义，引导生成最终的论元表示。最后在篇章关系分类器中完成中文隐式篇章关系的识别。

1.文本预处理

文本的预处理过程主要分为篇章单元划分，标注和分词。在该过程中，基于HIT-CDTB理论体系划分篇章单元、标注篇章关系和抽取篇章论元。然后采用Jieba工具包对语料分词、去停用词以及词性标注，将连续句子转换为字、词粒度的文本数据，以便后续对字、词进行向量转换。与此同时需要统计并生成词表，保存至vocab.txt。最后将文本预处理的结果用统一的数据文件格式进行保存。原始语料与标注好的语料如表1所示。

在表1实例中，原始语料中标明了课堂话语以及话语角色，显示了该篇章单元的话语场景。预处理后的语料中包括篇章单元中的两个论元，篇章关系的显隐式类别，篇章连接词以及具体的篇章关系分类。表1实例属于显式篇章关系，存在明显篇章连接词“因为”，属于“结果在先”的篇章关系类别。

表1原始语料与预处理后的语料实例

2.预训练语言模型

2.1 特征提取

预处理完语料后，篇章单元划分为论元对，每个论元对由以空格为间隔的词序列组成。将处理好的词序列用以训练语言模型，最后就可以得到每一个词的高维稠密向量表示，也就是该词在语料空间内的唯一数值映射。以某个篇章关系中的两个论元为例，首先将篇章中每个论元中的字词替换成词表中的序号，将原本论元中的字词序列转化为数字序列。通过训练好Word2Vec模型，再将每一个词与K维向量进行映射，那么一个具有N个词的论元就可以映射成N·K的二维矩阵，从而得到整个论元的矩阵表示。

2.2 向量化

2.2.1 数据集准备

本发明通过课堂话语标注语料共计108篇。由于不同类别语料分布不均，本发明仅选取了因果、比较、扩展和平行这四类语料展开实验，共计篇章关系8463种篇章关系。其中，因果、比较、扩展和平行这四种语料分别占19.21％，10.35％，43.56％和26.88％。实验过程中数据按9:1划分训练集和测试集。

2.2.2 Word2Vec模型的训练

利用课堂话语数据集，经过文本预处理之后，对词表文件vocab.txt进行加载训练。

(1)加载gensim包；

(2)加载词表文件vocab.txt中全部词汇进行训练；

(3)使用神经网络预训练模型Word2Vec对词表内容进行预训练，生成词汇权重矩阵E。保存当前模型参数至文件xxx.model中，方便后期的加载和使用。

3.篇章关系识别

3.1 基于增强序列表示的注意力网络构建篇章关系分类器

本发明采用Bi-LSTM和自注意力机制(Self-Attention)两种不同的编码方式来抽取论元特征，并对Bi-LSTM的序列编码进行卷积操作来过滤Bi-LSTM编码中的重要局部序列特征，增强论元的序列表示。此外，通过一种外部注意力将两种编码方式进行融合，使注意力网络结构中生成的最终论元表示中包含丰富的局部序列信息。本发明的模型框架如图3所示：

在该篇章关系分类器中，模型的主要构成和参数如下所述：

(1)模型通过词嵌入层将论元对Arg1和Arg2映射成高维矩阵表示，再将Arg1和Arg2的矩阵表示分别送入到三层注意力编码器(TLA-Encoder)和循环卷积编码器(RC-Encoder)中进行编码。其中，词嵌入层的输出作为TLA-Encoder和RC-Encoder的输入，其维度为100×300。

(2)在TLA-Encoder，Arg1和Arg2的矩阵表示分别输入到各自的自注意力层中计算每个论元的内部词对联系，然后将每个论元的内部词对联系通过两个交互注意力层计算得到论元间的交互表示，最后基于外部注意力机制复制交互论元表示，叠加自注意力层的词对联系，计算得到包含交互特征的论元表示。其中，自注意力和交互注意力的矩阵变换维度均为300×300。

(3)在RC-Encoder中，使用Bi-LSTM抽取Arg1和Arg2的双向序列表示，这种双向序列表示在通过图4的两次连续卷积操作抽取到论元的N-Gram特征，用N-Gram特征过滤出双向序列表示中重要的序列信息，从而得到篇章论元的局部序列表示。其中，Bi-LSTM的隐含层维度为600维，卷积步长为1和3，卷积结果采用边界填充的方式保证数据维度一致。

(4)最后外部注意机制以RC-Encoder得到的篇章论元的局部序列表示为一种外部记忆，融合TLA-Encoder得到的包含交互特征的论元表示，通过非线性变化得到篇章论元的融合特征向量表示。将这种融合特征向量表示送入分类器(SoftMax)中计算得到该向量所属的篇章关系分类。其中，SoftMax层的输出维度为4。

2.2 分类模型的训练

本发明通过课堂话语标注语料共计108篇。由于不同类别语料分布不均，本发明仅选取了因果、比较、扩展和平行这四类语料展开实验，共计8463种篇章关系实例。其中，因果、比较、扩展和平行这四种篇章关系分别为1626、876、3686和2275个。实验过程中数据按9:1划分训练集合测试集，其语料细节如表2所示。

表2语料数据集分布

2.3 分类模型的预测

将测试集语料送入已经训练好的隐式篇章关系识别模型中，得到如表3所示的分类结果。用微平均(Micro-F1)和宏平均(Macro-F1)作为主要的参考指标，并对每一个小类采用了调和平均值(F1)作为评估标准。因果、比较、扩展和平行四类的F1值分别为37.17％，19.51％，74.03％和72.34％；其中整体测试集的Micro-F1为64.68％，Macro-F1为52.55％。

表3预测效果

其中，F1＝2*P*R/(P+R)；P＝TP/(TP+FP)；R＝TP/(TP+FN)；P表示查准率，R表示查全率；如表4所示，TP(True Positive)表示正样例预测为正样例，FP(False Positive)表示负样例预测为正样例、FN(False Negative)表示正样例分类成负样例，TN(True Negative)表示负样例分类成负样例；Micro-F1与Macro-F1分别计算总的测试样例中的TP，FP、FN和TN后使用公式：Micro-F1使用总测试样本的预测结果混淆矩阵，Micro-F1＝2*P*R/(P+R)；Macro-F1等于各分类F1之和的平均值。

表4分类预测结果混淆矩阵

类别数	True	False
			Positive	TP	FP
Negative	TN	FN

图5为本发明实施例提供的一种隐式篇章关系自动识别系统架构图，如图5所示，包括：

篇章论元确定单元510，用于将篇章粒度的文本划分为若干个由篇章关系衔接的两个连续文本片段，将两个连续文本片段标记为第一论元和第二论元组成的篇章论元对；

词序列生成单元520，用于对第一论元和第二论元分别进行分词并标记词性，生成以空格为间隔的词序列，以便Word2Vec语言模型读取所述词序列；

论元矩阵确定单元530，用于基于训练好的Word2Vec语言模型，分别将第一论元和第二论元对应的词序列中每一个词映射成高维数值向量，从而得到第一论元的矩阵表示和第二论元的矩阵表示；

论元表示编码单元540，用于将第一论元的矩阵表示和第二论元的矩阵表示分别输入到三层注意力编码器TLA-Encoder和循环卷积编码器RC-Encoder中进行编码；在TLA-Encoder中计算得到包含交互特征的论元表示；在RC-Encoder中计算得到篇章论元的局部序列特征；

融合特征确定单元550，用于利用外部注意机制将RC-Encoder得到的篇章论元的局部序列特征表示为一种外部记忆，融合TLA-Encoder得到的包含交互特征的论元表示，通过非线性变化得到篇章论元的融合特征向量表示；

篇章关系识别单元560，用于将所述融合特征向量表示送入SoftMax分类器中识别所述融合特征向量所属的篇章关系分类。

具体地，图5中各个单元的功能可参见前述方法实施例中的详细介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种隐式篇章关系自动识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的隐式篇章关系自动识别方法，其特征在于，在TLA-Encoder中，第一论元的矩阵表示和第二论元的矩阵表示分别输入到各自的自注意力层中计算每个论元的内部词对联系，将每个论元的内部词对联系通过两个交互注意力层计算得到论元间的交互表示，基于外部注意力机制将所述每个论元内部词对联系和论元间的交互表示叠加，计算得到包含交互特征的论元表示。

3.根据权利要求1所述的隐式篇章关系自动识别方法，其特征在于，在RC-Encoder中，使用Bi-LSTM抽取第一论元矩阵表示和第二论元矩阵表示的双向序列表示，对所述双向序列表示通过两次连续卷积操作抽取得到第一论元和第二论元的N-Gram特征，用N-Gram特征过滤出双向序列表示中重要的序列信息，从而得到篇章论元的局部序列特征。

4.根据权利要求1所述的隐式篇章关系自动识别方法，其特征在于，所述SoftMax分类器可以识别的篇章关系类别数为4个，分别为因果、比较、扩展以及平行四种篇章关系。

5.一种隐式篇章关系自动识别系统，其特征在于，包括：

6.根据权利要求5所述的隐式篇章关系自动识别系统，其特征在于，所述论元表示编码单元在TLA-Encoder中，将第一论元的矩阵表示和第二论元的矩阵表示分别输入到各自的自注意力层中计算每个论元的内部词对联系，将每个论元的内部词对联系通过两个交互注意力层计算得到论元间的交互表示，基于外部注意力机制将所述每个论元内部词对联系和论元间的交互表示叠加，计算得到融合交互特征的论元表示。

7.根据权利要求5所述的隐式篇章关系自动识别系统，其特征在于，所述论元表示编码单元在RC-Encoder中，使用Bi-LSTM抽取第一论元的矩阵表示和第二论元的矩阵表示的双向序列表示，对所述双向序列表示通过两次连续卷积操作抽取得到第一论元和第二论元的N-Gram特征，用N-Gram特征过滤出双向序列表示中重要的序列信息，从而得到篇章论元的局部序列特征。

8.根据权利要求5所述的隐式篇章关系自动识别系统，其特征在于，所述篇章关系识别单元使用的SoftMax分类器可以识别的篇章关系类别数为4个，分别为因果、比较、扩展以及平行四种篇章关系。