CN107168956B

CN107168956B - 一种基于管道的中文篇章结构分析方法及系统

Info

Publication number: CN107168956B
Application number: CN201710385741.XA
Authority: CN
Inventors: 鉴萍; 张辰蔚; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2020-06-02
Anticipated expiration: 2037-05-26
Also published as: CN107168956A

Abstract

本发明涉及一种基于管道的中文篇章结构分析方法及系统，属于自然语言处理应用技术领域；本发明根据中文篇章结构的特点，自下而上地处理句内和句间关系，使得预测句间或更高层次篇章关系时可以动态地利用已识别的句内关系，实现对动态特征的建模。本发明针对管道形式中存在的错误传递问题，将传统端到端模型中的显式篇章关系分析中的三个子任务整合为一个任务，转化为一个序列标注问题并加以实现；本发明利用排序学习的思想缓解了隐式篇章关系判别中存在的篇章关系分布不平衡的问题。

Description

一种基于管道的中文篇章结构分析方法及系统

技术领域

本发明涉及一种基于管道的中文篇章结构分析方法及系统，属于自然语言处理应用技术领域。

背景技术

一般来说，没有任何一个文本单元是完全孤立的，通常是通过将其与上下文中的其它文本单元相连接来理解。这些单元可以是子句，句子甚至段落。当文本单元之间相互关联，该文本就会更容易理解。篇章结构分析旨在揭示文本中的这种关系，从而从整体上把握篇章，有助于自动摘要，信息检索和自动问答等诸多下游应用。近年来，相较于英文篇章结构分析研究的飞速发展，中文篇章结构分析目前正处于起步阶段。目前对中文篇章的研究多是借鉴西方现代篇章语言学理论和分析模式，没有建立适合自身特点的理论体系和计算方法。除此以外，由于中文篇章结构分析发展的滞后，完整的中文篇章结构自动分析工具的研究与实践都相对匮乏。一般来说，中文篇章关系分析系统在结构上与英文篇章关系分析系统类似，都需要以下步骤：显式连接词判定、基本篇章单元划分、显式篇章关系标注和隐式篇章关系标注。在传统的方法中，篇章分析系统将以上步骤视为不同的子模块，按照级联的形式将各个子模块拼接在一起形成完整的管道式系统。这种管道系统的弊端在于其存在较大的错误传递问题，连接词识别中的噪声往往会影响连接词识别的准确率，导致连接词判定模块会将错误的连接词传递给后续的篇章单元划分及显式关系标注，从而导致系统整体性能下降。

隐式篇章关系的判别是篇章结构分析中的重点及难点，从篇章标注语料匮乏时期的无监督学习，到如今基于深度学习的方法，针对隐式篇章关系分析的研究逐步深入。然而，不论是基于特征提取的隐式篇章关系判别还是基于深度学习的方法，隐式关系判别中存在的标注语料匮乏和篇章关系分布不平衡的问题依然没得到缓解。

因此，目前迫切需要一个较为高效的中文篇章结构分析方法，在缓解传统端到端系统中存在的错误传递问题的同时，针对篇章语料中篇章关系分布不平衡问题提出有效的缓解方法，以提升隐式篇章关系判别的性能，最终为后续自然语言处理任务带去便利。

发明内容

本发明的目的是为解决以往中文篇章结构分析中存在的传统端到端系统的方法没有考虑中文语言特点的问题，传统管道系统方法中错误传递问题，中文隐式篇章关系判别中语料分布不平衡问题。针对上述问题，本发明提出基于管道的中文篇章结构分析方法，根据中文篇章结构的特点，实现对动态特征的建模用以提高关系判别准确率。与传统端到端系统不同的是，本发明提出了一体化显式篇章关系分析方法以缓解管道系统中存在的错误传递问题，与此同时，针对中文隐式篇章关系语料的不平衡问题，本发明提出了基于排序学习的中文隐式篇章关系分析方法以提升中文隐式篇章关系判别精度。

本发明技术方案的思想是：首先，根据中文篇章语料库具有层次性这个特点，以自然段为单元，自下而上的分别处理句内和句间关系，使得预测句间或更高层次篇章关系时可以动态地利用已识别的句内关系，以此做到对动态特征的建模；其次，将传统端到端系统中的显式篇章关系分析中的三个子任务：篇章连接词判定、论元划分和显式关系判别整合为一个任务，转化为一个序列标注问题并加以实现，缓解了传统管道系统中的错误传递问题；最后，采用排序学习的方法平衡隐式篇章关系语料，以简单多分类结果中各关系的偏离情况作为基础打分规则，论元长度为偏置，将传统二分类中的0、1标签变更为0-1之间的实数标签，采用Pairwise算法实现。

本发明的具体技术方案如下：

一种基于管道的中文篇章结构分析方法，该方法包括以下步骤：

步骤一、进行语料预处理：对输入的语料，进行中文分词、中文词性标注、句法分析；

步骤二、进行篇章连接词闭集构建：统计中文篇章关系树库(Chinese DiscouseTreebank，CDTB)语料中所出现过的所有篇章连接词，将其制成一个篇章连接词表，在构建过程中仅保留在语料库中出现次数高于设定频次阈值的篇章连接词，最终形成连接词闭集；

步骤三、进行词的embedding表示：使用大规模语料库训练word2vec，将每个单词映射到向量空间的低维向量，从而表示每个单词的语义；

步骤四、构建一体化显式篇章分析模型：对步骤一处理过的分词文本进行序列标注的训练得到显式篇章一体化分析模型，在该模型中可同时完成篇章连接词识别、论元划分以及篇章关系标注三项任务；

实现步骤如下：

(1)首先设定标注集合，在一体化显式关系标注中，需要同时对连接词、论元以及篇章关系进行标注，所以设定标注分类为：

1)Arg1：该词为论元1的一部分。

2)Arg2：该词为论元2的一部分。

3)Expansion：该词为篇章连接词，且该句为扩展关系。

4)Temporal：该词为篇章连接词，且该句为时序关系。

5)Comparison：该词为篇章连接词，且该句为转折关系。

6)Contingency：该词为篇章连接词，且该句为因果关系。

7)0：该词既不为篇章连接词，也不属于任何论元的部分。

(2)提取上下文特征以用于分类器的训练及测试，所提特征为词法特征和句法特征；

(3)将上述步骤中获得的数据输入到CRF++工具中，参数采用默认参数值，得到显式关系分析结果，输出至Explicit relation文件中。

步骤五、进行有用词对抽取：在训练语料的论元中分别抽取一词作为词对，统计各词在各篇章类别中的信息增益值大小，选取高于阈值的词对构建有用词对表；

步骤六、构建排序语料打分机制：对于正样本，设定其标签为1；对于负样本，按照其偏离正样本的程度对其进行打分，分数范围为0-1之间的实数，得到分类语料；

步骤七、构建基于排序学习的隐式篇章关系分类器：将步骤六中的得到的语料输入分类器中最终得到打分预判结果。

步骤八、识别完成：将所得到的结果进行输出，输出文件中包含篇章连接词、论元以及篇章关系类别。

一种基于管道的中文篇章结构分析系统，包括：

预处理模块：对于输入的语料，进行包括中文分词、中文词性标注以及句法分析，分别将处理结果存入三个中间文件，以供连接词识别模块、句内关系处理模块及句间关系处理模块调用；

连接词识别模块：输入来自于预处理模块处理后的中文分词文件、中文词性标注文件、句法分析文件，其中，中文词性标注及句法分析文件用于连接词分类过程中特征的提取。该模块将中文分词文件中的单词进行连接词的识别，并将识别后的连接词进行分类，将其分为句内连接词及句间连接词，按照其类别分别输出为两个中间文件，并分别供句内关系处理模块和句间关系处理模块调用；

句内关系处理模块：输入来自于预处理模块处理后的中文分词文件及连接词识别模块处理后的句内连接词文件。该模块内部包括句内显式篇章分析模块及句内隐式篇章分析模块，其中，句内显式篇章分析模块用于句内显式论元提取及句内显式关系判别，其输入与句内关系处理模块的输入一致，输出为句内显式篇章分析文件，文件中包含有句内连接词识别结果、句内显式论元判别结果、句内显式关系判别结果；句内隐式篇章分析模块用于句内隐式论元提取及句内隐式关系判别，其输入除了句内关系处理模块的输入以外，还包含了句内显式篇章分析文件，输出为句内隐式篇章分析文件，文件中包含有句内隐式论元判别结果及句内隐式关系判别结果。该模块两个输出文件流向句间关系处理模块及输出模块。

句间关系处理模块：输入来自于预处理模块处理后的中文分词文件、连接词识别模块处理后的句间连接词文件、句内关系处理模块处理后的句内显式篇章分析文件及句内隐式篇章分析文件。该模块内部包括句间显式篇章分析模块及句间隐式篇章分析模块，其中，句间显式篇章分析模块用于句间显式论元提取及句间显式关系判别，其输入与句间关系处理模块的输入一致，输出为句间显式篇章分析文件，文件中包含有句间连接词识别结果、句间显式论元判别结果、句间显式关系判别结果；句间隐式篇章分析模块用于句间隐式论元提取及句间隐式关系判别，其输入除了句间关系处理模块的输入以外，还包含了句间显式篇章分析文件，输出为句间隐式篇章分析文件，文件中包含有句间隐式论元判别结果及句间隐式关系判别结果。该模块的两个输出文件流向输出模块。

输出模块：输入句内关系处理模块和句间关系处理模块处理后的文件。最终输出为一个文件，该文件中包含有对于输入文档的篇章结构分析结果。

有益效果

对比现有技术，本发明具有以下有益效果：

(1)以中文篇章结构分析为出发点，本发明弥补了现有研究中完整的中文篇章结构自动分析工具缺失的问题，并根据中文篇章结构的特点进行了针对性设计，使系统能够完成动态特征的建模；

(2)通过一体化显式关系分析方法，缓解了传统管道中存在的错误传递问题，全面提升了各项子模块的性能；

(3)对于隐式篇章关系判别中存在的语料分布不平衡的现象，通过排序学习的思想对其进行有效的缓解，提升了关系判别精度。

附图说明

图1为本发明实施例提供的方法及系统架构图。

图2为本发明实施例提供的基于管道的中文篇章结构分析系统中句内关系处理模块和句间关系处理模块的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明提供的一种基于管道的中文篇章结构分析方法及装置作进一步详细说明。

本发明实施例提供的一种基于管道的中文篇章结构分析方法架构如图1所示，具体实现过程如下：

根据步骤一，进行语料预处理，实现步骤如下：

(1)对于输入文本，使用FudanNLP进行中文分词以及词性标注，所得结果分别保存在文件Raw和文件Pos作为后续使用；

(2)对于输入文本，使用Stanford Parser进行句法分析，分析后结果存入Parser文件以供后续使用。

根据步骤二，进行篇章连接词闭集的构建，实现步骤如下：

(1)统计CDTB语料中所有出现过的篇章连接词，以及每个连接词出现的次数，将结果存入连接词词表文件中；

(2)对于(1)中的每一个连接词，剔除出现次数低于10次的篇章连接词，最终形成一个仅包含141个篇章连接词的连接词闭集，结果存入篇章连接词闭集文件中。

根据步骤三，进行词的embedding表示，实现步骤如下：

(1)获取训练语料，获取新华社中文新闻语料2.21GB，在每一句最后加入句子结尾标记<end>，作为后续输入；

(2)使用word2vec工具训练词向量，选择cbow模型，输出维度为200，学习率设置为1e-3，窗口大小设置为5，训练之后得到词向量文件。

根据步骤四，构建一体化显式篇章分析模型，实现步骤如下：

1)Arg1：该词为论元1的一部分。

2)Arg2：该词为论元2的一部分。

3)Expansion：该词为篇章连接词，且该句为扩展关系。

4)Temporal：该词为篇章连接词，且该句为时序关系。

5)Comparison：该词为篇章连接词，且该句为转折关系。

6)Contingency：该词为篇章连接词，且该句为因果关系。

7)0：该词既不为篇章连接词，也不属于任何论元的部分。

(2)提取上下文特征以用于分类器的训练及测试，所提特征为词法特征和句法特征，具体的特征为：

根据步骤五，进行有用词对的抽取，实现步骤如下：

(1)设置训练语料集合T的隐式篇章关系数为N，某个类别的数量用n_i表示，其中i∈{1，2，3，4}，分别为Comparison，Contingency，Expansion和Temporal，

(2)遍历训练语料集合T，针对每一词对t，分别统计出现在对应类别的隐式篇章关系的频数t_i，i∈{1，2，3，4}；

(3)计算对应词对的信息增益值，计算公式如下：

其中，IG(t)表示词对t的信息增益值，H(n)表示类别n的熵，H(n|t)表示条件熵。针对每一词对，均可计算出该词对对于隐式篇章关系分类的贡献程度，将所有词对按照信息增益值大小排序，选取IG(t)值不小于1e-5的词对构成有用词对集合T'。

根据步骤六，构建排序语料打分机制，其实现步骤如下：

(1)首先使用传统四分类的方法对各类关系进行偏差统计：提取语料中各论元的词对特征，用步骤五中的有用词对表进行有用词对的筛选，并用步骤三中的词向量表将词对转化为词对向量，使用SVM分类得到四分类结果；

(2)统计在CDTB语料中四类篇章关系的论元平均长度，将四类关系分别存入四个不同的文件中，分别遍历得到结果以供后续使用；

(3)对于(1)中所得分类结果，按照其偏离程度分别设定偏离的基础分，并采用(2)中的结果对偏离基础分进行修正，以完成对训练样本的构造。

根据步骤七，进行基于排序学习的隐式篇章关系分类器的构建，具体过程为：

(1)提取论元的相关特征，包括显式篇章关系结果、论元长度特征、有用词对数量特征、有用词对特征及句法特征；

(2)使用上述步骤六中的打分机制对(1)中的语料进行打分，构建训练语料；

(3)输入至SVM^Rank工具中进行训练，得到模型，并使用该模型对测试语料进行打分；

(4)选取打分高于0.8分的样本为正样本，低于0.8分的样本为负样本，得到分类结果，并输出至Implicit relation文件中。

基于同一发明构思，本发明实施例中还提供了一种基于管道的中文篇章结构分析系统，由于该装置解决问题的原理与前述一种基于管道的中文篇章结构分析方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的一种基于管道的中文篇章结构分析系统，包括：

预处理模块：对于输入的语料，对其进行包括中文分词、中文词性标注以及句法分析，分别将处理结果存入三个中间文件Raw、POS、Parser以供连接词识别模块、句内关系处理模块及句间关系处理模块调用；

连接词识别模块：用于连接词的识别及初分。该模块的输入来自于预处理模块处理后的中文分词文件Raw、中文词性标注文件Pos、句法分析文件Parser，其中Pos和Parser文件用于连接词分类过程中特征的提取。该模块将中文分词文件中的单词进行连接词的识别，并将识别后的连接词进行分类，将其分为句内连接词及句间连接词，按照其类别分别输出为两个中间文件SS和PS，并分别供句内关系处理模块和句间关系处理模块调用；

句内关系处理模块：用于句内篇章结构分析。该模块的输入来自于预处理模块处理后的中文分词文件Raw及连接词识别模块处理后的句内连接词文件SS。该模块内部包括句内显式篇章分析模块及句内隐式篇章分析模块，其中句内显式篇章分析模块用于句内显式论元提取及句内显式关系判别，其输出为句内显式关系处理文件Explicit_SS，文件中包含有句内连接词识别结果、句内显式论元判别结果、句内显式关系判别结果；句内隐式篇章分析模块用于句内隐式论元提取及句内隐式关系判别，其输出为句内隐式关系处理文件Implicit_SS，文件中包含有句内隐式论元判别结果及句内隐式关系判别结果。

所述句内关系处理模块，如图2所示，其句内显式篇章关系判别的结果作为输入流向句内隐式篇章分析模块，同时地，句内关系处理模块中句内显式篇章关系判别结果以及句内隐式篇章关系判别结果均作为输入流向句间关系处理模块。

进一步地，本发明实施例提供的基于管道的中文篇章结构分析装置，还包括句间关系处理模块。

句间关系处理模块：用于句间篇章结构分析。该模块的输入来自于预处理模块处理后的中文分词文件Raw、连接词识别模块处理后的句间连接词文件PS、句内关系处理模块处理后的句内显式篇章分析文件Explicit_SS及句内隐式篇章分析文件Implicit_SS。该模块内部包括句间显式篇章分析模块及句间隐式篇章分析模块，其中句间显式篇章分析模块用于句间显式论元提取及句间显式关系判别，输出为句间显式篇章分析文件Explicit_PS，文件中包含有句间连接词识别结果、句间显式论元判别结果、句间显式关系判别结果；句间隐式篇章分析模块用于句间隐式论元提取及句间隐式关系判别，输出为句间隐式篇章分析文件Implicit_PS，文件中包含有句间隐式论元判别结果及句间隐式关系判别结果。

所述句间关系处理模块，如图2所示，其句间显式关系判别的结果作为输入流向句间隐式篇章分析模块。

进一步地，本发明实施例提供的基于管道的中文篇章结构分析装置，还包括输出模块。

输出模块：用于对已判别的关系进行输出。该模块的输入来自于句内关系处理模块和句间关系处理模块。最终输出为一个文件Output，该文件中包含有对于输入文档的篇章结构分析结果。

Claims

1.一种基于管道的中文篇章结构分析方法，其特征在于，包括以下步骤：

步骤S1、进行语料预处理：对输入的语料，进行中文分词、中文词性标注、句法分析；

步骤S2、进行篇章连接词闭集构建：统计中文篇章关系树库语料中所出现过的所有篇章连接词，将其制成一个篇章连接词表，在构建过程中仅保留在语料库中出现次数高于设定频次阈值的篇章连接词，最终形成连接词闭集；

步骤S3、进行词的embedding表示：使用大规模语料库训练word2vec，将每个单词映射到向量空间的低维向量，从而表示每个单词的语义；

步骤S4、构建一体化显式篇章分析模型：对步骤S1处理过的分词文本进行序列标注的训练得到所述一体化显式篇章分析模型，在所述一体化显式篇章分析模型中可同时完成篇章连接词识别、论元划分以及篇章关系标注三项任务；

步骤S5、进行有用词对抽取：在训练语料的论元中分别抽取一词作为词对，统计各词在各篇章类别中的信息增益值大小，选取高于阈值的词对构建有用词对表；

步骤S6、构建排序语料打分机制：对于正样本，设定其标签为1；对于负样本，按照其偏离正样本的程度对其进行打分，分数范围为0-1之间的实数，得到分类语料，排序语料打分机制的构建包含以下步骤：

步骤61、统计分类偏差：提取语料中各论元的词对特征，用有用词对表进行有用词对的筛选，并用词向量表将词对转化为词对向量，使用SVM分类得到四分类结果；

步骤62、统计论元平均长度：统计在CDTB语料中四类篇章关系的论元平均长度，将四类关系分别存入四个不同的文件中，分别遍历得到结果以供后续使用；

步骤63、对样本打分：对于步骤61中所得分类结果，按照其偏离程度分别设定偏离的基础分，并采用步骤62中的结果对偏离基础分进行修正，以完成对训练样本的构造；

步骤S7、构建基于排序学习的隐式篇章关系分类器：将步骤S6中的得到的语料输入分类器中最终得到打分预判结果，基于排序学习的隐式篇章关系分类器的构建包含以下步骤：

步骤71、提取论元特征：提取论元的相关特征，包括显式篇章关系结果、论元长度特征、有用词对数量特征、有用词对特征及句法特征；

步骤72、对样本打分：使用排序语料打分机制对步骤71中的语料进行打分，构建训练语料；

步骤73、训练及测试语料：将步骤72中所得的训练语料输入至SVM^Rank工具中进行训练，得到一体化显式篇章分析模型，并使用所述一体化显式篇章分析模型对测试语料进行打分；

步骤74、样本类别划分：选取打分高于0.8分的样本为正样本，低于0.8分的样本为负样本，得到分类结果，并输出至文件中；

步骤S8、识别完成：将所得到的结果进行输出，输出文件中包含篇章连接词、论元以及篇章关系类别。

2.根据权利要求1所述的一种基于管道的中文篇章结构分析方法，其特征在于，一体化显式篇章分析模型的构建包含以下步骤：

步骤一、设定标注集合：在一体化显式关系标注中，需要同时对连接词、论元以及篇章关系进行标注，所以设定标注分类为：

1)Arg1：论元1的一部分，

2)Arg2：论元2的一部分，

3)Expansion：篇章连接词，且为扩展关系，

4)Temporal：篇章连接词，且为时序关系，

5)Comparison：篇章连接词，且为转折关系，

6)Contingency：篇章连接词，且为因果关系，

7)0：既不为篇章连接词，也不属于任何论元的部分；

步骤二、提取上下文特征：提取上下文特征以用于分类器的训练及测试；

步骤三、输入至分类器中：将所述步骤一和所述步骤二中获得的数据输入到CRF++工具中，参数采用默认参数值，得到显式关系分析结果，输出至Explicit relation文件中。