CN107943852A

CN107943852A - 中文排比句识别方法及系统

Info

Publication number: CN107943852A
Application number: CN201711078736.0A
Authority: CN
Inventors: 宋巍; 刘彤; 刘丽珍
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-04-20
Anticipated expiration: 2037-11-06
Also published as: CN107943852B

Abstract

本发明提出一种中文排比句识别方法及系统，该方法包括以下步骤：选取目标数据集，其中，目标数据集中包括多种类型的文章；将当前文章中每两个句子构成一个句对，并对得到的句对构建不同维度的特征；根据随机森林方法构建分类模型，并将得到的特征作为模型输入，以根据预设的评价指标对特征进行筛选，得到一组最好的特征以对模型进行训练；根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。本发明能够对文章中的排比句进行有效识别和分类，进而对文章的自动打分和评价系统具有积极的促进作用。

Description

中文排比句识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种中文排比句识别方法及系统。

背景技术

排比句是一种非常重要的修辞手法。它的定义为：两个或两个以上的语义相关，语气相似，结构相同的句子组成的句对或句组。排比句的使用可以增加演讲或者写作的平衡感和节奏感，使其更具有生动性和说服力。此外，排比句的使用可以使整篇文章所表述的观点更加明确。表达形式相似的多个句子的组合在文章中的重要程度也是相同的。因此，适当的使用排比句可以提升文本的质量。

排比句识别工作是一个全新的课题，有很多因素需要考虑。由于排比句具有结构相似和语义相关的特点，这项工作可以看作成一种对齐。然而，这种对齐有不同的等级，从表面上的词汇模式到句法结构，语义甚至是情感的级别。此外，对齐也可以有很多粒度(词，短语，子句或者句子)。因此，设计一个合适的规则来解决排比句识别问题是很难的。

如何在序列中找到相同的部分是计算机科学领域的经典问题。典型问题包括查找最长公共子序列，最长公共子串和多重序列对齐，这些技术在计算生物学上也适用。之前的工作更多是的关注于文本的语义相似度。语义相似度经常是依赖于利用词的语义相似度，而词的语义相似度是基于分布统计学习而来。近来，基于神经网络的方法被应用于在大规模语料中学习词的分布式表示，学习到的词向量可以使相似的词在向量空间中距离更近，这种方法在复述任务上也适用。复述是指相同含义的不同表达。虽然复述任务与排比句识别工作相似，但是追求的目标是不同的，排比句不希望有相同的含义并且复述不需要有相同的结构。目前，许多研究利用句子的结构化属性来衡量文本的相似度，比如树核方法等。但是，目前的相关技术在对于自然语言处理中的对齐方式和粒度方面存在疏漏。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种中文排比句识别方法，该方法能够对文章中的排比句进行有效识别和分类，进而对文章的自动打分和评价系统具有积极的促进作用。

本发明的另一个目的在于提出一种中文排比句识别系统。

为了实现上述目的，本发明第一方面的实施例提出了一种中文排比句识别方法，包括以下步骤：选取目标数据集，其中，所述目标数据集中包括多种类型的文章；将当前文章中每两个句子构成一个句对，并对得到的所述句对构建不同维度的特征；根据随机森林方法构建分类模型，并将得到的所述特征作为模型输入，以根据预设的评价指标对所述特征进行筛选，得到一组最好的特征以对模型进行训练；根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

另外，根据本发明上述实施例的中文排比句识别方法还可以具有如下附加的技术特征：

在一些示例中，所述不同维度的特征至少包括：词对齐策略、序列对齐策略、树对齐策略、位置和长度特征。

在一些示例中，所述词对齐策略包括：精确匹配对齐方式、词性匹配对齐方式、句法规则匹配对齐方式、语义匹配对齐方式；所述序列对齐策略包括：最长公共子序列对齐方式、最长公共子串对齐方式、Needleman-Wunsch算法；所述位置和长度特征包括：邻接特征、位置对齐、长度差异和子句差异。

在一些示例中，所述预设的评价指标采用准确率、召回率和F值，所述根据预设的评价指标对所述特征进行筛选的方式如下：

其中，precision表示所述准确率，recall表示所述召回率。

在一些示例中，句组级别的准确率和召回率分别如下：

并且，

根据本发明实施例的中文排比句识别方法，通过对排比句式的观察，根据其特性设计多层次的特征并采用机器学习的方法对文章中的排比句式进行有效识别和分类，进而对文章自动打分和评价系统具有积极的促进作用。

为了实现上述目的，本发明第二方面的实施例提出了一种中文排比句识别系统，包括：选取模块，用于选取目标数据集，其中，所述目标数据集中包括多种类型的文章；构建模块，用于将当前文章中每两个句子构成一个句对，并对得到的所述句对构建不同维度的特征；训练模块，用于根据随机森林方法构建分类模型，并将得到的所述特征作为模型输入，以根据预设的评价指标对所述特征进行筛选，得到一组最好的特征以对模型进行训练；分类模块，用于根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

另外，根据本发明上述实施例的中文排比句识别系统还可以具有如下附加的技术特征：

在一些示例中，所述预设的评价指标采用准确率、召回率和F值，所述训练模块根据预设的评价指标对所述特征进行筛选的方式如下：

其中，precision表示所述准确率，recall表示所述召回率。

在一些示例中，句组级别的准确率和召回率分别如下：

并且，

根据本发明实施例的中文排比句识别系统，通过对排比句式的观察，根据其特性设计多层次的特征并采用机器学习的方法对文章中的排比句式进行有效识别和分类，进而对文章自动打分和评价系统具有积极的促进作用。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的中文排比句识别方法的流程图；

图2是根据本发明另一个实施例的中文排比句识别方法的详细流程示意图；

图3是根据本发明一个实施例的中文排比句识别系统的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以下结合附图描述根据本发明实施例中文排比句识别方法及系统。

图1是根据本发明一个实施例的中文排比句识别方法的流程图。图2是根据本发明另一个实施例的中文排比句识别方法的详细流程示意图。如图1所示，并结合图2，该方法包括以下步骤：

步骤S1：选取目标数据集，其中，目标数据集中包括多种类型的文章。

在具体示例中，例如，目标数据集例如是从某高中的某次模拟考试中获得学生的作文数据。作文的体裁包括议论文和记叙文，涵盖多种主题。例如使用两个标注人员对数据集中排比句进行标注，如何定义一个排比句根据个人的理解而定。分词工具例如哈工大的分词工具HIT-LTP。如果一个句子中词的个数少于4个，则舍弃。一个排比句组包括多个句子。

步骤S2：将当前文章中每两个句子构成一个句对，并对得到的句对构建不同维度的特征。

具体地说，在中文排比句的识别任务中，可以把其看成是一个分类任务，例如给定一篇文章，为文章中每两个句子构建一个二分类器去判断其是否为排比句。此外，可以通过句对的排比扩展到句组的排比。根据排比的定义，对齐可以包括词，语法结构和语义三个层面。对于所有的对齐方法，最基础的对齐体现在词之间的对齐。

基于此，在本发明的一个实施例中，不同维度的特征至少包括：词对齐策略、序列对齐策略、树对齐策略、位置和长度特征。

具体地，词对齐策略包括：精确匹配对齐方式、词性匹配对齐方式、句法规则匹配对齐方式、语义匹配对齐方式；序列对齐策略包括：最长公共子序列对齐方式、最长公共子串对齐方式、Needleman-Wunsch算法；位置和长度特征包括：邻接特征、位置对齐、长度差异和子句差异。

更为具体地，以下对词对齐策略、序列对齐策略、树对齐策略、位置和长度特征等进行详细描述。

1.词对齐策略：定义一个矩阵R用来表示词典V中两个符号的对齐。R(w，v)表示(w，v)对的对齐分数，其中w，v∈V。根据不同的假设，R(w，v)有不同的值。词对齐策略具体包括以下几种对齐方式：

1.1精确匹配：如果w＝v那么R(w，v)＝1，否则R(w，v)＝0。

1.2词性匹配：如果pos(w)＝pos(v)，那么R(w，v)＝1，否则R(w，v)＝0，其中pos(w)代表w的词性。

1.3句法规则匹配：如果syntacticrole(w)＝syntacticrole(v)，那么R(w,v)＝1，否则R(w，v)＝0，其中syntacticrole(w)表示w的句法规则。

1.4语义匹配：如果similarity(w，v)>threshold(阈值)，那么R(w，v)＝1，否则R(w，v)＝0，其中similarity(w，v)是w和v基于词向量计算出的语义相似度。词向量是词的分布式表示，它通过神经网络在大规模语料中训练得到的词的分布式表示。每一个词表示成一个实值向量，similarity(w，v)计算的是w和v的向量的余弦相似度。阈值例如设置为0.75。

2.序列对齐策略，其具体包括以下几种对其方式：

2.1最长公共子序列：本算法不要求子序列的位置是相邻的。排比的句子一般包含很长的公共子序列。最长公共子序列算法经常采用动态规划的方法来求解。

2.2最长公共子串：排比句在很大程度上是有公共子串的。因此，本实施例中也要算两个句子的最长公共子串。不同于最长公共子序列，最长公共子串要求公共子串的位置是相邻的。所以，高程度的最长公共子串也意味着一个高程度的位置对齐。因此，本发明的实施例使用最长公共子串的长度作为一个特征。

2.3Needleman-Wunsch算法：此算法广泛应用在计算生物学领域，用于查找基因的序列对齐。相比于最长公共子序列，此算法是在整条序列上寻找对齐，它能够最大化分数函数，分数函数是两条序列对齐元素对的分数的和。

3.树对齐策略：利用树对齐的方法对句法结构的相似性进行计算。树核方法是利用句法结构化属性的一个自然的方法，它能够在不枚举整个分段空间的情况下计算两个解析树的相似性。这里的解析树是指句法依存树。根据依存解析的性质，使用部分树核(Partial Tree kernel，PT)去衡量两棵树的相似性。此外，PT考虑了子序列的顺序，这一点也和排比句识别任务相符。

4.位置和长度特征：根据观察，排比句在文章中的位置也是有规律的。比如，它们经常出现在相同段落的连续位置，或者不同段落的相同位置。此外，它们具有相近的长度和相近的子句个数。位置和长度特征具体包括如下几种特征：

4.1邻接特征：如果两个句子在相同段落，则其句子索引的绝对距离小于3，本特征值设置为1，否则为0。

4.2位置对齐：如果两个句子在不同的段落，并且它们都是首句或者尾句，本特征值设置为1，否则为0。

4.3长度差异：两个句子的长度的差。

4.4子句差异：如果两个句子的子句数相同，本特征值设置为1，否则为0。子句的划分用逗号作为分割。

换言之，上述步骤S2即根据排比句的性质，对其构建不同维度的特征，其中包括词对齐策略，序列对齐策略，树对齐和位置及长度特征等。对不同的特征设置相应的参数，并对齐进行归一化处理。

步骤S3：根据机器学习中的随机森林方法构建分类模型，并将得到的特征作为模型输入，以根据预设的评价指标对特征进行筛选，得到一组最好的特征以对模型进行训练。

具体地，在本发明的一个实施例中，预设的评价指标采用准确率、召回率和F值，根据预设的评价指标对特征进行筛选的方式如下：

其中，precision表示准确率，recall表示召回率。

步骤S4：根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

其中，在本发明的一个实施例中，句组级别的准确率和召回率的计算方式分别如下：

并且，

进一步地，在具体示例中，针对得到的分类结果，分别对记叙文和议论文进行分析发现，学生在写作过程中，在议论文上使用排比句的频率明显高于记叙文，同时还发现，适当的使用排比句的文章分数普遍高于没有使用排比句的文章。

综上，本发明实施例的中文排比句识别方法的原理可概述为：采用句子级别的对齐方式来判断两个句子的相似程度，并把其实际应用到中文排比句的识别上，在训练模型时，根据排比句的性质设计合适的特征从而完成排比句的分类和排比句在文章中的识别任务。

本发明实施例的中文排比句识别方法，通过对排比句式的观察，根据其特性设计多层次的特征并采用机器学习的方法对文章中的排比句式进行有效识别和分类，进而对文章自动打分和评价系统具有积极的促进作用。

本发明的进一步实施例还提出了一种中文排比句识别系统。

图3是根据本发明一个实施例的中文排比句识别系统的结构框图。如图3所示，该中文排比句识别系统100包括：选取模块110、构建模块120、训练模块130和分类模块140。

其中，选取模块110用于选取目标数据集，其中，目标数据集中包括多种类型的文章。

构建模块120用于将当前文章中每两个句子构成一个句对，并对得到的句对构建不同维度的特征。

1.1精确匹配：如果w＝v那么R(w，v)＝1，否则R(w，v)＝0。

2.序列对齐策略，其具体包括以下几种对其方式：

2.3 Needleman-Wunsch算法：此算法广泛应用在计算生物学领域，用于查找基因的序列对齐。相比于最长公共子序列，此算法是在整条序列上寻找对齐，它能够最大化分数函数，分数函数是两条序列对齐元素对的分数的和。

4.3长度差异：两个句子的长度的差。

换言之，上述构建模块120即根据排比句的性质，对其构建不同维度的特征，其中包括词对齐策略，序列对齐策略，树对齐和位置及长度特征等。对不同的特征设置相应的参数，并对齐进行归一化处理。

训练模块130用于根据随机森林方法构建分类模型，并将得到的特征作为模型输入，以根据预设的评价指标对特征进行筛选，得到一组最好的特征以对模型进行训练。

具体地，在本发明的一个实施例中，预设的评价指标采用准确率、召回率和F值，训练模块130根据预设的评价指标对特征进行筛选的方式如下：

其中，precision表示准确率，recall表示召回率。

分类模块140用于根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

其中，在本发明的一个实施例中，句组级别的准确率和召回率分别如下：

并且，

综上，本发明实施例的中文排比句识别系统的原理可概述为：采用句子级别的对齐方式来判断两个句子的相似程度，并把其实际应用到中文排比句的识别上，在训练模型时，根据排比句的性质设计合适的特征从而完成排比句的分类和排比句在文章中的识别任务。

需要说明的是，本发明实施例的中文排比句识别系统的具体实现方式与本发明实施例的中文排比句识别方法的具体实现方式类似，具体请参见方法部分的描述，为了减少冗余，此处不再赘述。

本发明实施例的中文排比句识别系统，通过对排比句式的观察，根据其特性设计多层次的特征并采用机器学习的方法对文章中的排比句式进行有效识别和分类，进而对文章自动打分和评价系统具有积极的促进作用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种中文排比句识别方法，其特征在于，包括以下步骤：

选取目标数据集，其中，所述目标数据集中包括多种类型的文章；

将当前文章中每两个句子构成一个句对，并对得到的所述句对构建不同维度的特征；

根据随机森林方法构建分类模型，并将得到的所述特征作为模型输入，以根据预设的评价指标对所述特征进行筛选，得到一组最好的特征以对模型进行训练；

根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

2.根据权利要求1所述的中文排比句识别方法，其特征在于，所述不同维度的特征至少包括：词对齐策略、序列对齐策略、树对齐策略、位置和长度特征。

3.根据权利要求2所述的中文排比句识别方法，其特征在于，其中，

所述词对齐策略包括：精确匹配对齐方式、词性匹配对齐方式、句法规则匹配对齐方式、语义匹配对齐方式；

所述序列对齐策略包括：最长公共子序列对齐方式、最长公共子串对齐方式、Needleman-Wunsch算法；

所述位置和长度特征包括：邻接特征、位置对齐、长度差异和子句差异。

4.根据权利要求1所述的中文排比句识别方法，其特征在于，所述预设的评价指标采用准确率、召回率和F值，所述根据预设的评价指标对所述特征进行筛选的方式如下：

其中，precision表示所述准确率，recall表示所述召回率。

5.根据权利要求4所述的中文排比句识别方法，其特征在于，其中，句组级别的准确率和召回率分别如下：

并且，

6.一种中文排比句识别系统，其特征在于，包括：

选取模块，用于选取目标数据集，其中，所述目标数据集中包括多种类型的文章；

构建模块，用于将当前文章中每两个句子构成一个句对，并对得到的所述句对构建不同维度的特征；

训练模块，用于根据随机森林方法构建分类模型，并将得到的所述特征作为模型输入，以根据预设的评价指标对所述特征进行筛选，得到一组最好的特征以对模型进行训练；

分类模块，用于根据训练后的模型，在新的测试测试集上对排比句进行抽取，并将抽取的句对组合成句组进行评价，以将句对的分类扩展为句组的分类。

7.根据权利要求6所述的中文排比句识别系统，其特征在于，所述不同维度的特征至少包括：词对齐策略、序列对齐策略、树对齐策略、位置和长度特征。

8.根据权利要求7所述的中文排比句识别系统，其特征在于，其中，

9.根据权利要求6所述的中文排比句识别系统，其特征在于，所述预设的评价指标采用准确率、召回率和F值，所述训练模块根据预设的评价指标对所述特征进行筛选的方式如下：

其中，precision表示所述准确率，recall表示所述召回率。

10.根据权利要求9所述的中文排比句识别系统，其特征在于，其中，句组级别的准确率和召回率分别如下：

并且，