CN108241609B

CN108241609B - 排比句识别方法及系统

Info

Publication number: CN108241609B
Application number: CN201611206317.6A
Authority: CN
Inventors: 巩捷甫; 付瑞吉; 胡国平; 宋巍; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2022-02-01
Anticipated expiration: 2036-12-23
Also published as: CN108241609A

Abstract

本发明公开了一种排比句识别方法及系统，该方法包括：接收待分析文本；对所述文本进行结构化处理；从处理后的文本中获取候选排比句组；从所述排比句组中提取排比句特征；利用所述排比句特征对所述候选排比句组进行排比句识别判定。本发明从抽象出的排比句特有特征进行文本分析，从而可以得到全面、准确的识别判断结果。

Description

排比句识别方法及系统

技术领域

本发明涉及文本理解等技术领域，具体涉及一种排比句识别方法及系统。

背景技术

随着人工智能技术的不断发展，机器对于文本的理解越来越深入。近年来，对于文本的语义分析，特别是作文的分析，已经取得了阶段性的成果，其包括作文的自动评分、批改等。排比手法的识别，作为作文评分中十分重要的指标之一，也一直是相关领域研究人员研究的热点。

现有的排比手法的识别，大多还是根据预先设定的固定句式、关键词的识别进行判断，然而像作文这种主观题，其写法是及其多样化的，不可能罗列所有排比句的形式，进而采用现有的排比手法识别方法，势必造成无法较全面、准确地识别排比的后果。

发明内容

本发明实施例提供一种排比句识别方法及系统，以提高排比句识别的准确性及全面性。

为此，本发明提供如下技术方案：

一种排比句识别方法，包括：

接收待分析文本；

对所述文本进行结构化处理；

从处理后的文本中获取候选排比句组；

从所述候选排比句组中提取排比句特征；

利用所述排比句特征对所述候选排比句组进行排比句识别判定。

优选地，所述对所述文本进行结构化处理包括：

对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构。

优选地，所述从处理后的文本中获取候选排比句组包括：

对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到连续性编号，将这些连续性编号所对应的句子，组成第一排比句组，所述第一排比句组中包含相同词语连续出现的候选排比句；

对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到满足设定规则的间歇性编号，将这些间歇性编号所对应的句子，组成第二排比句组，所述第二排比句组中包含相同词语有规则间歇性出现的候选排比句；

将所述第一排比句组和所述第二排比句组组成候选排比句组。

优选地，所述从处理后的文本中获取候选排比句组还包括：

对所述候选排比句组中的候选排比句进行去重处理。

优选地，所述排比句特征包括：句子长度特征、公共子序列特征、首个公共子序列的位置、因果递进关系特征向量；所述句子长度特征包括：候选排比句组中句子最大长度与最小长度的长度差、候选排比句组中句子长度比率；所述公共子序列特征包括：句首公共子序列特征、句子整体公共子序列特征。

优选地，所述方法还包括预先按以下方式构建排比识别模型：

确定排比识别模型的拓扑结构；

收集训练数据，并对所述训练数据进行排比句标注；

提取所述训练数据的排比句特征；

基于所述排比句特征及标注信息，训练得到排比识别模型参数；

所述利用所述排比句特征对所述候选的排比句组进行排比句识别判定包括：

利用所述排比句特征及预先构建的排比识别模型对所述候选的排比句组进行排比句识别判定。

优选地，所述排比识别模型为分类模型或回归模型。

一种排比句识别系统，包括：

接收模块，用于接收待分析文本；

结构化处理模块，用于对所述文本进行结构化处理；

挑选模块，用于从处理后的文本中获取候选排比句组；

特征提取模块，用于从所述候选排比句组中提取排比句特征；

判断模块，用于利用所述排比句特征对所述候选排比句组进行排比句识别判定。

优选地，所述结构化处理模块，具体用于对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构。

优选地，所述挑选模块包括：

第一挑选单元，用于对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到连续性编号，将这些连续性编号所对应的句子，组成第一排比句组，所述第一排比句组中包含相同词语连续出现的候选排比句；

第二挑选单元，用于对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到满足设定规则的间歇性编号，将这些间歇性编号所对应的句子，组成第二排比句组，所述第二排比句组中包含相同词语有规则间歇性出现的候选排比句；

组合单元，用于将所述第一排比句组和所述第二排比句组组成候选排比句组。

优选地，所述挑选模块还包括：

去重单元，用于对所述候选排比句组中的候选排比句进行去重处理。

优选地，所述系统还包括模型构建模块，用于预先构建排比识别模型；所述模型构建模块包括：

拓扑结构确定单元，用于确定排比识别模型的拓扑结构；

数据收集单元，用于收集训练数据，并对所述训练数据进行排比句标注；

提取单元，用于提取所述训练数据的排比句特征；

训练单元，用于基于所述排比句特征及标注信息，训练得到排比识别模型参数；

所述判断模块，具体用于利用所述排比句特征及预先构建的排比识别模型对所述候选的排比句组进行排比句识别判定。

优选地，所述排比识别模型为分类模型或回归模型。

本发明实施例提供的排比句识别方法及系统，通过对待分析文本进行结构化，然后根据排比句的相邻句子或相近句子有相同词语的特点，抽取出候选排比句组，再进一步根据排比句特征识别判断候选排比句组中的句子是否为排比句。本发明实施例从抽象出的排比句特有特征进行文本分析，从而可以得到全面、准确的识别判断结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例排比句识别方法的流程图；

图2是本发明实施例中结构化数据存储结构示意图；

图3是本发明实施例中构建排比识别模型的流程图；

图4是本发明实施例排比句识别系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例排比句识别方法的流程图，包括以下步骤：

步骤101，接收待分析文本。

所述待分析文本可以是一个段落，或者是包含多个段落的篇章等。

步骤102，对所述文本进行结构化处理。

所述结构化处理是指对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构，如图2所示。

步骤103，从处理后的文本中获取候选排比句组。

根据排比句的特点，通常会有以下两类排比句：

(1)相同词语连续出现的排比句

例如，“<1，开心的是我><2，幸福的是我><3，快乐的是我>”；

(2)相同词语有规则间歇性出现的排比句

例如，“<1，我们无法忘记柴静的文字><2，是践行><3，让她认知到了最真实的声音><4，我们无法忘记齐白石的笔墨><5，是践行><6，让他认知到了最灵动的情态><7，我们更无法忘记失视的转型><8，是践行><9，让它认知到了解众的渴求><10，让它赢得了更多人的青睐>”，其中，编号1、4、7以及2、5、8以及3、6、9的句子均单独构成了排比。

针对上述这两类排比句的特点，本发明方法实施例可以从处理后的文本中挑选出符合其特点的候选排比句，组成候选排比句组。具体如下：

(1)对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到连续性编号，将这些连续性编号所对应的句子，组成第一排比句组，所述第一排比句组中包含相同词语连续出现的候选排比句。由于这些句子包含了相同的词语，极有可能是为了加强语气而使用相同的词语的排比句组。因此，挑选出这些连续编号所对应的句子的内容，组成候选排比句组。

(2)对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到满足设定规则的间歇性编号，将这些间歇性编号所对应的句子，组成第二排比句组，所述第二排比句组中包含相同词语有规则间歇性出现的候选排比句。所述设定规则可以是编号从小到大、编号间相邻的两个编号差小于设定的编号差阈值(如编号差阈值为5)，如果现在有个包含相同词语的间歇性句子编号为1、7、9，那么此不能作为候选排比句组。

为了将这两种类型的排比句都能够识别出来，在本发明实施例中，还可进一步将上述第一排比句组和第二排比句组组成候选排比句组。

在抽取候选排比句组候选抽取的时候，可能会出现几个句子中的一个词将这几个句子定为候选排比句，而这几个句子中的另一个词也将这几个句子定为候选排比句，这种情况下就会出现候选排比句重复的问题，所以在得到候选排比句组后，还可进一步通过排比句组去重的处理，减少后续识别工作量。

步骤104，从所述候选排比句组中提取排比句特征。

所述排比句特征包括以下四大类：句子长度特征、公共子序列特征、首个公共子序列的位置、因果递进关系特征向量。其中，所述句子长度特征主要包括候选排比句组中最大长度与最小长度的长度差、候选排比句组中句子长度比率；所述公共子序列特征包括：句首公共子序列特征、句子整体公共子序列特征。

上述各特征具体描述如下：

顾名思义，候选排比句组中句子最大长度与最小长度的长度差是指最大长度与最小长度的差值，分别获取候选排比句组中各句子的长度，从中选出最大长度和最小长度，将两者相减，即可得到该差值。

候选排比句组中句子长度比率具体指候选排比句组中所有句子进行两两计算长度比率，然后取其中最大和最小的长度比率。

所述句首公共子序列特征指的是判断候选排比句组中每个句子的句首是否有公共子序列，若有为1，否则为0。由于各个候选排比句组中包含的句子数量并不是一致的，所以可以对排比句中句子数量设定一个固定数量N(如20)，那么此时句首公共子序列特征即为一个长度为N(如20)的一维向量，对于候选排比句组中句子数目小于N的，空缺的句子对应特征置为0。

所述句子整体公共子序列特征指候选排比句组中出现的公共子序列长度/所有句子平均长度。

所述首个公共子序列的位置特征具体指候选排比句组中第一个出现的公共子序列在每个句子中的相对位置，即(句子中公共子序列前面字数+1)/(子序列后面字数+1)，该位置特征与上述首公共子序列特征类似，为一个长度为N的一维向量。如“<1、童年就像一阵风似的><2、童年就像初升的太阳似的><3、童年就像含苞待放的花朵似的>”中第一个出现的公共子序列为“童年就像”，其在句子1中的相对位置为1/6，在句子2中的相对位置为1/8，在句子3中的相对位置为1/10那么该候选排比句组的首个公共子序列的位置特征为[1/6，1/8，1/10，0，0…0]。

所述因果递进关系特征是一个长度为1的一维向量，如果判定候选排比句组中句子有因果递进关系，则为1，否则为0。因果递进关系的判断可以由预先收集的固定句型、关键词等进行判断。

步骤105，利用所述排比句特征对所述候选排比句组进行排比句识别判定。

具体地，可以采用基于模型的方法。采用基于模型的方法是指预先构建排比识别模型，利用排比句特征及排比识别模型对候选的排比句组进行排比句识别判定。所述排比识别模型可以采用分类模型或回归模型。排比识别模型的输入为各排比句特征包括长度特征、公共子序列特征、首个公共子序列的位置特征以及因果递进关系特征；如果采用分类模型，则输出为当前句是否为排比句，如果采用回归模型，则输出为当前句是排比句的得分，根据预先设定的得分阈值进行排比句识别判定，得分大于阈值，则确定是排比句，否则不是排比句。

图3示出了本发明实施例中排比识别模型的构建流程，包括以下步骤：

步骤301，确定排比识别模型的拓扑结构。

所述排比识别模型可以采用SVM(支持向量机)、DNN(深度神经网络)等模型，以分类模型为例，其拓扑结构主要包括输入层、隐层和输出层。输入层有6个节点，分别输入候选排比句组中句子最大长度与最小长度的长度差、候选排比句组中句子长度比率、句首公共子序列特征、句子整体公共子序列特征、首个公共子序列的位置、因果递进关系特征向量；隐层一般为3到8层(比如隐层为4层)，每个隐层的节点数为2048个；输出层为两个节点，分别表示“是排比句”和“不是排比句”。

需要说明的是，如果采用回归模型，则模型输出为当前句是排比句的得分。

步骤302，收集训练数据，并对所述训练数据进行排比句标注。

所述训练数据是段落为单位，进行标注时需要对各段落中的每句话进行标注，标注其是否为排比句。比如，是排比句，则将其标注为“1”，否则将其标注为“0”。

步骤303，提取所述训练数据的排比句特征。

所述指比句特征包括长度特征、公共子序列特征、首个公共子序列的位置特征以及因果递进关系特征，这些特征的含义及提取方式在前面已有详细说明，在此不再赘述。

步骤304，基于所述排比句特征及标注信息，训练得到排比识别模型参数。

模型的训练方法可以采用现有技术中常见的训练方法，如BP(反向传播)算法等，在此不再详细阐述。

本发明实施例提供的排比句识别方法，通过对待分析文本进行结构化，然后根据排比句的相邻句子或相近句子有相同词语的特点，抽取出候选排比句组，再进一步根据排比句特征识别判断候选排比句组中的句子是否为排比句。本发明实施例从抽象出的排比句特有特征进行文本分析，从而可以得到全面、准确的识别判断结果。

相应地，本发明实施例还提供一种排比句识别系统，如图4所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块41，用于接收待分析文本；

结构化处理模块42，用于对所述文本进行结构化处理；

挑选模块43，用于从处理后的文本中获取候选排比句组；

特征提取模块44，用于从所述候选排比句组中提取排比句特征，所述排比句特征可见前面本发明方法实施例中的描述；

判断模块45，用于利用所述排比句特征对所述候选排比句组进行排比句识别判定。

上述结构化处理模块42具体用于对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构。

针对排比句的特点，相应前面提到的两类排比句，相应地，上述挑选模块43的一种具体结构包括：第一挑选单元、第二挑选单元和组合单元。其中：

第一挑选单元用于对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到连续性编号，将这些连续性编号所对应的句子，组成第一排比句组，所述第一排比句组中包含相同词语连续出现的候选排比句；

第二挑选单元用于对处理后的文本，以段落为单位，通过所述结构化数据存储结构中的相同词语找到包含当前相同词语的所有句子编号，并且在所有句子编号中找到满足设定规则的间歇性编号，将这些间歇性编号所对应的句子，组成第二排比句组，所述第二排比句组中包含相同词语有规则间歇性出现的候选排比句；

组合单元用于将所述第一排比句组和所述第二排比句组组成候选排比句组。

为了避免出现候选排比句重复的问题，上述挑选模块43还可进一步包括：去重单元，用于对所述候选排比句组中的候选排比句进行去重处理。

上述判断模块45具体可以利用所述排比句特征及预先构建的排比识别模型对所述候选的排比句组进行排比句识别判定。所述排比识别模型可以由模型构建模块来预先构建。所述排比识别模型可以作为本发明系统的一部分，也可以是独立于本发明系统的独立模块，对此本发明实施例不做限定。

在实际应用中，所述排比识别模型可以采用分类模型或回归模型。

相应地，所述模型构建模块的一种具体结构可以包括以下各单元：

拓扑结构确定单元，用于确定排比识别模型的拓扑结构；

提取单元，用于提取所述训练数据的排比句特征；

本发明实施例提供的排比句识别系统，通过对待分析文本进行结构化，然后根据排比句的相邻句子或相近句子有相同词语的特点，抽取出候选排比句组，再进一步根据排比句特征识别判断候选排比句组中的句子是否为排比句。本发明实施例从抽象出的排比句特有特征进行文本分析，从而可以得到全面、准确的识别判断结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种排比句识别方法，其特征在于，包括：

接收待分析文本；

对所述文本进行结构化处理；

从处理后的文本中获取候选排比句组；

从所述候选排比句组中提取排比句特征；

利用所述排比句特征对所述候选排比句组进行排比句识别判定，

其中，所述对所述文本进行结构化处理包括：

对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构，

所述从处理后的文本中获取候选排比句组包括：

2.根据权利要求1所述的方法，其特征在于，所述从处理后的文本中获取候选排比句组还包括：

对所述候选排比句组中的候选排比句进行去重处理。

3.根据权利要求1所述的方法，其特征在于，所述排比句特征包括：句子长度特征、公共子序列特征、首个公共子序列的位置、因果递进关系特征向量；所述句子长度特征包括：候选排比句组中句子最大长度与最小长度的长度差、候选排比句组中句子长度比率；所述公共子序列特征包括：句首公共子序列特征、句子整体公共子序列特征。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括预先按以下方式构建排比识别模型：

确定排比识别模型的拓扑结构；

收集训练数据，并对所述训练数据进行排比句标注；

提取所述训练数据的排比句特征；

5.根据权利要求4所述的方法，其特征在于，所述排比识别模型为分类模型或回归模型。

6.一种排比句识别系统，其特征在于，包括：

接收模块，用于接收待分析文本；

结构化处理模块，用于对所述文本进行结构化处理；

挑选模块，用于从处理后的文本中获取候选排比句组；

判断模块，用于利用所述排比句特征对所述候选排比句组进行排比句识别判定，

其中，所述结构化处理模块，具体用于对所述文本以段落为单位，对段落、段落中句子、句子中词语进行编号，形成结构化数据存储结构，

所述挑选模块包括：

7.根据权利要求6所述的系统，其特征在于，所述挑选模块还包括：

8.根据权利要求6所述的系统，其特征在于，所述排比句特征包括：句子长度特征、公共子序列特征、首个公共子序列的位置、因果递进关系特征向量；所述句子长度特征包括：候选排比句组中句子最大长度与最小长度的长度差、候选排比句组中句子长度比率；所述公共子序列特征包括：句首公共子序列特征、句子整体公共子序列特征。

9.根据权利要求6至8任一项所述的系统，其特征在于，所述系统还包括模型构建模块，用于预先构建排比识别模型；所述模型构建模块包括：

拓扑结构确定单元，用于确定排比识别模型的拓扑结构；

提取单元，用于提取所述训练数据的排比句特征；

10.根据权利要求9所述的系统，其特征在于，所述排比识别模型为分类模型或回归模型。