CN104317890B

CN104317890B - 一种文本连接词的识别方法及装置

Info

Publication number: CN104317890B
Application number: CN201410572086.5A
Authority: CN
Inventors: 李寿山; 汪蓉; 周国栋; 段湘煜
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2018-05-01
Anticipated expiration: 2034-10-23
Also published as: CN104317890A

Abstract

本申请提供的文本连接词的识别方法及装置，在获取的待识别文本中，提取待识别的连接词，利用预先构建的分类器对该识别连接词进行识别，获得识别结果，进而利用识别结果确定待识别连接词的属性，该属性为连接词或非连接词。在本实施例中，首先在待识别文本中获得连接词，该连接词为初步识别的连接词，再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定，从而准确识别出待识别文本中的连接词。

Description

一种文本连接词的识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其是一种连接词识别方法及装置。

背景技术

在自然语言处理技术中，篇章级的文本分析是单词、句子分析之后的一种文本分析粒度，其在自然语言理解及生成中起到了至关重要的作用。篇章级的文本分析目的是研究文本的句法结构，并根据句法结构理解句子、从句或段落之间的语义关系。然而，语义关系一般由篇章中的连接词直观地表现出来。

例如，篇章文本为“中韩两国虽然人口数量相差较大，但两国有较多共同点，因此具有发展友好合作关系的良好条件和基础。”第一个分句与第二个分句之间是转折关系，前两个分句与第三个分句构成因果关系，这些语义关系主要体现在连接词“但”及“因此”上。

因此，需要一种连接词的识别方法，以识别出文本中的连接词。

发明内容

有鉴于此，本发明提供了一种文本连接词的识别方法及装置，用以实现对文本中连接词的识别。为实现所述目的，本发明提供的技术方案如下：

一种文本连接词的识别方法，包括：

获取待识别文本；

从所述待识别文本中，提取待识别连接词；

利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器；

依据所述识别结果，确定所述待识别连接词的属性；其中，所述文本连接词的属性为连接词或非连接词。

优选地，所述识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；

其中，所述依据所述识别结果，确定所述待识别连接词的属性，包括：

确定所述两个概率值中的较大概率值；

当所述较大概率值对应连接词属性时，确定所述待识别连接词的属性为连接词；

当所述较大概率值对应非连接词属性时，确定所述待识别连接词的属性为非连接词。

优选地，所述预先构建的分类器构建方法包括：

从标准语料库中，提取多条语料样本；其中，每条所述语料样本中均包含已标注的连接词；

针对每条所述语料样本中的连接词，获取各自的分类特征；其中，所述分类特征表征连接词在语料样本中的语法特征；

依据每个所述连接词各自对应的分类特征，生成训练集；

对所述训练集进行训练，构建分类器。

优选地，所述从标准语料库中，提取多条语料样本，包括：

获取包含连接词的预设列表；

在所述标准语料库中，提取包含所述预设列表中连接词的多条语料，获得语料样本。

优选地，所述针对每条所述语料样本中的连接词，获取各自的分类特征，包括：

在所述标准语料库中，获取每条所述语料样本各自对应的句法树；

针对每条所述语料样本中的连接词，在各自的句法树中，提取各自的分类特征。

本申请还提供了一种文本连接词的识别装置，包括：

待识别文本获取模块，用于获取待识别文本；

待识别连接词提取模块，用于从所述待识别文本中，提取待识别连接词；

识别结果获得模块，用于利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器；

连接词属性确定模块，用于依据所述识别结果，确定所述待识别连接词的属性；其中，所述文本连接词的属性为连接词或非连接词。

优选地，所述识别结果获得模块获得的识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；其中，所述连接词属性确定模块包括：

较大概率值确定子模块，用于确定所述两个概率值中的较大概率值；

连接词确定子模块，用于当所述较大概率值对应连接词属性时，确定所述待识别连接词的属性为连接词；

非连接词确定子模块，用于当所述较大概率值对应非连接词属性时，确定所述待识别连接词的属性为非连接词。

优选地，用于构建所述识别结果获得模块利用的分类器的构建模块包括：

语料样本提取子模块，用于从标准语料库中，提取多条语料样本；其中，每条所述语料样本中均包含已标注的连接词；

分类特征获取子模块，用于针对每条所述语料样本中的连接词，获取各自的分类特征；其中，所述分类特征表征连接词在语料样本中的语法特征；

训练集生成子模块，用于依据每个所述连接词各自对应的分类特征，生成训练集；

分类器构建模块，用于对所述训练集进行训练，构建分类器。

优选地，所述语料样本提取子模块包括：

连接词列表获取单元，用于获取包含连接词的预设列表；

语料样本提取单元，用于在所述标准语料库中，提取包含所述预设列表中连接词的多条语料，获得语料样本。

优选地，所述分类特征获取子模块包括：

句法树获取单元，用于在所述标准语料库中，获取每条所述语料样本各自对应的句法树；

分类特征提取单元，用于针对每条所述语料样本中的连接词，在各自的句法树中，提取各自的分类特征。

本发明提供的文本连接词的识别方法及装置，在获取的待识别文本中，提取待识别的连接词，利用预先构建的分类器对该识别连接词进行识别，获得识别结果，进而利用识别结果确定待识别连接词的属性，该属性为连接词或非连接词。在本发明中，首先在待识别文本中获得连接词，该连接词为初步识别的连接词，再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定，从而准确识别出待识别文本中的连接词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的文本连接词的识别方法的流程图；

图2为本发明实施例提供的分类器的构建流程图；

图3为本发明实施例提供的文本连接词的识别装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，其示出了本发明实施例提供的文本连接词的识别方法的流程，具体包括：

步骤S101：获取待识别文本。

在现实应用中，待分析的篇章中可能包含大量的句子段落，连接词散落在篇章中的各个位置处。本实施例，首先在篇章段落中提取出各个单独的句子，并在各个句子中提取出具体的待识别的连接词，再将该待识别的连接词输入到预先构建的分类器中进行进一步的识别。

可选地，获取待识别文本的方式可以是，利用分词工具将篇章划分为具体的句子，再将句子划分为具体的单词，再利用包含连接词的列表判断哪些句子中包含该列表中的连接词，将这些句子确定为待识别文本。

步骤S102：从所述待识别文本中，提取待识别连接词。

其中，利用上述列表提取出的文本中包含连接词，将连接词提取出来。需要说明，待识别文本中的连接词是备选的待识别连接词，需要利用分类器进行确认。

步骤S103：利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器。

其中，分类器是利用训练集进行自动学习后构建的分类机器。将待识别的数据输入至分类器，分类器可以将输入的数据分到分类器已知的类别。分类器具有自身可以识别的种类，可识别的种类有多少个，则识别结果中包含等量的概率值。具体地，分类器利用自身对应的分类模型获得识别结果，由于分类模型可以计算出待识别连接词分别属于每个类别的概率，这样，识别结果中包含多个概率值，各个概率值分别与分类器可识别的各个种类一一对应。

本实施例中，预先构建的分类器可以识别的类别为两类，即正类及负类；其中，正类表示输入的待识别连接词为连接词；负类表示输入的待识别连接词不是连接词，则分类结果中包含两个概率值，分别为是连接词的概率及不是连接词的概率。

步骤S104：依据所述识别结果，确定所述待识别连接词的属性；其中，所述文本连接词的属性为连接词或非连接词。

其中，具体确定文本连接词属性的方式可以是，比较识别结果中的两个概率值，将较大的概率值对应的类别属性确定为连接词的属性，即当较大概率值对应的类别属性为负类时，则步骤S102中提取到的待识别连接词为非连接词，当较大概率值对应的类别属性为正类时，则步骤S102中提取到的待识别连接词为连接词。

由以上技术方案可知，本发明实施例提供的文本连接词的识别方法，在获取的待识别文本中，提取待识别的连接词，利用预先构建的分类器对该识别连接词进行识别，获得识别结果，进而利用识别结果确定待识别连接词的属性，该属性为连接词或非连接词。在本实施例中，首先在待识别文本中获得连接词，该连接词为初步识别的连接词，再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定，从而准确识别出待识别文本中的连接词。

在包含大量句子段落的篇章文本中，连接词数量众多。虽然可以人工标注句子中的连接词，但是这种方式效率较低。由于本发明以下各个实施例中利用构建的分类器进行自动分类识别，识别速度较快，效率较高。

可选地，上述识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；其中，依据所述识别结果，确定所述待识别连接词的属性的具体实现方式为：

确定所述两个概率值中的较大概率值；当所述较大概率值对应连接词属性时，确定所述待识别连接词的属性为连接词；当所述较大概率值对应非连接词属性时，确定所述待识别连接词的属性为非连接词。

具体地，本实施例中的分类器可以是预先构建的贝叶斯分类器、最大熵分类器及支持向量机等。优选地，分类器为最大熵分类器。

下面对如何构建分类器进行说明。

参见图2，其示出了上述实施例中预先构建的分类器的构建流程，具体包括：

步骤S201：从标准语料库中，提取多条语料样本；其中，每条所述语料样本中均包含已标注的连接词。

其中，标准语料库中包含大量的标注语料，从中提取语料样本，为生成训练集提供较好的素材。可选地，标准语料库是PDTB(Penn Discourse TreeBank,宾州语篇树库)语料库。PDTB语料库是由美国宾夕法尼亚大学托里诺大学和爱丁堡大学联合标注的语料库，是一个标注语篇结构信息的大规模语料库，主要标注与语篇连通方式相关的一致关系，标注信息主要包括连通方式的论元结构、语义区分信息，以及连通方式和论元的修饰关系特征。

可选地，本步骤的具体提取方式是，获取包含连接词的预设列表，在所述标准语料库中，提取包含所述预设列表中连接词的多条语料，获得语料样本。

步骤S202：针对每条所述语料样本中的连接词，获取各自的分类特征；其中，所述分类特征表征连接词在语料样本中的语法特征。

其中，分类特征代表连接词的语法特征。可选地，分类特征指的是连接词的词性特征、词形特征及句法特征。其中，词形特征指的是连接词具体是哪个单词，词性特征指的是与该连接词相关的上下文词包括该连接词的词性，句法特征指的是该连接词所在句子的句法结构。

可选地，提取分类特征的方式可以是，在所述标准语料库中，获取每条所述语料样本各自对应的句法树，针对每条所述语料样本中的连接词，在各自的句法树中，提取各自的分类特征。

具体地，句法树是以树的结构表示每个句子的整个句法结构。其中，句法树中的节点表示句子中的组成单词，父节点是与该单词具有上下文关系的词语，每个节点具有各自的词性特征，且父子节点之间还可以表示两个单词之间的语法关系，进而叶子节点至根节点的路径可以表示单词的句法特征。

步骤S203：依据每个所述连接词各自对应的分类特征，生成训练集。

其中，将每个连接词的分类特征均添加到训练集中。

步骤S204：对所述训练集进行训练，构建分类器。

其中，对训练集利用何种分类方法进行训练，即可获得对应的分类器。例如，对训练集利用最大熵分类方法进行训练，则获得的分类器为最大熵分类器。分类器具有分类模型，即数学公式，其中包含有多个参数，训练的过程即是求解未知参数，将求解获得的已知数代入到该分类模型中，完成分类器的构建。

下面利用最大熵分类器对分类模型的训练过程进行说明。

最大熵分类器对应的分类模型为：

其中，概率p^*(a|b)为待识别连接词属于正类或负类的概率值，也即分别利用上述分类模型计算待识别连接词属于两个类别的概率；π(b)为归一化因子；λ_i为调节参数；f_i(a,b)为特征函数。其中，π(b)、λ_i及f_i(a,b)可以在训练过程中求解出来。具体地：

归一化因子π(b)的定义如下：

其中，a指的是分类器可以识别的类别；k指的是某一类别对应的分类特征的总个数。在本发明各个实施例中，a具体指的是正类或负类；k指的是正类或负类各自对应的分类特征的总个数。

特征函数f_i(a,b)的定义如下：

可见，特征函数为二值函数，b∈a表示待识别连接词b属于a类别，此时特征函数取值为1；others表示待识别连接词b不属于a类别，此时特征函数取值为0。

为了证明本发明各个实施例对文本连接词的识别准确率，提供以下实验数据进行佐证。

在实验中，使用50330个已识别的连接词语料样本生成训练集，使用2937个语料文本作为测试集。评价标准使用F1的值，其中：

其中，FP代表本来是非连接词，但被识别为连接词的个数；FN代表本来是连接词，但被识别为非连接词的个数；TP代表本来是连接词且被识别为连接词的个数。

在本实验中，分别提取两种、四种及六种分类特征。提取的分类特征可以是句法树的父节点、子节点、前一节点、后一节点、根节点、兄弟节点中的一种或多种。分别利用两种、四种及六种分类特征构建分类器，利用构建的分类器对测试集中的语料进行识别，并求解对应的F1值，具体的F1值参见下表1。

表1

从表1中可以看出，本发明实施例的F1值均在90以上，准确率较高，且随着构建分类器使用的特征种数的增多，准确率进一步提升。

下面对本发明实施例提供的文本连接词的识别装置进行介绍，需要说明，有关文本连接词的识别装置的介绍请参照上文提供的文本连接词的识别方法，下文并不做赘述。

参照图3，其示出了本发明实施例提供的文本连接词的识别装置的结构，具体包括：待识别文本获取模块100、待识别连接词提取模块200、识别结果获得模块300及连接词属性确定模块400。其中：

待识别文本获取模块100，用于获取待识别文本；

待识别连接词提取模块200，用于从所述待识别文本中，提取待识别连接词；

识别结果获得模块300，用于利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器；

连接词属性确定模块400，用于依据所述识别结果，确定所述待识别连接词的属性；其中，所述文本连接词的属性为连接词或非连接词。

由以上技术方案可知，本发明实施例提供的文本连接词的识别装置，待识别连接词提取模块200在获取的待识别文本中，提取待识别的连接词，识别结果获得模块300利用预先构建的分类器对该识别连接词进行识别，获得识别结果，进而连接词属性确定模块400利用识别结果确定待识别连接词的属性，该属性为连接词或非连接词。在本实施例中，首先在待识别文本中获得连接词，该连接词为初步识别的连接词，再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定，从而准确识别出待识别文本中的连接词。

上述文本连接词识别装置中，所述识别结果获得模块300获得的识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；其中，所述连接词属性确定模块400包括：

上述文本连接词识别装置中，还包括用于构建所述识别结果获得模块利用的分类器的构建模块。其中，该构建模块具体包括：

语料样本提取子模块101，用于从标准语料库中，提取多条语料样本；其中，每条所述语料样本中均包含已标注的连接词；

分类特征获取子模块102，用于针对每条所述语料样本中的连接词，获取各自的分类特征；其中，所述分类特征表征连接词在语料样本中的语法特征；

训练集生成子模块103，用于依据每个所述连接词各自对应的分类特征，生成训练集；

分类器构建模块104，用于对所述训练集进行训练，构建分类器。

可选地，上述文本连接词的识别装置中的语料样本提取子模块101包括：

连接词列表获取单元，用于获取包含连接词的预设列表；

可选地，上述文本连接词的识别装置中的分类特征获取子模块102包括：

可选地，预先构建的分类器为最大熵分类器。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本连接词的识别方法，其特征在于，包括：

获取待识别文本；

从所述待识别文本中，提取待识别连接词；

利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器；所述识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；

确定所述两个概率值中的较大概率值；

2.根据权利要求1所述的文本连接词识别方法，其特征在于，所述预先构建的分类器构建方法包括：

依据每个所述连接词各自对应的分类特征，生成训练集；

对所述训练集进行训练，构建分类器。

3.根据权利要求2所述的文本连接词的识别方法，其特征在于，所述从标准语料库中，提取多条语料样本，包括：

获取包含连接词的预设列表；

4.根据权利要求2所述的文本连接词的识别方法，其特征在于，所述针对每条所述语料样本中的连接词，获取各自的分类特征，包括：

5.一种文本连接词的识别装置，其特征在于，包括：

待识别文本获取模块，用于获取待识别文本；

识别结果获得模块，用于利用预先构建的分类器，对所述待识别连接词进行识别，获得识别结果；其中，所述分类器是依据已标注的连接词样本作为训练集构建的分类器；所述识别结果获得模块获得的识别结果中包括两个概率值，分别对应连接词属性及非连接词属性；

6.根据权利要求5所述的文本连接词识别装置，其特征在于，用于构建所述识别结果获得模块利用的分类器的构建模块包括：

7.根据权利要求6所述的文本连接词的识别装置，其特征在于，所述语料样本提取子模块包括：

连接词列表获取单元，用于获取包含连接词的预设列表；

8.根据权利要求6所述的文本连接词的识别装置，其特征在于，所述分类特征获取子模块包括：