CN112651241A

CN112651241A - 一种基于半监督学习的汉语并列结构自动识别方法

Info

Publication number: CN112651241A
Application number: CN202110026618.5A
Authority: CN
Inventors: 邵玉; 杨丹; 龙华; 杜庆治; 张海玲; 杨陈菊
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-13

Abstract

本发明涉及一种基于半监督学习的汉语并列结构自动识别方法，语料识别技术领域。首先，根据并列结构的外部特征和内部成分的语义相似性，在CRF模型中融入词语长度、是否连接词、同义词编码三个语言学特征，考察不同语言学特征及其组合对并列结构的识别效果的影响；其次，利用大量未标注语料训练词向量，再将训练出的连续的词向量转化为离散高维的适合线性CRF的表达，此种表达即作为无监督特征融入到CRF模型中，考察不同无监督特征及其组合的识别效果。最后，将语言学特征与无监督特征作不同的组合实验，考察两种类型特征的共同作用是否会对识别效果产生更大的影响。本发明提取的无监督特征能有效应用于并列结构的识别中，提高了模型识别的F值。

Description

一种基于半监督学习的汉语并列结构自动识别方法

技术领域

本发明涉及一种基于半监督学习的汉语并列结构自动识别方法，语料识别技术领域。

背景技术

并列结构的识别问题可转化为序列标注问题，因而目前主流的识别方法是基于统计的有监督学习方法，利用机器学习模型与语言学特征的有机结合来选取最佳标注序列，完全依赖于标注语料进行研究。另外，还有基于规则和规则与统计相融合的方法。基于规则即由人为制定符合并列结构形式的规则，根据一系列规则“套出”句子中的并列短语。以往研究表明基于统计较基于规则的方法效果相对较优，原因主要是规则的建立具有较强的主观性，“机动性”较差，且规则之间易产生互斥，并列短语除单层短语外还存在着复杂多变的嵌套结构，这使规则无法完全覆盖。

基于统计的方法取得的效果相对较好，但其对标注语料的依赖难以适应小语料研究，从语料中获取的有监督特征涵盖面狭隘，无法有效利用未标注语料信息补足特征单一的缺陷，而人工扩大标注语料库则需要付出大量的人力、时间成本。因此并列结构研究语料不足也成为其自动识别的一道障碍。

鉴于扩大标注语料耗费时间长，而存在的未标注语料丰丰富，可以充分利用未标注语料内容来影响基于有监督学习的并列结构的识别效果。随着自然语言中词向量的引入，有学者对如何将词向量更好的应用于半监督模型这一问题做了探索，并在命名体识别中得到了有效验证。本发明由此根据词向量的应用，在CRF模型中融合无监督学习特征，提出基于半监督的并列结构自动识别方法。

发明内容

本发明要解决的技术问题是提供一种基于半监督学习的汉语并列结构自动识别方法，用以解决目前并列结构标注语料规模较小、现有技术没有充分利用未标注语料中语义信息的问题。

本发明的技术方案是：一种基于半监督学习的汉语并列结构自动识别方法，其特征在于：

Step1：将有标注语料按比例划分成测试集与训练集两部分。

Step2：基于有标注语料提取并列结构的语言学特征，语言学特征包括词语长度、是否连接词、同义词编码。

所述Step2的具体步骤为：

Step2.1：计算词语长度，将词长作为一个语言学特征。

词语长度：词语长度在汉语中似乎是个比较“普通”的特征，但仅从并列结构的外部形态上看，词长仍然是一个显性特征存在，或多或少会对并列结构产生影响，因而依然将此列为一个语言学特征，作为对比实验进行考察。

Step2.2：判断当前词语是否是并列连接词，将此作为一个语言学特征，当前词语是连接词则标注为Y，不是则标注为N。

是否连接词：并列连接词是并列结构的一个显象标志，是各个并列成分的“纽带”。从语义上看，连接词将两个相近的成分结合在一起，使句子意思更进一步。从外部形态上看，连接词标示了并列结构的位置，是并列结构存在的“地标”。

Step2.3：根据同义词编码表提取每个词对应的编码作为特征，折射出词语之间的相似性关系。

同义词编码：基于同义词编码词典，选择出词语对应的小类代码，即第三级编码。词典中将词汇分成大中小三类，每个类又根据词义的远近和相关性分成了若干个词群，进一步分成若干行，同一行的词语要么词义相同或很相近，要么词义有很强的相关性。随着级别的递增，词义刻画越来越细。

Step3：基于大规模的未标注语料训练词向量，并将词向量转化为一种高维离散的适合线性CRF系统的表达，将这种表达作为无监督特征，从词向量中提取。无监督特征包括二值化特征、聚类特征。

所述Step3的具体步骤为：

Step3.1：基于大量的未标注语料，选取适当的语言模型，训练词向量。

Step3.2：将词向量进行二值化操作，作为二值化特征，简化词向量复杂度。

二值化：将词向量转化为高维离散表达的一种方式就是对词向量进行二值化，降低了词向量的复杂度，使模型训练时长减短。

对词向量进行二值化在形式上是将连续值的词向量矩阵E_V×D转变为离散值的矩阵B_V×D，其中V是指词典大小，D是指词向量的维度。

首先词向量第j列中的值E_i,j分为正负两部分，E_i,j＞0表示为E_j+，E_i,j＜0表示为E_j-。

接着计算正负两部分的均值，正均值记为mean(E_j+)，负均值记为mean(E_j-)，具体为：

式中，n_j+是指E_j+的个数，n_j-是指E_j-的个数。

最后将词向量矩阵E_V×D中的连续值转化为离散值，构成二值化矩阵B_V×D，转化函数为：

Step3.3：利用词向量进行聚类，得到n个聚类簇，n属于N，将每个词对应的簇序号提取出作为无监督特征。

由于并列结构具有平衡性和语义相似性特征，即并列短语中各成分之间语义相近，为表现其这一特性，再对词向量进行聚类，将聚类后所得每个词对应的簇序号作为特征。

聚类算法很多，而在词向量的聚类算法中大多应用K-means聚类，原因可能是其作为一种经典算法，有着出色的速度和良好的可扩展性。在K-means聚类算法中用欧氏距离来衡量样本与各个簇的距离，将词归入距离最近的簇中，计算公式如下：

Step3.4：将以上步骤中提取的语言学特征进行组合实验。

Step4：将语言学特征和无监督特征分别作为测试集和数据集的特征进行考察。

Step5：将语言学特征和无监督特征进行任意组合，形成不同组合特征与有标记语料结合，然后将不同组合特征作为测试集和数据集的特征进行考察，考察不同特征组合对识别效果的影响。

Step6：根据不同的特征制定相对适宜的特征模板。

Step7：利用训练数据训练CRF模型，接着将带标签测试数据作为待识别文本数据输入训练完成的CRF模型中进行预测识别，输出有自带标签和预测标签的文本。

本发明的有益效果是：无监督特征的融入能提高并列结构的识别效果，而语言学特征对结果的影响甚微。无监督特征的引入可以减少人工选取特征的工作量，并将语义信息以较简洁的方式融入识别模型中，能有效应用于并列结构的识别中，提高了模型识别的F值。

附图说明

图1是本发明的流程图；

图2是本发明基础模型训练模板；

图3是本发明语言学特征与基础文本结合的文本格式；

图4是本发明语言学特征组合训练模板；

图5是本发明二值化特征和聚类特征组合训练模板；

图6是本发明二值化特征和聚类特征与基础文本结合的文本格式。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

如图1所示，一种基于半监督学习的汉语并列结构自动识别方法，根据词向量的应用，在CRF模型中融合无监督学习特征，提出基于半监督的并列结构自动识别方法。首先，根据并列结构的外部特征和内部成分的语义相似性，在CRF模型中融入词语长度、是否连接词、同义词编码三个语言学特征，考察不同语言学特征及其组合对并列结构的识别效果的影响；其次，利用大量未标注语料训练词向量，再将训练出的连续的词向量转化为离散高维的适合线性CRF的表达，此种表达即作为无监督特征融入到CRF模型中，考察不同无监督特征及其组合的识别效果。最后，将语言学特征与无监督特征作不同的组合实验，考察两种类型特征的共同作用是否会对识别效果产生更大的影响。

具体步骤为：

Step1：根据有标注语料的内部和外部特征提取并列结构的语言学特征，使其作为特征来提高识别准确率。提取出的特征如下：

(1)词语长度(word_length，WL)

从并列结构的外部形态上看，词长仍然是一个显性特征存在，或多或少会对并列结构产生影响，因而计算出词语长度，依然将此列为一个语言学特征，作为对比实验进行考察。

(2)是否是连接词(conj，C)

并列连接词是并列结构的一个显象标志，是各个并列成分的“纽带”。从语义上看，连接词将两个相近的成分结合在一起，使句子意思更进一步。从外部形态上看，连接词标示了并列结构的位置，是并列结构存在的“地标”。当前词是连接词时为Y，不是为N。

(3)同义词编码(Synonym_coding，SC)

根据同义词林扩展版，选择出词语对应的小类代码，即第三级编码。词典中将词汇分成大中小三类，每个类又根据词义的远近和相关性分成了若干个词群，进一步分成若干行，同一行的词语要么词义相同或很相近，要么词义有很强的相关性。随着级别的递增，词义刻画越来越细。

表1：同义词编码表

表1中的编码位是按照从左到右的顺序排列。第八位的标记有3种，分别是“＝”、“#”、“@”，“＝”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”，属于相关词语。末尾的“@”代表“自我封闭”、“独立”，它在词典中既没有同义词，也没有相关词。

由于并列结构中各成分之间存在一定的相似性，有相同编码的词表示属于同一类，有一定的语义相关性，因此根据编码来判断词语的相似性。编码粒度过细可能会使在识别过程中遗漏有一定作用的语义信息，同时为训练增加负担，因此本文根据词义标注语料选取第三级编码。

(4)组合特征

将不同语言学特征组合考察其结合之后的识别效果，特征模板如图2所示。

Step2：基于大规模的未标注语料训练词向量，并将词向量转化为一种高维离散的适合线性CRF系统的表达，将这种表达作为无监督特征，同时将词向量作为额外特征加入模型中。具体过程如下：

(1)词向量训练

在大规模未标注语料的基础上，可以利用word2vec、Glove、Fasttext等方法训练中文词向量。

(2)词向量二值化(Binary，Bi)

式中，n_j+是指E_j+的个数，n_j-是指E_j-的个数。

(3)k-means聚类(Cluster，Clu)

(5)组合特征

将二值化特征、聚类特征和相似词特征分别组合，考察特征结合后对识别效果的影响。

Step3将有标注语料按一定比例划分成测试集与训练集两部分，将Step 1、Step 2中提取出的语言学特征和无监督特征与数据集结合。利用训练数据训练CRF模型，接着将带标签测试数据作为待识别文本数据输入训练完成的CRF模型中进行预测识别，CRF根据序列的全局标签概率P(Y|X)选择全局最优的标签序列，输出有自带标签和预测标签的文本。

实施例1：

本发明实施例中用于训练词向量提取无监督特征的未标注语料为《人民日报》1998年与2014年的语料整合，训练集和测试集为吴云芳标注的《人民日报》并列结构标注语料，其中用“{}”标示出并列结构，有7215个并列短语。

将标注语料按9：1的比例随机抽取分成训练集和测试集两部分，并采用7词位标注集T＝{B，F，G，I，M，E，S}对语料进行标注，其中B是并列结构的开始词，F是第二个词，G是第三个词，I是第四个词，M是第五个及以上的词，E是结尾词，S是并列结构外部的词。实验前对数据做了如下处理：

(1)剔除语料中每行开头的日期信息，如：1998-01-001-001/m。

(2)将句子按，。！？四类标点符号分割成小句，为避免之后因句子冗长给模型增加训练负担。

(3)筛选出语料中含有并列结构的小句作为新语料，从中提取训练集和测试集，减小标注标签工作量及多余信息的融入。

并列结构具体识别过程如下：“”

Step1：将词语与词性组合成的语料作为Baseline，其特征模板为图2.

Step2：输入一个分词后的短句，计算短句中词语的长度，并根据这个词语的词性判断当前词是否是连接词，词性为“c”(原词如“和”、“并且”)或“wj”(顿号)时为Y(是连接词)，否则为N(不是连接词)；再根据同义词编码表取出每个词语对应的编码。

如并列短语“国家/n和/c人民/n”中“国家”词长为2，“和”词长为“1”，“人民”词长为“2”；“和”是并列连接词，标记为Y，其余两个词标记为N；“国家”的词义标注为“Di02”。

将词语长度(word_length)、是否连接词(conj)、同义词编码(Syn_coding)三个语言学特征与基础模型(基础模型是指数据文本中只含词语和词性时加入CRF模型进行训练)组合(此部分特征组合可任意进行组合)，全部特征组合后标注语料文本格式为图3，三种语言学特征的特征模板为图4。

Step3：分别用Skip-gram模型和CBOW模型训练词向量，选择其中效果较优的模型训练不同维度的词向量，再通过对比选择最适宜的维度，经过二值化和聚类得到二值化特征和聚类特征，其中的聚类时选定不同个数的聚类簇，并选择其中效果较优的聚类数。将二值化特征(binary)、聚类特征(clu)与基础模型组合，特征模板为图5，二值化特征和聚类特征组合后标注语料文本格式为图6。(此部分经过实验选择CBOW模型训练词向量，词向量维度为50，聚类数为3000)。

Step1、Step2和Step3中特征选择结束后分别组合两种类型的特征，用CRF模型根据特征模板对带特征的训练集进行训练，得到训练模板，接着将测试数据作为待识别文本数据输入训练完成的CRF模型中进行预测识别，CRF根据序列的全局标签概率选择全局最优的标签序列，输出带预测标签的文本。

表3：不同特征组合实验结果

按上述步骤得到CRF模型实验结果，结果表明加入无监督特征后F值提高了1.91％，特征混合加入后F值提高1.92％。将模型与当前流行的Bi-LSTM-CRF模型识别结果进行对比。实验中使用的词向量除本文中自训练的50维词向量，还引入三个公开词向量集，其维度分别为60、300、768，根据预训练好的模型获取词向量，考察不同质量的词向量对识别效果的影响。

表4：不同模型识别结果对比

实验结果表明：

不同质量词向量的引入会使识别结果产生波动，对于CRF模型，引入Bert训练的词向量(D＝768)时F值较原模型提高0.20％，D＝300时提高0.1％，提升百分比很小。对于Bi-LSTM-CRF模型，在不同词向量下识别F值都低于CRF模型，原因是语料规模还是偏小，在训练时易造成过拟合，同时动态词向量(D＝768)的识别效果较好，F值提升了1.23％。在实际应用中，模型的性能也是考量其实用性的一个重要因素，Bi-LSTM-CRF模型训练耗费的时间要比CRF模型多，且对设备有一定要求，需要耗费更多成本。而从获取词向量时间及词向量聚类时间看，虽然Bert训练出的动态词向量效果稍好，但在小语料规模的任务中优势不太明显，且需付出大量时间成本。

综上所述，本发明模型对小语料较为友好，尤其目前并列结构的语料规模无法满足神经网络的需求，融合多种特征能够有效提高并列结构识别的F值。本发明的方法仅针对汉语并列结构的识别提出。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于半监督学习的汉语并列结构自动识别方法，其特征在于：

Step1：将有标注语料按比例划分成测试集与训练集两部分；

Step2：基于有标注语料提取并列结构的语言学特征；

Step3：基于未标注语料，选取语言模型，训练词向量，从词向量中提取无监督特征；

Step4：将语言学特征和无监督特征分别作为测试集和数据集的特征进行考察；

Step5：将语言学特征和无监督特征的不同组合特征作为测试集和数据集的特征进行考察；

Step6：根据不同的特征制定相对适宜的特征模板；

2.根据权利要求1所述的基于半监督学习的汉语并列结构自动识别方法，其特征在于所述Step2的具体步骤为：

Step2.1：计算词语长度，将词长作为一个语言学特征；

Step2.2：判断当前词语是否是并列连接词，将此作为一个语言学特征，当前词语是连接词则标注为Y，不是则标注为N；

3.根据权利要求1所述的基于半监督学习的汉语并列结构自动识别方法，其特征在于所述Step3的具体步骤为：

Step3.1：基于未标注语料，选取语言模型，训练词向量；

Step3.2：将词向量进行二值化操作，作为二值化特征，简化词向量复杂度；

Step3.3：利用词向量进行聚类，得到n个聚类簇，将每个词对应的簇序号提取出作为无监督特征；

Step3.4：将以上步骤中提取的语言学特征进行组合实验。