CN109472020B

CN109472020B - 一种特征对齐中文分词方法

Info

Publication number: CN109472020B
Application number: CN201811185491.6A
Authority: CN
Inventors: 李智星; 冯开来; 沈柯; 任诗雅; 王化明; 李苑; 孙柱; 袁龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2022-07-01
Anticipated expiration: 2038-10-11
Also published as: CN109472020A

Abstract

本发明请求保护一种特征对齐中文分词方法，包括：101从标记数据和无标记数据中抽取二元词的特征；102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐；103通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105通过建立的模型，对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐，并通过分类器学习来预测二元词的成词概率，然后以堆叠的方式整合了条件随机场形成新的分词器。

Description

一种特征对齐中文分词方法

技术领域

本发明属于自然语言处理领域，具体涉及一种特征对齐中文分词方法。

背景技术

作为语言最基本的单元，单词在文本分析任务中扮演着十分重要的角色。中文分词作为自然语言处理不可缺少的一部分，近年来取得了巨大的发展，并被广泛应用于信息检索、知识抽取和问题回答等各种汉语自然语言处理任务当中。由于标注数据的昂贵成本、单词使用的演变以及不同场景下的不同需求，现有的中文分词方法在实际任务中依旧存在着一些问题。尽管它在规则文本上具有较高的准确率，但在很多情况下，低频词的分割仍然是一个挑战。比如，在没有预定义字典的情况下，地域词“高唐”会被分割成单个字符序列。另外，在没有足够的上下文信息情况下，句子“这次研讨会很成功。”，无论是分成“这次/研讨会/很/成功/。”还是“这次/研讨/会/很/成功/。”都是正确的。因此，汉语分词不仅要考虑句子本身，还要考虑句子所处的语境，包括句子所处的段落、文档甚至语料库。近年来，更多的研究者更倾向于深度学习去挖掘更多的文本信息。当然，基于条件随机场的序列标注方法也是处理中文分词常用到的方法，通过利用足够多的上下文特征，虽然取得了比较好的结果，但是由于条件随机场的性质，参数会呈指数增长，所以直接训练多特征的条件随机场是不明智的。

本专利提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词，在不增加条件随机场特征的基础上，将分类器和基于条件随机场的打标器相结合，同时充分利用了标记数据和未标记数据的丰富特征，并通过EMD将两者之间的特征进行对齐。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种在不增加条件随机场特征的基础之上，堆叠了分类器和基于条件随机场的打标器，同时充分利用了标记数据和未标记数据的丰富特征，并通过EMD对齐两者之间的特征，大大缓解了标记数据和无标记数据之间的特征分布差异的特征对齐中文分词方法。本发明的技术方案如下：

一种特征对齐中文分词方法，其包括以下步骤：

101、从标记数据和无标记数据中抽取二元词的特征；

102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐；

103、通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；

104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；

105、通过条件随机场构建分词模型，对无标记数据进行序列标注分词。

进一步的，所述步骤101从标记数据和无标记数据中抽取二元词的特征，具体为：

S1011、首先对抽取的二元词进行预处理，在标记数据和无标注数据中的二元词中，将频数为1或者带有标点符号的二元词去掉；

S1012、统计当前二元词在文档中出现的次数；

S1013、计算当前二元词的左字和右字的单字相乘概率，公式为：P_单字相乘＝P(A)*P(B)，其中P(A)表示二元词左字出现的概率，P(B)表示二元词右字出现的概率；

S1014、计算当前二元词的左字和右字之间的互信息，公式为：

MI(AB)表示当前二元词的互信息，P(AB)表示当前二元词出现的概率，P(A).表示二元词左字出现的概率，P(B)表示二元词右字出现的概率；

S1015、计算当前二元词和它前面的字之间的信息熵，公式为：

P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率，C表示所有出现在当前二元词AB前面的字的集合；

S1016、计算当前二元词和它后面的字之间的信息熵，公式为：

P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率，C表示所有出现在当前二元词AB后面的字的集合；

S1017、统计当前二元词前面出现标点符号的次数；

S1018、统计当前二元词后面出现标点符号的次数；

S1019、统计当前二元词前面出现数字的次数；

S10110、统计当前二元词后面出现数字的次数；

S10111、判断当前二元词左字是否为数字；

S10112、判断当前二元词右字是否为数字；

S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；

S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；

S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；

S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；

S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；

S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；

S10119、统计当前二元词出现在句首的次数；

S10120、统计当前二元词出现在句末的次数。

进一步的，所述步骤102需要进行特征对齐的13项特征为：统计当前二元词在文档中出现的次数；统计当前二元词前面出现标点符号的次数；统计当前二元词后面出现标点符号的次数；统计当前二元词前面出现数字的次数；统计当前二元词后面出现数字的次数；统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词出现在句首的次数；统计当前二元词出现在句末的次数。

进一步的，所述步骤102通过EMD(地球移动距离)方法将标记数据和无标记数据进行特征对齐，具体为：

S1021、假设来自训练集P的特征有m个，其中

p_i代表了训练集值，

代表训练集值的权重，测试集

有n个特征，q_n代表测试集的值，

表示测试集的权重，用D＝[d_i,j]表示簇p_i和q_j之间的地表距离，目的是为了找到一个从p_i到q_j的流量F＝[f_i,j]，使得总成本最小

S1022、将成本距离定义为欧氏距离的平方，这样的最小成本策略更加符合预期的效果。

进一步的，所述步骤103通过分类器训练标记数据的特征，并预测无标记数据中二元词成词的概率，具体为：

S1031、特征对齐之后，标注集和无标注数据集中的二元词都可以用19维的向量表示，如果标注集的二元词在标注集的字典中出现，就将它的y标记为1，否则标记为0。利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测；

S1032、得到无标记数据集二元词的成词概率后，将概率进行降序排列，通过交叉验证的方法设定阈值从中提取出一定的二元词作为分类的结果，即分类得到的无标记二元新词。

进一步的，所述步骤S1032取前15％将序排列的二元词作为分类的结果，即需要从无标记数据中得到的二元新词。

进一步的，所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练，具体为：

S1041、将分类器得到的二元新词和标记数据中的二元词融合成新的词典；

S1042、对处理成序列标注的标记数据和未标记数据进行打标，如果当前字和下一个字在二元词字典中，则当前字特征列就标记为1；否则标记为0。

进一步的，所述步骤105通过条件随机场构建分词模型，对无标记数据进行序列标注分词，具体包括：

将标记数据和无标记数据处理成序列标注模型，通过得到的新的词典给序列标注模型赋予特征，如果当前字和下一个字组成的二元词出现在新的字典当中，就在当前字的特征列标1，否则标0，通过条件随机场构建分词模型。

本发明的优点及有益效果如下：

本发明提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词。在不增加条件随机场特征的情况下，抽取了标记数据和无标记数据共19项特征，利用特征对齐的思想通过EMD将标记数据的特征和无标记数据的特征进行对齐，将对齐之后的特征代入xgboost分类器对无标记数据中的二元词成词概率进行预测，将得到的无标记数据中的二元词成词概率进行降序排列，通过交叉验证的方式得到当前数据集下的阈值，并将大于该阈值的二元词和用于训练的标记数据集中的二元词组成新的词典，将新的词典作为条件随机场的特征构建序列标注模型从而进行分词。由于条件随机场的特征只有一列，因此可以有效避免过拟合；同时通过特征对齐的思想，大大缓解了标记数据和无标记数据之间的特征分布差异。

附图说明

图1是本发明提供优选实施例特征对齐中文分词流程图；

图2为本发明中EMD的特征对齐原理图；

图3为本发明整个框架图；

图4为本发明条件随机场中文分词标注图；

图5为本发明特征对齐前后分布差异图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

实施例一

为进一步阐述本发明方案，特以常用的中文分词语料库SIGAN-2005中的PKU文本的标记数据和无标记数据为例对本技术方案进行详尽阐述，参考图1，图1为本实施例提供的一种特征对齐中文分词方法流程图：

步骤1：分别对PKU中的标记数据和无标记数据中前后相邻字组成的二元词进行提取，并统计二元词在文本中出现的次数。如果出现次数为1，则将该二元词去除；如果当前二元词中带有标点符号也将其去除，从而得到标记数据和未标记数据用于构建模型的二元词。

步骤2：对步骤1中标记数据和未标记数据的二元词提取如下19项特征：统计当前二元词在文档中出现的次数；计算当前二元词的左字和右字的单字相乘概率(公式为：P_单字相乘＝P(A)*P(B)，其中P(A)表示二元词左字出现的概率，P(B)表示二元词右字出现的概率)；计算当前二元词的左字和右字之间的互信息(公式为：

MI(AB)表示当前二元词的互信息，P(AB)表示当前二元词出现的概率，P(A).表示二元词左字出现的概率，P(B)表示二元词右字出现的概率)；计算当前二元词和它前面的字之间的信息熵(公式为：

P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率，C表示所有出现在当前二元词AB前面的字的集合)；计算当前二元词和它后面的字之间的信息熵(公式为：

表示在当前二元词AB的情况下C出现在AB后面的概率，C表示所有出现在当前二元词AB后面的字的集合)；统计当前二元词前面出现标点符号的次数；统计当前二元词后面出现标点符号的次数；统计当前二元词前面出现数字的次数；统计当前二元词后面出现数字的次数；判断当前二元词左字是否为数字；判断当前二元词右字是否为数字；统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词出现在句首的次数；统计当前二元词出现在句末的次数。从而标记数据和未标记数据中的二元词都可以表示成19维的向量。

步骤3：对于步骤2中抽取的19项特征中，需要进行特征对齐的13项特征为：统计当前二元词在文档中出现的次数；统计当前二元词前面出现标点符号的次数；统计当前二元词后面出现标点符号的次数；统计当前二元词前面出现数字的次数；统计当前二元词后面出现数字的次数；统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词出现在句首的次数；统计当前二元词出现在句末的次数。通过EMD将标记数据中的这13项特征对齐无标记数据中的这13项特征，取“统计当前二元词在文档中出现的次数”这项特征为例，计算特征对齐后标记数据与无标记数据的KL散度以及没有特征对齐标记数据和无标记数据的KL散度，经过对比可以发现(如图5)，EMD特征对齐之后确实可以缓解标记数据和未标记数据的特征分布差异。

步骤4：对标记数据中的二元词打标，如果当前二元词出现在标记数据中的字典中，则标签标记为1，否则标记为0。通过xgboost分类器对标记数据和未标记数据构建分类模型，预测未标记数据中的二元词成词的概率。

步骤5：得到无标记数据集二元词的成词概率后，将概率进行降序排列，通过交叉验证的方法得到一个阈值，取前15％将序排列的二元词作为分类的结果，即需要从无标记数据中得到的二元新词；

步骤6：将分类器得到的二元新词和标记数据中的二元词融合成新的词典，具体参考图3；

步骤7：将标记数据和无标记数据处理成序列标注模型，通过步骤6得到的新的词典给序列标注模型赋予特征，如果当前字和下一个字组成的二元词出现在新的字典当中，就在当前字的特征列标1，否则标0，通过条件随机场构建分词模型。

步骤8：通过条件随机场构建分词模型，对无标记数据集进行序列标注，得到分词结果，与标准结果对比，通过F-score、Recall和Precision来评测分词结果的好坏。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种特征对齐中文分词方法，其特征在于，包括以下步骤：

101、从标记数据和无标记数据中抽取二元词的特征；

105、通过条件随机场构建分词模型，对无标记数据进行序列标注分词；

所述步骤101从标记数据和无标记数据中抽取二元词的特征，具体为：

S1012、统计当前二元词在文档中出现的次数；

S1013、计算当前二元词的左字和右字的单字相乘概率，公式为：

P_单字相乘＝P(A)*P(B)，其中P(A)表示二元词左字出现的概率，P(B)表示二元词右字出现的概率；

S1017、统计当前二元词前面出现标点符号的次数；

S1018、统计当前二元词后面出现标点符号的次数；

S1019、统计当前二元词前面出现数字的次数；

S10110、统计当前二元词后面出现数字的次数；

S10111、判断当前二元词左字是否为数字；

S10112、判断当前二元词右字是否为数字；

S10119、统计当前二元词出现在句首的次数；

S10120、统计当前二元词出现在句末的次数；

所述步骤102通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐，具体为：

S1021、假设来自训练集P的特征有m个，其中

p_i代表了训练集值，

代表训练集值的权重，测试集

有n个特征，q_n代表测试集的值，

S1022、将成本距离定义为欧氏距离的平方，这样的最小成本策略更加符合预期的效果；

所述步骤103通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率，具体为：

S1031、特征对齐之后，标注集和无标注数据集中的二元词都用19维的向量表示，如果标注集的二元词在标注集的字典中出现，就将它的y标记为1，否则标记为0，利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测；

2.根据权利要求1所述的一种特征对齐中文分词方法，其特征在于，

所述步骤102需要进行特征对齐的13项特征为：统计当前二元词在文档中出现的次数；统计当前二元词前面出现标点符号的次数；统计当前二元词后面出现标点符号的次数；统计当前二元词前面出现数字的次数；统计当前二元词后面出现数字的次数；统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；统计当前二元词出现在句首的次数；统计当前二元词出现在句末的次数。

3.根据权利要求1所述的一种特征对齐中文分词方法，其特征在于，

所述步骤S1032取前15％将序排列的二元词作为分类的结果，即需要从无标记数据中得到的二元新词。

4.根据权利要求1所述的一种特征对齐中文分词方法，其特征在于，

所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练，具体为：

5.根据权利要求1所述的一种特征对齐中文分词方法，其特征在于，所述步骤105通过条件随机场构建分词模型，对无标记数据进行序列标注分词，具体包括：