CN105389303A

CN105389303A - 一种异源语料自动融合方法

Info

Publication number: CN105389303A
Application number: CN201510701364.7A
Authority: CN
Inventors: 吕学强; 周强; 董志安; 仵永栩
Original assignee: Tsinghua University; Beijing Information Science and Technology University
Current assignee: Tsinghua University; Beijing Information Science and Technology University
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2016-03-09
Anticipated expiration: 2035-10-27
Also published as: CN105389303B

Abstract

本发明涉及一种异源语料自动融合方法，包括以下步骤：步骤1)构建UNP映射词表；步骤2)对源体系的标注进行归一化处理；步骤3)确定产生歧义的词的词性，对语料体系中词的词义进行评判，进而确定词的词性标记；步骤4)对目标词汇集合中的单类词进行训练，然后用所述特征模板对多类词进行预测，输出预测结果的概率值；步骤5)对概率值的分布曲线进行曲线拟合；步骤6)对预测结果进行置信度评价；步骤7)对预测结果进行正确性验证；步骤8)将标注后的词及词性信息还原到原始语料中，将语料库融合为一个更大规模的语料库。本发明扩展了语料库的规模，统一了标注标准，提高了后续基于语料库语言学的研究分析的准确性，获得了较好的效果。

Description

一种异源语料自动融合方法

技术领域

本发明属于中文语料信息处理技术领域，具体涉及一种异源语料自动融合方法。

背景技术

自然语言处理领域的分析技术可以分为两个方面，一个是浅层分析，如词法分析；另一个是深层分析，如句法分析。进行处理的文本数据叫语料。一个文本的集合叫语料库。语料库在数据标注过程中，采用不同的思想、不同的方法、不同的格式形成不同的语料体系。目前针对词法分析的语料库已有很多高质量的、大规模的语料库存在，在基于语料库语言学的研究方面，已发挥了比较好的效用。而针对一个汉语句子进行深层次的、全局的分析与处理的语料库还很少，且标准不统一，规模不大，这也制约了句法分析研究应用的发展。

语料库的句法标注是语料库语言学研究的前沿课题，它处理的目标是对语料文本进行句法分析和标注，形成树库(treebank)语料。

由于汉语句子不像英语语句那样有天然的空格分割，需要对汉语句子进行词法层面的分析，对其进行词语切分和词性标注。对于同一个自然语言处理任务，往往存在多个不同风格的人工标注语料库^[1]。不同风格的标注库在资源层面存在标注不一致的问题，在语料标注中没有一个统一的标准，不能保证在词性标注以及人工标注的一致性。在构建大规模的汉语树库的过程中，需要有比较大规模的已分词和标注完善的基础语料库，再对这些基础语料库进行自动分析和人工标注，最终形成汉语树库。由于现有的语料库的规模并不是很大，而且不同研究机构对于词性的标注规范不同，不能直接组合为一个大规模基础语料库。这也限制了语料的多领域适应性，限制了语料库发展的规模，阻碍了基于语料库语言学的发展。因此，需要采用一定的方式，将语料的标注标准进行统一化，使得异源的语料库可以融合起来利用，发挥多语料综合利用的效用。

当前在语料融合方面常用的方法有：将源语料的分词和词性标注标准进行转化，使其与目标语料一致，再将转化后的语料与目标语料融合，训练一个新词法分析器，利用这个新的词法分析器进行解码；以原标注信息作为指导、目标标注作为学习目标来自动地构建一个有噪声的平行标注语料，并用此分类器处理另一个语料库等。但是这些方法在测试集大于训练集的情况下，在转化过程中会因训练数据限制而出现分类错误。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的异源语料自动融合方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种异源语料自动融合方法，包括以下步骤：

步骤1)构建UNP映射词表；

步骤2)利用所述UNP映射词表对源体系的标注进行归一化处理；

步骤3)确定在语料融合的过程中产生歧义的词的词性，利用知网中的词语的概念定义，对语料体系中词的词义进行评判，进而确定词的词性标记，对于不同的语料体系，将其中需要进行词性排歧的词抽取出来；

步骤4)使用特征模板对目标词汇集合中的单类词进行训练，然后用所述特征模板对多类词进行预测，输出预测结果的概率值；

步骤5)对输出的概率值的分布曲线进行曲线拟合，选择合适数量义原组合为一个概念，然后将组合形成的概念与该词在知网下的各个概念进行相似度比较，选择知网中相似度最大的概念作为当前多类词的推荐结果，并使用推荐结果的词性标记作为该多类词的推荐标记；

步骤6)对预测结果进行置信度评价，以此来提高预测结果的准确性；

步骤7)对经过置信度评价后获得的预测结果，选取特定的几个词类进行正确性验证；

步骤8)将标注后的词及词性信息还原到原始语料中，将各个语料体系下的语料库直接融合为一个更大规模的语料库，形成目标体系。

进一步地，所述源体系包括TCT体系、PKU体系和XD973体系。

进一步地，所述步骤4)的曲线拟合的拟合值CF的公式描述为：

其中，T_f表示输出的概率分布中的最大概率值，T_s表示输出的概率分布中次最大概率值。

进一步地，对所述拟合值的取值公式为

N = \{\begin{matrix} 1, & C F &Element; [2, \infty] \\ 2, & C F &Element; [1.5, 2] \\ 3, & C F &Element; [1, 1.5] \end{matrix} .

进一步地，所述步骤5)中的置信度的定义为针对知网对于某个词的推荐词性，在结果评定时，认为其为正确的可靠度，置信度的概念描述为DC＝0.48*(log₂(P_mark)+log₂(F_context))；其中：

P_mark代表该标注词本身标记因素，其表示在以往的标记中，该词被标注为c的数量与该词的所有数目的一个比值，P_mark的计算公式为：

其中C_c表示该词被标记为c的所有数目，C_All表示该词的所有数目；

F_context代表该词的上下文环境因素，其计算公式为：

F_context＝(1+C_L)×(1+C_R)，

其中，C_c(l，w)表示上文l与词w共现且词w的标注为c的次数，C_All(l，w)表示上文l与词w的共现次数；C_c(w，l)表示词w与下文l共现且词w的标注为c的次数，C_All(w，l)表示词w与下文l共现的次数。。

本发明提供的异源语料自动融合方法，将不同体系的语料融合到一个体系下，以此来扩展语料库的规模，统一了标注标准；经过多语料的融合，扩充了语料资源建设过程中的语料规模，扩大了汉语树库建设过程中用到的基础语料库规模，提高了后续基于语料库语言学的研究分析的准确性，初步解决了语料库规范不同、标注不同的问题，为后期语料库资源的建设做好准备工作，本发明解决了语料库建设中标注规范不同的问题，最终的标注正确率可以达到87％以上，获得了较好的效果。

附图说明

图1为本发明提出的异源语料自动融合方法的流程图；

图2为第一个UNP映射实例的示意图；

图3为第二个UNP映射实例的示意图；

图4为义原概率分布图；

图5为未加入置信度概念的实际正确率分布示意图；

图6为置信度值数据统计结果示意图；

图7为加入置信度概念的实际正确率分布示意图；

图8为单类词与多类词最终正确率的对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种异源语料自动融合方法，包括以下步骤：

步骤1)对源体系的标注进行归一化处理，形成UNP映射词表；

步骤2)确定在语料融合的过程中产生歧义的词的词性，利用知网中的词语的概念定义，对语料体系中词的词义进行评判，进而确定词的词性标记，对于不同的语料体系，将其中需要进行词性排歧的词抽取出来；

步骤3)使用特征模板对目标词汇集合中的单类词进行训练，然后用所述特征模板对多类词进行预测，输出预测结果的概率值，预测的结果输出为概率分布；

步骤4)对输出的概率值的分布曲线进行曲线拟合，选择合适数量义原组合为一个概念，然后将组合形成的概念与该词在知网下的各个概念进行相似度比较，选择知网中相似度最大的概念作为当前多类词的推荐结果，并使用推荐结果的词性标记作为该多类词的推荐标记；

步骤5)对预测结果进行置信度评价，以此来提高预测结果的准确性；

步骤6)对经过置信度评价后获得的预测结果，选取特定的几个词类进行正确性验证；

步骤7)将标注后的词及词性信息还原到原始语料中，将各个语料体系下的语料库直接融合为一个更大规模的语料库，形成目标体系。

其中：

将需要融合的语料称为源体系，融合生成的语料称为目标体系。本实施例中采用的语料体系包括：TCT体系、PKU体系和XD973体系。其中，TCT语料体系是从大规模的经过基本信息标注的汉语平衡语料库中提取出100万汉字规模的文本为语料，经过自动句法分析和人工校对，形成高质量的汉语句法树库语料；PKU语料是北京大学对人民日报语料进行词语切分和词性标注形成的语料体系；XD973语料是山西大学按照其制定的汉语文本语料库分词、词性标注加工规范进行加工形成的语料体系。在语料融合之前，需要将源体系的标注进行归一化处理，形成归一化词类UNP映射词表，UNP映射词表是根据不同词类体系对应表：TCT、PKU、YWGB、XD等，在尽可能保留功能类词性的基础上，共保留了58个归一化词类标记，UNP映射词表中的部分标记如表1所示：

表1：UNP映射词表

在语料的融合过程中，需要解决两个问题：一、转化前的标注问题。对于原语料标注不符合当前要融合的体系的语料，要对其标记进行修正。二、转化后的问题。在融合的过程中，由于体系的差异，某些词在不同库中的标记有所不同，使得在融合过程中，词性产生歧义。在每个库中，都存在单类词和多类词情况。融合后出现的新问题是：某些词在各个体系中是单类词，但融合后变成了多类词，其形成原因是不同库中对词类标记分布特定的不同界定标准。研究的重点是为这些融合多类词选择确定一个合适的单词类标记。

例如，词“党支部”、“北边”、“门边”和“夜半”，在不同的体系下的标注信息不同。如表2所示：

表2：不同体系的词类标记

在PKU体系以及XD体系中，党支部标记为名词n，在TCT体系中，标记为机构团体词nO；在PKU体系以及XD体系中，北边标记为方位词f，在TCT体系中，标记为处所词s；“夜半”在PKU和TCT体系中，标记为时间词t，在XD体系中，标记为时间名词nT。这在几个例子中，可以看到，同一个词在不同的标记体系下的词性标记有所不同，这些差异会导致语料融合过程中的词性标记的不一致。

又比如，在某体系下，有句子序列“贯彻/v江泽民/nr同志/n“/wkz三/m个/qN代表/v”/wky重要/a思想/n”，根据映射词表的内容，需要将人名的nr标记修正为nP，将左括号wkz标记修正为wLB，将右括号wky标记修正为wRB。经过映射词表，可以将其中的一些专属标记规范化，融合后不会产生无关标记。

第一个UNP映射实例的示意图如图2所示。

在某体系下，有句子序列“为/p夺取/v现代化/vN建设/vN的/uJDE胜利/vN”、“以/p经济/n建设/vN为/v中心/n”。句子描述如图3第二个UNP映射实例示意图所示。在这两个句子序列中，词语“为”呈现出不同的词性，在句子序列1中是动词词性，在小句中作谓语成分。在句子序列2中是介词词性，介词修饰的部分做后续成分的状语。

对于该问题，实际上要做的就是确定在语料融合的过程中产生歧义的词的词性。词的词性是由一个词在一句话中所起的作用决定的，与它所在的上下文相关。在实际应用中，由词性标记联系到词在上下文中的词义，再由词义联系到该词的概念。一个词所能体现的不同词义也是由其本身所拥有的不同概念决定的。利用知网中的词语的概念定义，对语料体系中词的词义进行评判，进而确定词的词性标记。对于不同的语料体系，将其中需要进行词性排歧的词抽取出来。首先，明确几个定义：

定义1单类词：词语word的词性标记n＝1时，词语属于单类词，在某个库中只存在有一个不同的词类标记。

定义2多类词：词语word的标记n＞1时，词语属于多类词，存在多个不同的词类标记，标记的集合mark_set＝{mark₁，mark₂，…，}，n为词语word的不同词类标记的数目。

语料在融合的过程中，主要就是对这些多类词和单类词进行处理。在融合的过程中要考虑的主要问题就是词性的歧义。确定一个词的词性标记，属于分类问题，基于一种迁移学习的思想，一般认为一个词的词性与其上下文窗口有关联，可以将部分词及其上下文信息作为特征，训练出一个模板，来对其他的词进行分类。

语料形式如下示：

1)开创/v思想/n政治/n工作/vN的/uJDE新/a局面/n

2)今天/t是/v中国/nS共产党/n成立/v79/m周年/qT纪念日/nT。/wE

3)企业/n转账/v结算/v中/f的/uJDE大部分/m支出/n

语料的标注规范是不同的语料体系经过词性映射之后的标注规范。在实际应用过程中使用机器学习模型进行分类时，采用的特征模板是当前词在知网中的概念的义原，及其左右四个词的词条及其词性作为特征。特征输入模板如表3所示：

表3：特征输入模板

其中，n表示某个词的概念中的义原总数。根据上述输入模板，上述3)语料句子中的词“结算/v”在知网中的概念为“Vcalculate|计算，commercial|商”，对应的特征输入为：

1)calculate|计算企业n转账v结算中f的uJDE

2)commercial|商企业n转账v结算中f的uJDE

使用该特征模板对目标词汇集合中的单类词进行训练，然后用该模板对多类词进行预测，预测的结果输出为概率分布。对输出的概率值的分布曲线进行拟合，选择合适数量义原组合为一个概念。

曲线拟合的过程描述为：根据义原的概率比值，对于不同的比值，选取不同的义原组合为一个概念作为对该词的初步预测概念。所述步骤4)的曲线拟合的拟合值CF的公式描述为：

C F = \frac{\log_{2} (10 \times T_{f})}{T_{f} / T_{s}} - - - (1),

对所述拟合值的取值公式为

N = \{\begin{matrix} 1, & C F &Element; [2, \infty] \\ 2, & C F &Element; [1.5, 2] \\ 3, & C F &Element; [1, 1.5] \end{matrix} - - - (2),

通过程序统计，当数值大小排序在第一的概率值与排序在第二的概率值的比值在区间[1，1.5]时选取三个义原，比值落在区间(1.5，2)时选取两个义原，当比值大于2时选取一个义原时，可以获得较好的实施效果。

由以上描述所得，对于一个预测的结果，首先根据曲线拟合生成的阈值空间，选取不同数目的义原组合为一个概念，然后将组合形成的概念与该词在知网下的各个概念进行相似度比较，选择知网中相似度最大的概念作为当前多类词的推荐结果，并使用推荐结果的词性标记作为该多类词的推荐标记。在得出预测的结果之后，需要对预测的结果进行置信度评价，以此来提高预测结果的准确性。

置信度概念定义如下：

定义3置信度针对知网对于某个词的推荐词性，在结果评定时，认为其为正确的可靠度。

对于一个词w标注为c的置信度得分需要考虑如下几个方面的因素：

(1)该标注词本身标记因素P_mark

P_mark表示在以往的标记中，该词被标注为c的数量与该词的所有数目的一个比值。

P_{m a r k} = (1 + \frac{C_{c}}{C_{A l l}}) - - - (3),

其中C_c表示该词被标记为c的所有数目，C_All表示该词的所有数目

(2)该词的上下文环境因素F_context

F_context＝(1+C_L)×(1+C_R)(4)，

公式(4)中，C_c(l，w)表示上文l与词w共现且词w的标注为c的次数，C_All(l，w)表示上文l与词w的共现次数；C_c(w，l)表示词w与下文l共现且词w的标注为c的次数，C_All(w，l)表示词w与下文l共现的次数。最终，置信度的概念描述为

DC＝0.48*(log₂(P_mark)+log₂(F_context))(5)，

乘以系数0.48的目的是使置信度数值落在区间[0，1]。

对经过置信度评价后获得的结果，选取特定的几个词类进行正确性验证，比如助词、系动词、动词、介词等。对标注后的词及词性信息还原到原始语料中，此时的各个体系下的语料库即可直接融合为一个更大规模的语料库。

以下的实施例使用到的三个不同的体系下的语料分别是山西大学XD973语料标注体系、北京大学PKU00语料标注体系以及清华大学TCT语料标注体系。经统计所得，除去只在一个体系下出现的词后，剩余的词在这三个体系下的需要处理的单类词和多类词总数，即目标词汇集合为19110。目标词汇集合中的单类词数目为9604，多类词的数目为3774。利用建立的UNP映射词表，可以确定单类词的词性。

将单类词的概念中的各个义原作为这个词的特征，并取该词在所在的上下文信息作为模板来训练出一个模型，充分利用单类词的上下文信息对多类词的上下文进行分类。训练以及测试模块的步骤如下：

1)根据第四部分介绍的模板，从三个语料体系中，抽取出9604个单类词的上下文窗口作为训练语料，一共有4230439条训练输入，记为train_simple。

2)从三个语料体系中，抽取出3774个多类词的上下文窗口，一共有4599546条测试输入，记为test_multi。

使用最大熵工具进行分类，对train_simple训练后得到模型文件train_simple.model，使用这个模型对test_multi进行预测，预测结果输出为所有义原及其预测概率值，将该文件记为multi_rate。

对测试结果multi_rate进行分析，该文件的每一行是某个多类词的所有义原及其对应的预测概率值，试验中抽取前十个预测概率最大的义原进行分析，将其中的概率分布进行统计得出如图4所示的分布状况：

图4中表示的是概率最大的前两个义原的分布曲线。由图4可知，在绝大多数结果中，第一概率与第二概率的间距比较大，可通过第三部分介绍的曲线拟合方法，将输出的概率进行拟合，选取合适数目的义原组合为一个概念作为对多类词的初步预测结果。

得到对多类词的初步预测结果后，将预测的概念与多类词在知网中的所有概念进行相似度比较，选取相似度比最大的概念作为对多类词的最终预测结果，并选取最终概念的词性标记作为多类词的预测标记。

相似度是被定义为一个0到1之间的实数。将预测的概念与该词的所有概念进行相似度值计算，得到一个在0到1的相似度数值，根据该数值选取相似度最大的概念作为最终概念。实际应用中使用的是知网中的语义相似度计算工具WordSimilarity来对数据进行相似度计算。

根据词类信息在语料标注过程中对标注结构和标注层次的影响程度，对经过试验处理后的结果进行分析，试验中抽取动词v、系动词vM、助词u、以及介词p这四个对表组工作影响因子较大的词类来进行评价。评价的标准采用的是实际正确率，实际正确率的概念定义如下：

定义5实际正确率：正确条目R_c与结果总数R_all的比值R_c/R_all，用来反映实际应用结果的准确度。实际正确率RC的求解公式为：

R C = \frac{R_{c}}{R_{a l l}} - - - (6),

在标注结果中，各类词性所含的词的规模如表4所示：

表4：采用的数据

经过统计，未加入置信度概念评定的标注结果的实际正确率如图5所示。

由图5可知，对于最大熵预测的概念，在经过选取与知网中相似度最大的概念的步骤后，对多类词的消歧效果平均值可达到77％。这样的准确度在语料建设中还是不够的，需要采取一定的策略对消歧效果进行提升。

抽取部分实施结果数据进行观察，结果如表5所示：

表5：不同词类的预测结果

由表5可知，在助词的预测标记中，将属于助词uJDE的标记预测为a或d，这是由于在选取的窗口中，存在相同或相似的上下文环境，而在该上下文中，有多种不同的标记，造成预测标记不准确。在系动词的预测标记中可以看出，将属于系动词vM的词标记预测为v，出现这种状况是由于系动词紧邻动词做状语，在类似的窗口下，预测为动词标签。动词的情况与助词基本类似。而在介词的预测结果中，“对”和“与”在语料中分别拥有动词v以及连词c的属性，导致分类结果不够准确。

在实际应用过程中，引入置信度的概念对结果进行评定，先对置信度划分为10个区间，然后统计每个区间的词的数目。在实际应用过程中，选取223833条输出结果并对其置信度值进行统计，结果如图6所示。

统计得出所有的词的在置信度值均落在区间[0，0.1]和[0.3，0.4]，对于落在区间[0.3，0.4]的标记结果进行观测，评判落在该区间的词的词性标记的正确性，得出在该区间的标记结果具有较好的正确性，而对于落在区间[0，0.1]的标记结果进行统计分析时发现，当采用原标记时，会得到较好的标注结果。对经过置信度评定后的结果进行统计，选取实施例结果中的几个词类进行正确性评测，得出的实际正确率如图7所示。

从实施例结果来看，经过置信度评定后，选取的四个词性类别的实际正确率均有提升，对初步的标记结果进行了错误排查，降低了模型预测结果的错误率，同时也说明了置信度评定设计的合理性。对加入置信度评定的实施例结果数据结果抽样，数据结果如表6所示。

表6：加入置信度后的结果及其置信度DC值

由表6可知，对预测的结果加入置信度值评定后，可以将那些置信度值比较低的预测结果进行过滤，置信度低表明该预测标记的正确性就略低，对过滤掉的预测条目选取原标记作为其输出结果。

在实施例中，最后对所有的单类词和多类词的所有类别词类的平均标记正确率进行统计，得到如图8的实施结果。

从结果可知，通过本发明的语料融合的方法，先对词法分析阶段的标注进行归一化，并根据词的概念及其在上下文中所体现的语义进行来推测具有歧义性的词语的标记，可以获得较好的处理结果，在一定程度上解决了语料库标注规范不统一的问题，扩展了语料库的规模，使得多领域的语料可以融合到一个标准下来使用。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种异源语料自动融合方法，其特征在于，包括以下步骤：

步骤1)构建UNP映射词表；

2.根据权利要求1所述的异源语料融合方法，其特征在于，所述源体系包括TCT体系、PKU体系和XD973体系。

3.根据权利要求1所述的异源语料融合方法，其特征在于，所述步骤4)的曲线拟合的拟合值CF的公式描述为：

4.根据权利要求1-3所述的异源语料自动融合方法，其特征在于，对所述拟合值的取值公式为

N = \{\begin{matrix} 1, & C F &Element; [2, \infty) \\ 2, & C F &Element; [1.5, 2] \\ 3, & C F &Element; [1, 1.5) \end{matrix},

5.根据权利要求1所述的异源语料自动融合方法，其特征在于，所述步骤5)中的置信度的定义为针对知网对于某个词的推荐词性，在结果评定时，认为其为正确的可靠度，置信度的概念描述为DC＝0.48*(log₂(P_mark)+log₂(F_context))；其中：

其中C_c表示该词被标记为c的所有数目，C_All表示该词的所有数目。

F_context代表该词的上下文环境因素，其计算公式为：

F_context＝(1+C_L)×(1+C_R)，

其中，C_c(l，w)表示上文l与词w共现且词w的标注为c的次数，C_All(l，w)表示上文l与词w的共现次数。C_c(w，l)表示词w与下文l共现且词w的标注为c的次数，C_All(w，l)表示词w与下文l共现的次数。