CN108694164A

CN108694164A - 一种分词训练方法及装置

Info

Publication number: CN108694164A
Application number: CN201710229249.3A
Authority: CN
Inventors: 张春荣
Original assignee: Putian Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd; Putian Information Technology Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2018-10-23

Abstract

本发明实施例公开了一种分词训练方法及装置，方法包括：获取未标注样本，计算未标注样本中每个样本点的不确定值；根据每个样本点的不确定值，将未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料；接收用户对目标语料的标注操作，根据标注操作生成标注结果；根据标注结果和预设模型，得到分词训练的目标模型。本发明实施例通过计算样本点的不确定值，并获取特定不确定值的目标语料，仅对目标语料进行人工标注，除了能够避免重复标注，而且极大程度上降低了标注的工作量；同时通过将标注结果和预设模型结合，使得目标模型在预设模型基础上进行分词训练，目标模型的获取更为高效，也使得目标模型更为精简。

Description

一种分词训练方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种分词训练方法及装置。

背景技术

中文分词是中文信息处理中的重要基础问题，在机器翻译、信息检索、语音合成等诸多领域有着广泛应用。随着有指导中文分词方法的逐渐完善，表现较好的分词系统准确率能达到95％以上。但是在跨领域中文分词中，由于目标领域内容的变化，不可避免地带来了诸多训练语料中未出现的领域词汇。如果原领域是新闻词汇(例如常用的1998年人民日报语料)，而目标领域是轨道交通招投标词汇，经常出现新闻领域不常用的词汇，这使得分词系统的准确率大大降低。

针对领域适应性问题，需要通过引入新的特征来训练中文分词模型，加强中文分词模型的领域适应性。传统中文分词方法大多基于人工词典和需要大规模标注语料的统计模型，都是有指导的监督学习方法(即被动学习)。但是，无论编写词典还是标注语料库，都需要大量人工劳动。常见基于字标注分词方法，通过引入新的特征来训练中文分词模型，加强中文分词模型的领域适应性。图1为领域自适应训练和分词过程(其中虚线是训练过程，实线是中文分词过程)。领域适应性的分词训练：首先将“目标领域”未标注的语料进行人工标注，然后与“原领域”标注语料进行混合训练，得到目标领域模型。领域适应性的中文分词过程：利用得到的目标领域模型对目标领域文本进行分词，以获得中文分词结果。这个训练过程需要人工标注语料库，并用大规模已标注语料来对系统模型进行训练，而获取大量的标注样本是一件非常费时费力的工作。

在实现本发明实施例的过程中，发明人发现现有的方法在进行适应性训练时，人工标注的目标领域语料越多，训练的模型就越有效，就需要获取尽量多的目标领域的大规模标注语料，如图1所示。要标注大规模的数据集，每次按顺序或随机选取样本进行标注的代价相当大，通常获取大量的标注样本，是一件非常费时费力的工作。因此如何从大量的未标注样例中挑选最有价值的样例进行标注，使用少量人工标注样例进行训练得到的更有效的领域训练模型，是需要考虑的问题。另外，重复标注问题是对人工标注的大大浪费。例如，在训练数据中“人民”一词共出现了多次，这就意味着需要对该词重复标注多次。其次，现有的适应性训练中需要对原领域和目标领域标准的语料进行混合训练。这在实际中有多方面局限性：1)大规模语料是动态变化的，每次数据量(训练样本)的变化都引起重复学习；2)针对目标领域，只需修改因目标领域语料变化而涉及的规则，需要快速获得模型并部署，而在海量数据的情况下混合训练是一种耗时的工作。

发明内容

由于现有的方法存在上述问题，本发明实施例提出一种分词训练方法及装置。

第一方面，本发明实施例提出一种分词训练方法，包括：

获取未标注样本，计算所述未标注样本中每个样本点的不确定值；

根据所述每个样本点的不确定值，将所述未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料；

接收用户对所述目标语料的标注操作，根据所述标注操作生成标注结果；

根据所述标注结果和预设模型，得到分词训练的目标模型。

可选地，所述获取未标注样本，计算所述未标注样本中每个样本点的不确定值，具体包括：

根据公式一计算所述未标注样本中每个样本点的不确定值f(x_i)：

其中，X_i为第i个样本点，I_i为第i个样本点的右边界，y为预先统计得到的第i个样本点后能否被切分的参数值，y＝0表示第i个样本点后不能被切分，y＝1表示第i个样本点后能被切分。

可选地，所述根据所述标注结果和预设模型，得到分词训练的目标模型，具体包括：

根据所述标注结果，统计所述目标语料中预设长度子串的频度、变化特征和互信息；

将所述预设长度子串的频度、变化特征和互信息输入预设模型，得到分词训练的目标模型。

可选地，预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

其中，s为预设长度子串，L_av(s)为s的前驱数量，R_av(s)为s的后继数量。

可选地，预设长度子串的互信息MI(x,y)根据公式三计算得到：

其中，x和y分别为预设长度子串，p(xy)是x和y在目标语料中同时出现的概率，p(x)是x在目标语料中单独出现的概率；p(y)是y在目标语料中单独出现的概率。

第二方面，本发明实施例还提出一种分词训练装置，包括：

不确定计算模块，用于获取未标注样本，计算所述未标注样本中每个样本点的不确定值；

目标语料获取模块，用于根据所述每个样本点的不确定值，将所述未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料；

标注结果生成模块，用于接收用户对所述目标语料的标注操作，根据所述标注操作生成标注结果；

目标模型生成模块，用于根据所述标注结果和预设模型，得到分词训练的目标模型。

可选地，所述不确定计算模块具体用于根据公式一计算所述未标注样本中每个样本点的不确定值f(x_i)：

可选地，所述目标模型生成模块具体包括：

信息统计单元，用于根据所述标注结果，统计所述目标语料中预设长度子串的频度、变化特征和互信息；

模型生成单元，用于将所述预设长度子串的频度、变化特征和互信息输入预设模型，得到分词训练的目标模型。

可选地，所述信息统计单元中预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

可选地，所述信息统计单元中预设长度子串的互信息MI(x,y)根据公式三计算得到：

由上述技术方案可知，本发明实施例通过计算样本点的不确定值，并获取特定不确定值的目标语料，仅对目标语料进行人工标注，除了能够避免重复标注，而且极大程度上降低了标注的工作量；同时通过将标注结果和预设模型结合，使得目标模型在预设模型基础上进行分词训练，目标模型的获取更为高效，也使得目标模型更为精简。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为现有技术提供的一种分词训练方法的流程示意图；

图2为本发明一实施例提供的一种分词训练方法的流程示意图；

图3为本发明另一实施例提供的一种分词训练方法的流程示意图；

图4为本发明再一实施例提供的一种分词训练方法的流程示意图；

图5为本发明一实施例提供的一种分词训练装置的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图2示出了本实施例提供的一种分词训练方法的流程示意图，包括：

S201、获取未标注样本，计算所述未标注样本中每个样本点的不确定值。

其中，所述未标注样本为对目标领域语料进行数据预处理，解析成文本后得到的未经过人工标注的样本。

所述样本点为未标注样本中的字符。

所述不确定值可以采用ALUS策略对每个样本点给出一个评价值来表示其不确定性。

S202、根据所述每个样本点的不确定值，将所述未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料。

其中，所述不确定阈值根据具体要求预先确定。

具体地，计算所述未标注样本中每个样本点的不确定值后，确定出大于不确定阈值的目标样本点；以若干个目标样本点为断点，将所述未标注样本划分为若干个子样本(每个子样本的最后一个样本点的不确定值大于不确定阈值)；选择每个子样本中包含目标样本点的句子，作为分词训练的目标语料。

S203、接收用户对所述目标语料的标注操作，根据所述标注操作生成标注结果。

对目标语料进行人工标注，相比于现有技术中对未标注样本进行人工标注，大大减少的标注的工作量。

具体地，目标领域中文分词人工标注标准的制定：

前缀字集，前缀标为词的开始。例如“上”“前”，“最高”、“依次”、“中和”等。

后缀字集，后缀标为词的结束。工程招标领域常用的有表示线路，地名，站名等的尾词，例如**线(京广线)，**期，***路，**站，**街，**标段(第一标段)等。

常用词组合原则，标为合成词。例如，“轨道交通”，“招标公告”等在招中标工程领域经常出现的组合词。

长词优先原则，尽量标注最大词长的词。

本实施例采用BMES 4位标记集，利用该标记集标注后分词问题就可以转化成序列标注问题，这就使CRF进行中文分词变成了可能。句子中每个字符根据其在词中出现的位置给予不同的标记，其中B(begin)代表词的开始部分，M(middle)代表词的中间部分，E(end)代表词的结尾部分，S(single)代表单字词。其中标点作为单独成词的字符来处理，以S标记其词位。

例如：重庆市轨道交通十号线二期七星岗站及区间隧道工程招标公告

分词后：重庆市/轨道交通/十号线/二期/七星岗站/及/区间/隧道/工程/招标公告

标注后为:BME/BMME/BME/BE/BMME/S/BE/BE/BE/BMME

S204、根据所述标注结果和预设模型，得到分词训练的目标模型。

其中，所述预设模型为现有模型。

具体地，将标注结果输入预设模型进行分词训练，得到目标模型。

本实施例提供一种基于主动学习的中文分词增量训练方法，该方法提出主动学习(Active Learning)的领域自适应方法，是一种半监督的增量式的标注方法，因为标注时将未标注样本分为若干个子样本，每次对一个子样本的目标语料进行标注，则每次只需要人工标注当前模型分类中最不确定的样本，这样可以尽量避免标注重复样本，使得标注样本的差异近可能大，会极大程序上降低标注的工作量。通过对目标领域文本进行统计分析,从大量的未标注样例中挑选最有价值的样例进行标注，使用少量人工标注样例进行训练得到的更有效的领域训练模型。增量训练能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识，这非常类似于人类自身的学习模式。本发明算法不更改原领域模型，目标领域模型与混合数据训练的模型性能相近，目标领域模型更精简。增量训练的重要性体现在2个方面：1)在实际的语料库中，数据量往往是逐渐增加的，因此，在面临新的数据时，应能对训练好的系统进行某些改动，以对新数据中蕴涵的知识进行学习。2)对一个训练好的系统进行增量修改的时间代价通常低于重新混合训练所需的代价。

本实施例通过计算样本点的不确定值，并获取特定不确定值的目标语料，仅对目标语料进行人工标注，除了能够避免重复标注，而且极大程度上降低了标注的工作量；同时通过将标注结果和预设模型结合，使得目标模型在预设模型基础上进行分词训练，目标模型的获取更为高效，也使得目标模型更为精简。

进一步地，在上述方法实施例的基础上，S201具体包括：

本实施例采用ALUS策略对每个未标注样本点给出一个评价值来表示其不确定性，对这些样本的评价值进行排序，挑选不确定值较高的样本进行标注。标注后的样本点会加入到己标注样本集中，继续训练分词器，直到人工标注的数量达到给定阈值。定义公式一的f(x_i)来计算每个边界的不确定值，f(x_i)值越低表示p(y|I_i)的值越接近0.5，系统越不确定X_i右边界是否应被切分。

进一步地，在上述方法实施例的基础上，S204具体包括：

S2041、根据所述标注结果，统计所述目标语料中预设长度子串的频度、变化特征和互信息；

S2042、将所述预设长度子串的频度、变化特征和互信息输入预设模型，得到分词训练的目标模型。

具体地，根据所述标注结果，生成目标领域语料统计特征。可以直观地认为成词的字串，首先应当同时具备出现次数多。其次具有上下文环境丰富的特点。最后，词内部结合度是两个字或词紧密结合程度的度量，用来衡量两个字或词构成词语的可能性；词内部结合度越大，表明汉字结合越紧密，它们构成词语的可能性越大。这里主要选用三种统计特征：预设长度子串的频度、变化特征和互信息。

其中，预设长度子串的频度可以采用目标领域n-gram频度统计特征，即n-gram频度特征，或称n-gram的频度值，即n元字串在语料中的出现次数。本实施例统计了目标领域生语料中所有2元、3元、4元和5元字串的频度,其中频度小于5的字串被过滤。

进一步地，在上述方法实施例的基础上，S2041中预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

具体地，预设长度子串的变化特征也称为n-gram AV(Accessor Variety)特征，是从未标注语料中提取词语判断一个字串是否是词的统计标准。与n-gram频度值不同的是,n-gram AV值对频度值进行了筛选。AV的主要思想是:若一个字串在多种语境下出现,那么该字串成为词的可能性就高。

进一步地，在上述方法实施例的基础上，S2041中预设长度子串的互信息MI(x,y)根据公式三计算得到：

具体地，互信息通常用来衡量两个信号的相互依赖程度，可以用来度量二元组的内部结合紧密程度。当MI(xy)>＞0时，表明x和y是高度相关的，即x和y经常同时出现，字符串xy越可能构成新词；当MI(xy)＝0时，表明x和y是相互独立分布的；当MI(xy)<<0时，表明x和y是互不相关分布的。互信息越大，说明二元组的内部结合度越大，二元组成为未登录词或者未登录词的一部分的可能性越大。

增量训练学习部分就是一个基本的分词器，使用标注结果A’以及预设模型L来训练分词器。本文使用CRF分词器，在CRF模型中选取特征模板是最为关键的部分，它决定了识别的正确率。在特征模板的选取上，一般选择字符本身及字符的上下文特征信息，所选取的特征要尽可能体现所识别对象的特点阳。本次实验中采用的CRFs特征模板来自CRF++包，如表1所列,该特征模板中的特征分为Unigram和Bigram两类。

表1 CRF特征模板

在增量训练算法中，先复制创建一个与预设模型一样的模型，并在此基础上增添训练语料迭代更新参数，最终输出一个新的目标模型。

本实施例提出一种基于主动学习的中文分词增量训练方法。首先，该方法采用主动学习选择语料进行标注，主动学习是一种增量式的标注方法，每次只需要人工标注当前模型分类中最不确定的样本，这样可以尽量避免标注重复样本，使得标注样本的差异近可能大。要标注大规模的数据集，每次按顺序或随机选取样本进行标注的代价相当大，而通过主动学习，每次选取对当前分类模型来说具有最不确定性的样本，会极大程度上降低标注的工作量。同时，通过对目标领域文本进行统计分析,该方法使用增量训练解决领域适应性训练的问题，在不更改原领域模型，目标领域模型与混合数据训练的模型性能相近，目标领域模型更精简。

图3和图4示出了本实施例提供的分词训练方法，该方法与图1的不同之处在于，在领域适应性的分词训练中加入了主动学习选择语料的过程，对少量语料进行人工标注后，与原领域模型进行增量训练。

方案实施的具体流程，如图4所示，包括以下步骤：

A1、获取目标领域未标注语料U；

A2、主动学习选择语料A；

A3、人工标注目标领域少量语料A’

A4、生成目标领域语料统计特征，利用原模型L和A’，进行模型增量训练，获得目标领域模型。

A5、利用原模型和目标领域模型,对目标领域文本T进行分词测试。

测试的原语料库是人民日报1998年2月-6月(后10％数据作为开发集)作为训练数据，1月作为测试数据。目标领域语料是2016年1月-10月轨道交通领域的工程招标、中标公示文件6215篇。对目标领域语料进行统计分析，主动学习选取语料，然后进行人工标注。评测实验采用准确率(P)、召回率(R)、综合性能指标(F值)对中文分词系统进行测评。

A6、更新语料库，将A从U中删除，重复步骤A1-A6，不断提高中文分词准确率，直到达到预期的准确率或者最大训练次数后，终止。

本实施例采用主动学习选择语料进行标注，从大量的未标注样例中挑选最有价值的样例，每次只需要人工标注当前模型分类中最不确定的样本。同时，通过对目标领域文本进行统计分析,该方法使用增量训练解决领域适应性训练的问题，在不更改原领域模型时，获得目标领域模型。

图5示出了本实施例提供的一种装置的结构示意图，所述装置包括：不确定计算模块501、目标语料获取模块502、标注结果生成模块503和目标模型生成模块504，其中：

所述不确定计算模块501用于获取未标注样本，计算所述未标注样本中每个样本点的不确定值；

所述目标语料获取模块502用于根据所述每个样本点的不确定值，将所述未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料；

所述标注结果生成模块503用于接收用户对所述目标语料的标注操作，根据所述标注操作生成标注结果；

所述目标模型生成模块504用于根据所述标注结果和预设模型，得到分词训练的目标模型。

具体地，所述不确定计算模块501获取未标注样本，计算所述未标注样本中每个样本点的不确定值；所述目标语料获取模块502根据所述每个样本点的不确定值，将所述未标注样本划分为若干个子样本，并根据不确定阈值获取每个子样本中分词训练的目标语料；所述标注结果生成模块503接收用户对所述目标语料的标注操作，根据所述标注操作生成标注结果；所述目标模型生成模块504根据所述标注结果和预设模型，得到分词训练的目标模型。

进一步地，在上述装置实施例的基础上，所述不确定计算模块501具体用于根据公式一计算所述未标注样本中每个样本点的不确定值f(x_i)：

进一步地，在上述装置实施例的基础上，所述目标模型生成模块504具体包括：

进一步地，在上述装置实施例的基础上，所述信息统计单元中预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

进一步地，在上述装置实施例的基础上，所述信息统计单元中预设长度子串的互信息MI(x,y)根据公式三计算得到：

本实施例所述的分词增量训练装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分词训练方法，其特征在于，包括：

根据所述标注结果和预设模型，得到分词训练的目标模型。

2.根据权利要求1所述的方法，其特征在于，所述获取未标注样本，计算所述未标注样本中每个样本点的不确定值，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述标注结果和预设模型，得到分词训练的目标模型，具体包括：

4.根据权利要求3所述的方法，其特征在于，预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

5.根据权利要求3所述的方法，其特征在于，预设长度子串的互信息MI(x,y)根据公式三计算得到：

6.一种分词训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述不确定计算模块具体用于根据公式一计算所述未标注样本中每个样本点的不确定值f(x_i)：

8.根据权利要求6所述的装置，其特征在于，所述目标模型生成模块具体包括：

9.根据权利要求8所述的装置，其特征在于，所述信息统计单元中预设长度子串的变化特征AV(s)根据公式二计算得到：

AV(s)＝min{L_av(s),R_av(s)} 公式二

10.根据权利要求8所述的装置，其特征在于，所述信息统计单元中预设长度子串的互信息MI(x,y)根据公式三计算得到：