CN108228557A

CN108228557A - 一种序列标注的方法及装置

Info

Publication number: CN108228557A
Application number: CN201611156464.7A
Authority: CN
Inventors: 韩旭红
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2018-06-29
Anticipated expiration: 2036-12-14
Also published as: CN108228557B

Abstract

本发明公开了一种序列标注的方法及装置，涉及互联网技术领域，主要目的在于解决由于高层序列标注结果依赖于低层序列标注结果的准确率，导致高层标注结果准确率低的问题。本发明的技术方案包括：对每一层选取标注特征，构建序列标注模型；通过训练文本对所述序列标注模型进行训练，获得训练标注结果；通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。本发明能够提高最终标注结果的准确性。

Description

一种序列标注的方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种序列标注的方法及装置。

背景技术

自然语言处理是一门融合语言学、计算机科学、数学的科学，研究实现人与计算机之间用自然语言进行有效通信的理论和方法。在自然语言处理中，序列标注模型是常用的模型，被广泛应用于文本处理等相关领域，例如分词标注、词性标注、命名实体识别标注、依存句法分析标注等方面序列标注。

在序列标注模型的使用过程中，对于多层标注任务来说，由于大多标注层次之间具有密切关联，高层标注模块可以建立在低层标注模块分析的基础上，通过低层序列标注结果对高层序列进行标注。就上述举例而言，所述高层标注模块指依存句法分析标注，所述低层标注模块指分词标注、词性标注、命名实体识别标注，而大多词性标注依赖于分词标注结果，命名实体识别标注依赖于分词标注和词性标注结果，依存句法分析标注依赖分词标注、词性标注以及命名实体识别标注结果。假设分词标注结果准确率为90％，词性标注结果准确率为90％，命名实体识别标注结果准确率为90％，依存句法分析标注结果准确率为90％，则依存句法分析标注后的最终结果准确率为90％*90％*90％*90％＝65.61％。

可以看出在简单的级联标注过程中，由于高层序列标注结果依赖于低层序列标注结果的准确率，容易导致标注结果准确率逐层递减。

发明内容

鉴于上述问题，本发明实施例提供了一种序列标注的方法及装置。

一方面，本发明提供了一种序列标注的方法，所述方法包括：

对每一层选取标注特征，构建序列标注模型；

通过训练文本对所述序列标注模型进行训练，获得训练标注结果；

通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；

通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。

另一方面，本发明提供了一种序列标注的装置，所述装置包括：

构建单元，用于对每一层选取标注特征，构建序列标注模型；

训练单元，用于通过训练文本对所述序列标注模型进行训练，获得训练标注结果；

修正单元，用于通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；

标注单元，用于通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。

本发明提供的序列标注的方法及装置，对每一层选取标注特征，构建序列标注模型；通过训练文本对所述序列标注模型进行训练，获得训练标注结果；通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。与现有技术相比，能够通过反向传播算法对错误的训练标注结果依赖的特征函数进行权重降低，从而对每一层的序列标注模型进行调整，提高了最终的标注结果的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种序列标注方法的流程图；

图2示出了本发明实施例提供的第二种序列标注方法的流程图；

图3示出了本发明实施例提供的第三种序列标注方法的流程图；

图4示出了本发明实施例提供的第四种序列标注方法的流程图；

图5示出了本发明实施例提供的一种序列标注装置的组成框图；

图6示出了本发明实施例提供的另一种序列标注装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种序列标注的方法，如图1所示，该方法包括：

101、对每一层选取标注特征，构建序列标注模型。

在实际应用中，现有的序列标注模型，主要有HMM模型，MEMM模型以及CRF模型等，这些模型都可以作为每一层级联序列标注中的模型使用，每一层的标注模型可以不同，比如，词性标注模型可以使用CRF模型，依存序列标注模型可以使用HMM模型，以下，以CRF模型为例进行说明，需要说明的是，本发明实施例对每层使用的序列标注模型不做具体限定。

在级联序列标注过程中，很多标注层次之间具有密切关联，高层标注模块建立在低层标注模块分析的基础上。每层标注任务处于递进关系，例如，以“分词标注＝>词性标注＝>依存句法分析标注”为例进行阐述说明，词性标注任务依赖分词标注结果的准确性，依存句法分析标注依赖于分词标注、词性标注的准确性。

在构建级联序列标注模型时，需要对每层的标注任务选取标注特征，利用标注特征之间的关系或满足的条件建立特征函数，每一层标注模型的特征选择依赖于当前所要标注的角色内容。例如，对于分词，可以将当前字形和前后n个字的字形等信息作为特征；对于词性标注，可以将当前词性和词边界以及前后n个词词性和词边界等信息作为特征，在特征选择列选取的过程中，可以根据标注任务进行特征列的组合、添加。

102、通过训练文本对所述序列标注模型进行训练，获得训练标注结果。

对每层构建的标注模型，进行训练，训练过程中会得到标注序列，但该标注序列与标准序列之间由于特征列的选取，以及特征函数的可信度等因素，会存在差异。当确定标注序列与标准标注结果存在差异，则更新模型参数，经过有限次参数更新，直至模型算法收敛，得到训练标注结果。

103、通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型。

上述训练模型完成后，可能会得到错误的训练标注结果，需要对训练标注结果通过反向传播算法进行修正。由于级联序列的特征，上一层的标注结果会直接影响下一层、以致更高层次的标注结果，而影响标注结果的因素包括特征函数的可信度和选取标注特征的准确度。

反向传播算法是对每层标注模型进行修正的方法，是从高层标注结果出发，根据标注特征，特征函数之间的依赖关系，反向对标注结果依赖的小于预设阈值的特征函数权重进行修正的方法，通过层级递进关系，对每层可信度低的特征函数，降低权重。最终通过重复利用反向传播算法，逐层进行模型修正，直至所有层权重收敛，获得最终序列标注模型。

104、通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。

根据上述反向传播算法对每层标注模型修正之后，得到可以与标准结果标注相近的最终模型，则可以对待标注文本进行序列标注，获得最终标注结果。

本发明提供的序列标注的方法，对每一层选取标注特征，构建序列标注模型；通过训练文本对所述序列标注模型进行训练，获得训练标注结果；通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。与现有技术相比，能够通过反向传播算法对错误的训练标注结果依赖的特征函数进行权重降低，从而对每一层的序列标注模型进行调整，提高了最终的标注结果的准确性。

进一步的，现有技术中依赖低层标注结果对高层进行序列标注，导致高层标注的准确率低。如果先确定每一层的错误标注结果，并进行及时修正引起该层出现错误标注结果的相关依赖关系，包括可信度低的特征函数，若能及时修正，则会降低错误率的延续。如图2所示，本发明实施例提供一种反向传播算法，特别是提供一种特征函数的可信度小于所述预设阈值的方法，所述方法包括：

201、确定所述训练标注结果所依赖的特征函数。

构建序列标注模型时，在CRF模型中，特征函数可以根据用户需求自己定义，对于不可以自己定义特征函数的模型，特征函数需要根据选取的特征列，通过复杂的逻辑关系计算得到，得到的每一个特征函数权重值是不同的。特征函数根据输入的特征列中的不同元素，确定标注列中的一个或多个标注结果。或者一个标注结果也可以由多个特征函数组合推断获得。对于字符串而言，通常特征函数需要依赖其中不同的字形获得标注结果。本实施例不对特征函数与特征列中元素数量的对应关系，以及特征函数与标注结果数量的对应关系进行限制。

202、计算所述特征函数的可信度。

所述某一特征函数temp_ci的可信度可用公式定义，公式定义可用某一特征函数相关的标注结果，且标注结果为真的数量，与其相关的标注结果总数的比值计算，本发明实施例仅提供了一种计算方式，具体可信度公式计算本发明实施例不做限制。

203、若所述特征函数的可信度小于预设阈值，则修正所述训练标注结果依赖的所述特征函数的权重。

在训练模型后，会得到一个特征函数可信度的阈值，也可以为预设的一个阈值，比如，阈值大小为0.7，假设有5个标注结果同时依赖该特征函数，若其中有4个标注结果是正确的，则该特征函数的可信度为Conf-temp_ci＝4/5＝0.8；若其中有3个标注结果是正确的，则该特征函数的可信度为Conf-temp_ci＝3/5＝0.6，此时，该特征函数可信度小于阈值，则修正标注结果依赖的所述特征函数的权重，假设特征函数的权重为0.6，则会降低其权重为0.2，本发明实施例对具体的阈值大小、特征函数的可信度、降低权重值不做具体限定。

进一步的，影响训练标注结果准确度的特征函数除了包括上述特征函数的可信度小于预设阈值，还会出现特征函数的可信度大于或等于所述预设阈值情况，当该条错误的训练标注结果依赖的该条特征函数可信度大于或等于阈值时，说明依赖该条特征函数出现正确标注结果的概率大，但由于此时出现的训练标注结果是错误的，因此，需要对该特征函数依赖的特征列的准确度进行判断，本发明实施例提供一种当特征函数的可信度大于或等于所述预设阈值时，修正权重的方法，如图3所示，所述方法进一步包括：

301、判断所述特征函数依赖的每一条基础标注结果是否为错误的标注结果，所述基础标注结果为前一层或前几层的训练标注结果。

判断所述特征函数依赖的每一条基础标注结果是否为正确的标注结果，即选取的特征列，该特征列是基础标注结果，可以包括前一层或前几层的训练标注结果，根据标注任务对基础标注结果进行选择，可以添加，也可以删除。

示例性的，“我爱北京天安门”依存句法分析标注任务，输入特征列的基础标注结果可以是，如表1，

其中，第二列为“我爱北京天安门”的分词训练标注结果，第三列为词性训练标注结果，第二列可以删除，也可以添加。假设第二列分词训练标注结果删除时，则需要确定该条大于或等于阈值的特征函数依赖的词性训练标注结果是否正确。

302、若所述基础标注结果为错误的标注结果，则计算所述基础标注结果依赖的特征函数的可信度。

承由步骤301，示例性的，若“爱”的词性训练标注结果是错误的，标注为名词，则需要计算“爱”的词性训练标注结果依赖的特征函数的可信度，而根据标注模型的构建依赖关系，可以知道其依赖的特征函数是“我爱北京天安门”词性标注层中的特征函数。

303、若所述特征函数的可信度小于所述预设阈值，则修正错误的基础训练标注结果依赖的所述特征函数的权重。

承由步骤302，示例性的，特征函数可信度计算方法与步骤203示例方法相同，这里就不进行赘述。若“爱”词性标注结果依赖的特征函数可信度小于阈值，则降低该特征函数的权重。

进一步的，在对当前层的标注结果依赖的特征函数的权重进行修正后，在实际应用中，还需要根据反向传播算法，对低层每一层的所述特征函数权重进行修正，直至所有层权重收敛，具体计算方法与步骤302、303相同，这里不再赘述。

进一步的，模型标注特征的选择对标注结果也有很重要的作用，由于标注任务层级关系的联系，根据低层标注结果可以预测相对高层的标注结果，所以在选取标注特征时，包括当前层的特征列以及所述基础标注结果。比如：“我爱北京天安门”依存关系分析标注任务的标注特征当前层的特征列可用前后n个词语的词和词性组合作为特征列，基础标注结果的输入特征列已经在示例301举例说明。

进一步的，在获得训练标注结果之后，会产生标注结果错误的情况，如果产生了错误的标注结果，就会影响下一层的标注结果，所以需要对该层标注结果进行确定，并对错误标注结果依赖的可信度低的特征函数进行修正，降低其对标注结果的影响，如图4所示，本发明实施例提供一种确定错误训练标注结果的方法，进一步包括：

401、将所述训练标注结果与标准标注结果进行比对。

承由步骤301，“我爱北京天安门”词性训练标注结果与标准标注结果，如表2，

其中，标准标注结果会进行预设。

402、若所述训练标注结果与标准标注结果不同，则将所述训练标注结果确定为错误的训练标注结果。

承由步骤401，可以确定“我爱北京天安门”词性训练标注结果与标准标注结果中，“爱”的词性训练标注结果是错误的，需要通过上述图1步骤103对其相关特征函数进行权重修正。

进一步的，作为对上述方法的实现，本发明实施例还提供了一种序列标注的装置，其特征在于，如图5所示，所述装置包括：

构建单元51，用于当所述对每一层选取标注特征，构建序列标注模型；

训练单元52，用于通过训练文本对所述序列标注模型进行训练，获得训练标注结果；

修正单元53，用于通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；

标注单元54，用于通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。

进一步的，如图6所示，所述修正单元53，包括：

确定模块531，用于确定训练标注结果所依赖的特征函数；

第一计算模块532，用于计算所述特征函数的可信度；

第一修正模块533，用于当所述特征函数的可信度小于预设阈值时，修正所述训练标注结果依赖的所述特征函数的权重。

进一步的，如图6所示，所述修正单元53，进一步包括：

判断模块534，用于当所述特征函数的可信度大于或等于所述预设阈值时，判断所述依赖特征函数的每一条基础标注结果是否为错误的标注结果，所述基础标注结果为前一层或前几层的训练标注结果；

第二计算模块535，用于当所述基础标注结果为错误的标注结果时，计算所述基础标注结果依赖的特征函数的可信度；

第二修正模块536，用于当所述特征函数的可信度小于所述预设阈值时，修正错误的基础训练标注结果依赖的所述特征函数的权重。

进一步的，如图6所示，所述修正单元53，进一步包括：

第三修正模块537，用于在对所述当前层的标注结果依赖的特征函数的权重进行修正之后，根据反向传播算法，对低层每一层的所述特征函数权重进行修正，直至所有层权重收敛。

进一步的，所述构建单元51使用的所述标注特征包括当前层的特征列以及所述基础标注结果。

进一步的，如图6所示，所述装置进一步包括：

比对单元55，用于所述训练单元52在获得所述训练标注结果后，将所述训练标注结果与标准标注结果进行比对；

确定单元56，用于当所述训练标注结果与标准标注结果不同时，将所述训练标注结果确定为错误的训练标注结果；

修正单元53，用于若产生错误的训练标注结果，则通过反向传播算法对序列标注模型进行迭代修正。

本发明提供的序列标注的装置，对每一层选取标注特征，构建序列标注模型；通过训练文本对所述序列标注模型进行训练，获得训练标注结果；通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型；通过所述最终的序列标注模型对待标注文本进行序列标注，获得最终标注结果。与现有技术相比，能够通过反向传播算法对错误的训练标注结果依赖的特征函数进行权重降低，从而对每一层的序列标注模型进行调整，提高了最终的标注结果的准确性。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种序列标注的方法，其特征在于，所述方法包括：

对每一层选取标注特征，构建序列标注模型；

2.根据权利要求1所述的方法，其特征在于，所述通过反向传播算法对所述序列标注模型进行迭代修正，获得最终的序列标注模型，包括：

确定所述训练标注结果所依赖的特征函数；

计算所述特征函数的可信度；

若所述特征函数的可信度小于预设阈值，则修正所述训练标注结果依赖的所述特征函数的权重。

3.根据权利要求2所述的方法，其特征在于，若所述特征函数的可信度大于或等于所述预设阈值，则所述方法进一步包括：

判断所述特征函数依赖的每一条基础标注结果是否为错误的标注结果，所述基础标注结果为前一层或前几层的训练标注结果；

若所述基础标注结果为错误的标注结果，则计算所述基础标注结果依赖的特征函数的可信度；

若所述特征函数的可信度小于所述预设阈值，则修正错误的基础训练标注结果依赖的所述特征函数的权重。

4.根据权利要求3所述的方法，其特征在于，在对当前层的标注结果依赖的特征函数的权重进行修正后，所述方法进一步包括：

根据反向传播算法，对低层每一层的所述特征函数权重进行修正，直至所有层权重收敛。

5.根据权利要求4所述的方法，其特征在于，所述标注特征包括当前层的特征列以及所述基础标注结果。

6.根据权利要求1所述的方法，其特征在于，在获得训练标注结果之后，所述方法进一步包括：

将所述训练标注结果与标准标注结果进行比对；

若所述训练标注结果与标准标注结果不同，则将所述训练标注结果确定为错误的训练标注结果；

所述通过反向传播算法对所述序列标注模型进行迭代修正，包括：

若产生错误的训练标注结果，则通过反向传播算法对所述序列标注模型进行迭代修正。

7.一种序列标注的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述修正单元，包括：

确定模块，用于确定所述训练标注结果所依赖的特征函数；

第一计算模块，用于计算所述特征函数的可信度；

第一修正模块，用于当所述特征函数的可信度小于预设阈值时，修正所述训练标注结果依赖的所述特征函数的权重。

9.根据权利要求8所述的装置，其特征在于，所述修正单元，进一步包括：

判断模块，用于当所述特征函数的可信度大于或等于所述预设阈值时，判断所述依赖特征函数的每一条基础标注结果是否为错误的标注结果，所述基础标注结果为前一层或前几层的训练标注结果；

第二计算模块，用于当所述基础标注结果为错误的标注结果时，计算所述基础标注结果依赖的特征函数的可信度；

第二修正模块，用于当所述特征函数的可信度小于所述预设阈值时，修正错误的基础训练标注结果依赖的所述特征函数的权重。

10.根据权利要求9所述的装置，其特征在于，所述修正单元，进一步包括：

第三修正模块，用于在对所述当前层的标注结果依赖的特征函数的权重进行修正之后，根据反向传播算法，对低层每一层的所述特征函数权重进行修正，直至所有层权重收敛。