CN107818079A

CN107818079A - 多粒度分词标注数据自动获取方法及系统

Info

Publication number: CN107818079A
Application number: CN201710791701.5A
Authority: CN
Inventors: 李正华; 张民; 龚晨
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2018-03-20

Abstract

本发明涉及一种多粒度分词标注数据自动获取方法及系统，为了能够准确、快速、自动的获得多粒度分词标注数据而设计。本发明选择n种不同规范的单粒度分词标注数据集，将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列，被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果；合并每一个句子的多粒度分词结果，形成多粒度分词标注数据集。本发明首次提出了多粒度分词的概念；使用耦合序列标注模型进行不同规范间单粒度分词标注数据的转换，从而获取多粒度分词标注数据。

Description

多粒度分词标注数据自动获取方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种多粒度分词标注数据自动获取方法及系统。

背景技术

传统的分词任务都为单粒度分词任务，即一个连续的字序列只能按照一种特定的分词规范切分为唯一一个词序列。同时，现有的人工标注分词标注数据也都为单粒度分词标注数据。因此，国内外尚不存在多粒度分词标注数据。

单粒度分词结果为一个词序列结构。单粒度分词标注数据严格按照某一种特定的标注规范，经过人工标注得到。存在两个问题：(1)不同人对于词语的认识不同，即使通过学习标注规范，仍然会有分歧，导致标注不一致。(2)基于单粒度分词标注数据的单粒度分词任务，无法满足实际应用的需求。有的应用同时需要不同粒度的分词结果，从而产生更好的结果。

有了多粒度分词标注数据，才能有效训练多粒度分词模型。由于现有的分词标注数据都为单粒度分词标注数据，且目前尚未出现多粒度分词标注数据的获取方法，因此，若要获得多粒度分词标注数据，一种方法是通过人工标注的方法完成。然而人工标注的方法存在以下几个缺点：(1)制定多粒度分词标注规范的难度非常大，显然比制定一个单粒度分词标注规范更困难。(2)对标注者的要求更高，需要标注者学习一个更复杂的标注规范。(3)标注过程更复杂，标注结果从序列结构，变成层次结构。总之，人工标注多粒度分词标注数据的人力和时间成本非常高。

有鉴于上述的缺陷，本设计人积极加以研究创新，以期创设一种多粒度分词标注数据自动获取方法及系统，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种利用机器学习的方式自动获取句子的多粒度分词结果，进而经获取的多粒度分词结果合并形成多粒度分词标注数据的多粒度分词标注数据自动获取方法及系统。

为达到上述发明目的，本发明多粒度分词标注数据自动获取方法，包括：

选择n种不同规范的单粒度分词标注数据集，其中n≥2，且n为正整数；

将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列，被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果；

合并每一个句子的多粒度分词结果，形成多粒度分词标注数据集。

进一步地，还包括:将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。

进一步地，还包括：检查所述多粒度分词层次结构中词语是否存在交叉，若存在交叉，则进行人工校正。

进一步地，将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列过程中，首先，将单粒度分词标注数据集中的句子划分出train 数据、dev数据、test数据三类数据，然后，三类数据分别转化为遵守其他分词规范的分词序列。

进一步地，采用基于异构标注数据的快速序列标注方法将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列。

进一步地，将至少两种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列。

为达到上述发明目的，本发明多粒度分词标注数据自动获取系统，包括：

分词规范选择单元，用于选择n种不同规范的单粒度分词标注数据集，其中n≥2，且n为正整数；

句子规范转换单元，用于将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列，被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果；

分词序列合并单元，用于合并每一个句子的多粒度分词结果，形成多粒度分词标注数据集。

进一步地，还包括层次结构生成单元，用于将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。

进一步地，纠错单元，用于检查所述多粒度分词层次结构中词语是否存在交叉。

借由上述方案，本发明多粒度分词标注数据自动获取方法及系统至少具有以下优点：

第一，本发明充分利用已有的单粒度分词人工标注数据，进行两两转化，从而获得多粒度分词标注数据；

第二，本发明多粒度分词层次结构表示，可以表示出句子中不同粒度的词语，更好地服务上层应用。比如，粗粒度的词语能够抽取细致的特征，提供更多上下文和更全面准确的信息，进行更精确的匹配；细粒度的词语能表达更基本的信息，从而缓解统计机器学习方法面临的数据稀疏问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明多粒度分词标注数据自动获取方法的实施例1的句子的多粒度分词层次结构；

图2是本发明多粒度分词标注数据自动获取方法的实施例2的句子的多粒度分词层次结构；

图3是本发明多粒度分词标注数据自动获取方法的实施例2的句子的多粒度分词层次结构；

图4是本发明多粒度分词标注数据自动获取方法的3种不同规范的单粒度分词标注数据集中的句子相互转化的示意图；

图5是本发明多粒度分词标注数据自动获取方法的不同规范的单粒度分词标注数据集中的句子相互转化的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本实施例多粒度分词标注数据自动获取方法，包括：

选择三种不同规范的单粒度分词标注数据集，也即CTB、PPD、MSR三种分词规范；

如图4所示，将MSR中的句子转化为遵守PPD分词规范的分词序列；将MSR 中的句子转化为遵守CTB分词规范的分词序列；这样每一个MSR的句子就有三种遵守不同规范的分词序列。在本实施例中，将PPD中的句子转化为遵守CTB 分词规范的分词序列；将PPD中的句子转化为遵守MSR分词规范的分词序列；这样每一个PPD的句子就有三种遵守不同规范的分词序列。同样类似的，MSR中的句子转化为遵守CTB分词规范的分词序列；将MSR中的句子转化为遵守PPD 分词规范的分词序列。进行完上述过程后，CTB、PPD、MSR三种分词规范中的每一个句子都有了三种遵守不同规范的分词序列，合并所有的分词序列形成多粒度分词标注数据集。

本实施例中，采用中国专利，申请号：201610463435.9所述的基于异构标注数据的快速序列标注方法将其中遵守其中一种分词规范的句子转化为遵守另一种分词规范的分词序列。给定MSR和PPD的单粒度分词标注数据作为输入，训练一个MSR和PPD数据的耦合序列标注模型。用同样的方法训练MSR和CTB 数据的耦合序列标注模型以及PPD和CTB数据的耦合序列标注模型。

利用耦合模型进行转化的过程：通过训练得到耦合模型后，即可利用耦合模型完成不同规范的单粒度分词标注数据的转化。这里以MSR规范单粒度分词标注数据转化为PPD规范的单粒度分词标注数据为例，首先，给定耦合标记一端的正确答案，以此获取模糊标记，如表1所示，其中，B表示当前字是词语中的第一个字，E表示当前字是词语中的最后一个字，I表示当前字是词语中位于中间的字，S表示由当前单独的一个字即可组成词语。表1中第二行中每个单元格里左侧的标记为某种单粒度分词标注数据中的正确分词标记，右侧的标记列举出了所有可能的四种标记，这样组成了一组模糊标记，如“全”字在MSR规范下得的标注为“B”,它的模糊标记为“BB BI BE BS”。然后，利用模糊标记集合和一个耦合模型即可在不同规范的单粒度分词标注数据间转化。其基本思想是用一端的正确标记作为强约束进行约束解码，用正确标记端作为指导特征来进行转化。给定MSR分词标注数据和模糊标记集合，将该数据输入到MSR和 PPD耦合模型中测试，可以输出MSR数据的一个耦合标记集合。该耦合标记集合的一端为正确的MSR分词标记，另一端为模型预测出的PPD分词标记，这样便完成了从MSR规范的单粒度分词标注数据到PPD规范的单粒度分词标注数据的转化。如表1中的“全”字解码后的输出为“BB”，左侧的“B”表示MSR分词标注数据上人工标注的结果，右侧的“B”表示模型预测出的PPD规范的单粒度分词结果。

表1

以“全国各地医学界专家走出医学大会堂”这个句子为例，如表2所示， MSR规范下它被分为“全国各地”“医学”“界”“专家”“走出”“医学大会堂”等词语，将它转化到PPD规范的单粒度分词标注数据后被分成“全国”“各地”“医学界”“专家”“走”“出”“医学”“大会堂”等词语。用同样的方法，可以将这句话从MSR规范的单粒度分词标注数据转化为CTB规范的单粒度分词标注数据，得到“全”“国”“各”“地”“医学界”“专家”“走出” “医学”“大会堂”的划分结果。

表2“全国各地医学界专家走出医学大会堂”这个句子的三种分词序列

图1所示，将上述“全国各地医学界专家走出医学大会堂”这句话的多粒度分词结果转化为多粒度分词层次结构，参见图1所示。这个句子中包含的词语有：“全”“国”“各”“地”“全国”“各地”“全国各地”“医学”“界” “医学界”“专家”“走”“出”“走出”“医学”“大会堂”“医学大会堂”。图1中的层次结构进行表示，其中C代表字，W代表词语，X代表不能进一步与其他词合并成更粗粒度的词语，J代表句子。

在本实施例中，仅仅具体列举了将将MSR中的句子进行转化的过程，本实施例得到的多粒度分词标注数据集包含了3种规范中所有句子的多粒度分词结果。

实施例2

本实施例多粒度分词标注数据自动获取方法，与实施例1相同，同样选择三种不同规范的单粒度分词标注数据集，也即CTB、PPD、MSR三种分词规范。本实施中，以CTB中的句子“这个跳水队在八十年代中期成立”转化为PPD、MSR 两种规范下的数据，具体转化方式与上述实施例1相同，在此不再赘述。以PPD 中的句子“近几年全省再就业人口增加”转化为CTB、MSR两种规范下的数据，具体转化方式与上述实施例1相同，在此不再赘述。具体转化结果参见表3、表 4。

表3“这个跳水队在八十年代中期成立”的多粒度分词结果

表4“近几年全省再就业人口增加”的多粒度分词结果

如图2、3所示，将上述“这个跳水队在八十年代中期成立”、“近几年全省再就业人口增加”这两句话的多粒度分词结果分别转化为多粒度分词层次结构。

本实施例与上述实施例1的不同之处在于，本实施例仅仅将分词规范为CTB、 PPD两种单粒度分词标注数据集中的句子分别转化为遵守其他两种分词规范的分词序列，将得到的分词规范为CTB、PPD两种单粒度分词标注数据集中的句子分别遵守三种遵守不同规范的分词序列合并得到多粒度分词标注数据集。本实施例的多粒度分词标注数据集中的数据相较于实施例1中的数据少。

上述实施例1或2中还可以仅仅挑选其中一种单粒度分词规范的句子分别转化为其他两种分词规范的分词序列，仅仅合并这一个单粒度分词规范中的句子对应的分词规范，本实施例的多粒度分词标注数据集中的数据相较于实施例2 中的数据少。

实施例3

本实施例多粒度分词标注数据自动获取方法，选择两种不同规范的单粒度分词标注数据集，也即PPD、CTB两种分词规范。本实施中，仅仅列举以PPD中的句子“这个跳水队在八十年代中期成立”转化为CTB规范下的数据的具体转化结果，在本实施例中，类似的还将遵守CTB规范的单粒度分词标注数据集中的句子“近几年全省再就业人口增加”转化为遵守PPD规范的分词序列，也即遵守PPD、CTB规范的单粒度分词标注数据集中的被转化的句子分别具有两种不同的分词序列，将这些分词序列合并，得到多粒度分词标注数据集。具体转化方式与上述实施例1相同，在此不再赘述。“这个跳水队在八十年代中期成立” 具体多粒度分词结果参见表5所示。“近几年全省再就业人口增加”具体多粒度分词结果参见表6所示。

表5“这个跳水队在八十年代中期成立”的多粒度分词结果

表6“近几年全省再就业人口增加”的多粒度分词结果

实施例4

本实施例多粒度分词标注数据自动获取系统，用于采用上述各实施例中所述的方法运行，所述系统包括：

本实施例中，还包括层次结构生成单元，用于将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。纠错单元，用于检查所述多粒度分词层次结构中词语是否存在交叉

上述各实施例中，如图5所示，将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列过程中，首先，将单粒度分词标注数据集中的句子划分出train数据、dev数据、test数据三类数据，然后，三类数据分别转化为遵守其他分词规范的分词序列。

上述各实施例中，还包括检查所述多粒度分词层次结构中词语是否存在交叉，若存在交叉，则进行人工校正。例如，三个字的词“ABC”，一个分词序列中分为“AB/C”，另一个序列中分为“A/BC”，发现一定是一种规范中的句子转化为另一种规范句子时转化错误导致。

由上述各实施例可知，多粒度分词标注数据集中的数据可多、可少，单粒度分词规范的种类数量也是根据需要选择的，具体实施例的多少根据实际的需要设置，单粒度分词标注数据集中的句子转化为多粒度分词结果转化的多，则多粒度分词标注数据集中的数据多，单粒度分词标注数据集中的句子转化为多粒度分词结果转化的少，则多粒度分词标注数据集中的数据少。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种多粒度分词标注数据自动获取方法，其特征在于，包括：

2.根据权利要求1所述的多粒度分词标注数据自动获取方法，其特征在于，还包括:将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。

3.根据权利要求2所述的多粒度分词标注数据自动获取方法，其特征在于，还包括：检查所述多粒度分词层次结构中词语是否存在交叉，若存在交叉，则进行人工校正。

4.根据权利要求1所述的多粒度分词标注数据自动获取方法，其特征在于，将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列过程中，首先，将单粒度分词标注数据集中的句子划分出train数据、dev数据、test数据三类数据，然后，三类数据分别转化为遵守其他分词规范的分词序列。

5.根据权利要求1所述的多粒度分词标注数据自动获取方法，其特征在于，采用基于异构标注数据的快速序列标注方法将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列。

6.根据权利要求1所述的多粒度分词标注数据自动获取方法，其特征在于，将至少两种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列。

7.一种多粒度分词标注数据自动获取系统，其特征在于，包括：

8.根据权利要求7所述的多粒度分词标注数据自动获取系统，其特征在于，还包括层次结构生成单元，用于将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。

9.根据权利要求8所述的多粒度分词标注数据自动获取系统，其特征在于，纠错单元，用于检查所述多粒度分词层次结构中词语是否存在交叉。