CN107729312A

CN107729312A - 基于序列标注建模的多粒度分词方法及系统

Info

Publication number: CN107729312A
Application number: CN201710790736.7A
Authority: CN
Inventors: 张民; 李正华; 龚晨
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2018-02-23
Anticipated expiration: 2037-09-05
Also published as: CN107729312B

Abstract

本发明涉及一种基于序列标注建模的多粒度分词方法与系统，提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统，本发明所述的方法，包括：将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列，将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构，根据预定的编码方法以及多粒度分词层次结构，得到每一个句子的每一个字的多粒度标签，进而得到每一个句子的多粒度标签序列；基于所述的包含句子和对应多粒度标签序列的数据集，通过训练序列标注模型，得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念，能够快速、自动的获取多粒度分词层次结构。

Description

基于序列标注建模的多粒度分词方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于序列标注建模的多粒度分词方法及系统。

背景技术

传统的分词任务都为单粒度分词，即一个连续的字序列只能按照一种指定的规范重新组合成唯一的一个词序列。多粒度分词是将一个连续字序列按照不同的规范划分成多种具有不同粒度的词序列。

目前，分词任务都为单粒度分词任务，同时，现有的人工标注分词数据也都为单粒度分词数据。因此，国内外尚不存在多粒度分词数据。多粒度分词的前提是有多粒度分词模型。进一步地，有了多粒度分词数据，才能有效训练多粒度分词模型。由于现有的分词数据都为单粒度分词数据，且目前尚未出现多粒度分词数据的获取方法，因此，若要获得多粒度分词数据，一种方法是通过人工标注的方法完成。然而人工标注的方法存在以下几个缺点：(1)制定多粒度分词标注规范的难度非常大，显然比制定一个单粒度分词标注规范更困难。(2)对标注者的要求更高，需要标注者学习一个更复杂的标注规范。(3)标注过程更复杂，标注结果从序列结构，变成层次结构。总之，人工标注多粒度分词数据的人力和时间成本非常高。

鉴于上述的缺陷，本设计人积极加以研究创新，以期创设一种基于序列标注建模的多粒度分词方法及系统，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种利用机器学习的方式将句子的多粒度分词序列采用多粒度分词层次结构，进而得到多粒度分词标签，进而训练得到多粒度分词标签序列的基于序列标注建模的多粒度分词方法及系统。

为达到上述发明目的，本发明基于序列标注建模的多粒度分词方法，包括：

将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列，被转化后的句子对应n种不同规范的分词序列，其中n≥2，且 n为正整数；

将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字；

根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签，进而得到每一个句子对应的多粒度标签序列；

根据句子对应的多粒度标签序列对序列标注模型进行数据训练，得到多粒度分词序列标注模型；

基于所述的多粒度分词序列标注模型得到句子的多粒度标签序列。

进一步地，还包括通过规则后处理，将句子的多粒度标签序列转化为多粒度分词层次结构。

进一步地，所述的预定编码方法包括：对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签，进而将这些单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序，或是按照分词粒度从粗到细的顺序。

进一步地，根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型或基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的 CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型；

其中，根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型具体包括：

给定一个句子，x＝c₁...c_n，进行数据训练的目的是确定一个最好的多粒度标签序列y＝y₁...y_n，其中y_i是c_i的多粒度标签，CRF定义一个标签序列的概率为：

其中score(x,y；θ)是表示分值的函数，f(x,i,y_i-1,y_i)是第i个字的特征向量，θ是特征权重向量；c₀和c_n+1是分别表示句子开始和结尾的两个特殊字符；其中 T(c_i)函数返回字符c_i的类型，I(c_i,c_j)函数用来判断c_i和c_j两个字符是否相同。

设训练数据是其中y_i是句子x_i的正确标签，D的对数似然是：

训练的目标是找到一个最优的参数θ来最大化对数似然；

根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练，具体包括：

将句子中每一个字的一元字向量和二元字向量输入到BiLSTM神经网络模型中，一元字向量指用一个多维浮点型向量表示一个字，每个字对应唯一的一个多维浮点型向量，表示为e_ci，i＝1,2,3…；二元字向量指将当前字的一元字向量与前一个字的一元字向量连结得到的向量,表示为e_cic_i+1；

句子中每个字的一元字向量与二元字向量通过第一层BiLSTM网络，前向传播得到输出f₁ ¹,f₂ ¹，f₃ ¹…,后向传播，得到输出b₁ ¹,b₂ ¹，b₃ ¹…；

将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络 BiLSTM2的输入，前向传播得到输出f₁ ²,f₂ ²，f₃ ²…，后向传播，得到输出b₁ ²,b₂ ²，b₃ ²…；

将两层双向LSTM前/后向传播的输出结果分别连结，即，将f_i ¹与f_i ²， i＝1,2,3…连结得到f_i，i＝1,2,3…，将b_i ¹与b_i ²，i＝1,2,3…连结得到b_i，i＝1,2,3…；

将f_i和b_i，i＝1,2,3…连结起来得到h_input输入到一个隐含层中做非线性变换，然后将隐含层的输出结果做线性变换就得到了一个向量，表示标注序列的分值，该向量的维度与多粒度分词标签的个数相同；

CRF定义一个标签序列的概率为：

其中T表示多粒度标签的种类个数，score(t₁,...,t_n；c₁,...,c_n)是表示句子c₁,...,c_n的标签序列为t₁,...,t_n的分值的函数，是第k个字符被标记为t_k的神经网络输出的分值，是一个转移矩阵。

训练的目的是找到最优的神经网络参数和转移矩阵来最大化对数似然函数，

其中t₁ ^*,...,t_n ^*表示正确的标签序列：

为达到上述发明目的，本发明基于序列标注建模的多粒度分词系统，包括：

分词数据获取单元，用于将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列，被转化后的句子对应n种不同规范的分词序列，其中n≥2，且n为正整数；

分词层次结构生成单元，用于将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字；

标签生成单元，用于根据预定编码方法确定多粒度分词层次结构中每一个字的多粒度标签，进而得到每一个句子对应的多粒度标签序列；

序列标注模型训练单元，基于所述的包含句子和对应多粒度标签序列的数据集，通过训练序列标注模型，得到多粒度分词序列标注模型；

分词结果输出单元，用于基于所述的多粒度序列标注模型获得待分词句子的多粒度标签序列。

进一步地，还包括分词结果层次结构转化单元，基于规则后处理，将句子的多粒度标签序列转化为多粒度分词层次结构。

进一步地，标签生成单元包括标签提取模块、标签排序模块，所述标签提取模块，用于对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签；所述标签排序模块，用于将获取的单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序，或是按照分词粒度从粗到细的顺序。

进一步地，序列标注模型训练单元包括：第一训练单元，用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型；第二训练单元，用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型。

借由上述方案，本发明基于序列标注建模的多粒度分词方法及系统至少具有以下优点：

第一，本发明充分利用已有的单粒度分词人工标注数据，进行两两转化，从而获得多粒度分词数据；

第二，本发明将一个句子的多粒度分词序列转化为多粒度分词层次结构，方便利用预定规则对句子中的每一个字赋予多粒度分词标签，进而得到该句子的多粒度标签序列。

第三，本发明多粒度分词可以表示出句子中不同粒度的词语，更好地服务上层应用。比如，粗粒度的词语能够抽取细致的特征，提供更多上下文和更全面准确的信息，进行更精确的匹配；细粒度的词语能表达更基本的信息，从而缓解统计机器学习方法面临的数据稀疏问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明基于序列标注建模的多粒度分词方法的实施例1的句子的多粒度分词层次结构；

图2是本发明基于序列标注建模的多粒度分词方法的实施例2的句子的多粒度分词层次结构；

图3是本发明基于序列标注建模的多粒度分词方法的实施例2的句子的多粒度分词层次结构；

图4是本发明基于序列标注建模的多粒度分词方法的两层BiLSTM神经网络结构；

在图1至图3的附图的多粒度分词层次结构中由上至下的第一层W也即为X。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本实施例基于序列标注建模的多粒度分词方法，包括：

选择三种不同规范的单粒度标注数据集，也即CTB、PPD、MSR三种分词规范；

将一种单粒度标注数据集中的句子分别转化为遵守其他2种分词规范的分词序列，被转化后的句子对应3种不同规范的分词序列；

将每一个句子对应的3种遵守不同规范分词序列转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字；

本实施例中，选择三种不同规范的单粒度标注数据集，也即CTB、PPD、MSR 三种分词规范；

将MSR中的句子转化为遵守PPD分词规范的分词序列；将MSR中的句子转化为遵守CTB分词规范的分词序列；这样每一个MSR的句子就有三种遵守不同规范的分词序列。

本实施例中，采用中国专利，申请号：201610463435.9所述的基于异构标注数据的快速序列标注方法将其中遵守其中一种分词规范的句子转化为遵守另一种分词规范的分词序列。给定MSR和PPD的单粒度分词数据作为输入，训练一个MSR和PPD数据的耦合序列标注模型。用同样的方法训练MSR和CTB数据的耦合序列标注模型以及PPD和CTB数据的耦合序列标注模型。

以“全国各地医学界专家走出医学大会堂”这个句子为例，如表1所示， MSR规范下它被分为“全国各地”“医学”“界”“专家”“走出”“医学大会堂”等词语，将它转化到PPD规范的单粒度分词数据后被分成“全国”“各地”“医学界”“专家”“走”“出”“医学”“大会堂”等词语。用同样的方法，可以将这句话从MSR规范的单粒度分词数据转化为CTB规范的单粒度分词数据，得到“全”“国”“各”“地”“医学界”“专家”“走出”“医学”“大会堂”的划分结果。

表1“全国各地医学界专家走出医学大会堂”这个句子的三种分词序列

图1所示，将上述“全国各地医学界专家走出医学大会堂”这句话的多粒度分词序列转化为多粒度分词层次结构，参见图1所示。这个句子中包含的词语有：“全”“国”“各”“地”“全国”“各地”“全国各地”“医学”“界”“医学界”“专家”“走”“出”“走出”“医学”“大会堂”“医学大会堂”。图1中的层次结构进行表示，其中C代表字，W代表词语，X代表不能进一步与其他词合并成更粗粒度的词语，J代表句子。

本实施例中，所述的预定编码方法包括：对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签，进而将这些单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序。如表2所示，其中，B表示当前字是词语中的第一个字， E表示当前字是词语中的最后一个字，I表示当前字是词语中位于中间的字，S 表示由当前单独的一个字即可组成词语。例如，“全国各地”这个字符串可以切分成三种不同粒度的词语，粒度由细到粗依次为：“全/国/各/地”，“全国 /各地”和“全国各地”，因此“全”“国”“各”“地”四个字的多粒度标签分别表示为“SBB”“SEI”“SBI”和“SEE”。

表2多粒度分词标注结果

本实施例中，根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型，具体包括：

给定一个句子，x＝c₁...c_n，进行数据训练的目的是确定一个最好的多粒度标签序列y＝y₁...y_n，其中y_i是c_i的多粒度标签，如图2中的“SBB”“SEI”“SBI”等。CRF定义一个标签序列的概率为：

其中score(x,y；θ)是表示分值的函数，f(x,i,y_i-1,y_i)是第i个字的特征向量，θ是特征权重向量；c₀和c_n+1是分别表示句子开始和结尾的两个特殊字符；其中 T(c_i)函数返回字符c_i的类型，如时间、数字、标点、特殊符号等。I(c_i,c_j)函数用来判断c_i和c_j两个字符是否相同。

表3f(x,i,y_i-1,y_i)的特征模板

设训练数据是其中y_i是句子x_i的正确标签，D的对数似然是：

训练的目标是找到一个最优的参数θ来最大化对数似然。

实施例2

本实施例基于序列标注建模的多粒度分词方法，包括：

将2种单粒度标注数据集中的句子分别转化为遵守其他2种分词规范的分词序列，被转化后的句子对应3种不同规范的分词序列；

本实施例中，同样选择三种不同规范的单粒度标注数据集，也即CTB、PPD、 MSR三种分词规范。本实施中，以CTB中的句子“这个跳水队在八十年代中期成立”转化为PPD、MSR两种规范下的数据，具体转化方式与上述实施例1相同，在此不再赘述。以PPD中的句子“近几年全省再就业人口增加”转化为CTB、MSR 两种规范下的数据，具体转化方式与上述实施例1相同，在此不再赘述。具体转化结果参见表4、表5。

表4“这个跳水队在八十年代中期成立”的多粒度分词序列

表5“近几年全省再就业人口增加”的多粒度分词序列

如图2、3所示，将上述“这个跳水队在八十年代中期成立”、“近几年全省再就业人口增加”这两句话的多粒度分词序列分别转化为多粒度分词层次结构。

本实施例中，所述的预定编码方法包括：对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签，进而将这些单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序。具体地多粒度标签序列如表6、7所示。在实际使用时，所述预定顺序也可以按照分词粒度从粗到细的顺序。

表6“这个跳水队在八十年代中期成立”的各个字的多粒度标签

表7“近几年全省再就业人口增加”的各个字的多粒度标签

本实施例中，根据句子对应的多粒度标签序列对基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型，具体包括：

如图4所示，首先将句子中每一个字的一元字向量和二元字向量输入到 BiLSTM神经网络模型中。一元字向量指用一个多维浮点型向量表示一个字，每个字对应唯一的一个多维浮点型向量，在图4中表示为e_ci，i＝1,2,3…。二元字向量指将当前字的一元字向量与前一个字的一元字向量连结得到的向量, 在图4中表示为e_cic_i+1。

句子中每个字的一元字向量与二元字向量通过第一层BiLSTM网络，即图4 中的BiLSTM1，前向传播得到输出f₁ ¹,f₂ ¹，f₃ ¹…,后向传播，得到输出b₁ ¹,b₂ ¹， b₃ ¹…。

将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络 BiLSTM2的输入，前向传播得到输出f₁ ²,f₂ ²，f₃ ²…，后向传播，得到输出b₁ ²,b₂ ²， b₃ ²…。

将两层双向LSTM前/后向传播的输出结果分别连结，即，将f_i ¹与f_i ²， i＝1,2,3…连结得到f_i，i＝1,2,3…，将b_i ¹与b_i ²，i＝1,2,3…连结得到b_i，i＝ 1,2,3…。

将f_i和b_i，i＝1,2,3…连结起来得到h_input输入到一个隐含层中做非线性变换，然后将隐含层的输出结果做线性变换就得到了一个向量，表示标注序列的分值，该向量的维度与多粒度分词标签的个数相同。

CRF定义一个标签序列的概率为：

其中t₁ ^*,...,t_n ^*表示正确的标签序列：

实施例3

本实施例基于序列标注建模的多粒度分词方法，与实施例1的不同之处在于，多粒度分词序列的获取上的不同，具体的分词序列的获取包括：

选择两种不同规范的单粒度标注数据集，也即PPD、CTB两种分词规范。本实施中，仅仅列举以PPD中的句子“这个跳水队在八十年代中期成立”转化为 CTB规范下的数据的具体转化结果，在本实施例中，类似的还将遵守CTB规范的单粒度标注数据集中的句子“近几年全省再就业人口增加”转化为遵守PPD规范的分词序列，也即遵守PPD、CTB规范的单粒度标注数据集中的被转化的句子分别具有两种不同的分析序列，将这些分词序列合并，得到多粒度分词数据集。具体转化方式与上述实施例1相同，在此不再赘述。“这个跳水队在八十年代中期成立”具体多粒度分词序列参见表8所示。“近几年全省再就业人口增加”具体多粒度分词序列参见表9所示。

表8“这个跳水队在八十年代中期成立”的多粒度分词序列

表9“近几年全省再就业人口增加”的多粒度分词序列

上述各实施例中，首先，将将至少一种单粒度标注数据集中的句子分别转化为遵守其他1种分词规范的分词序列；然后根据该分词序列得到多粒度分词层次结构，根据该多粒度分词层次结构能够得到组成一个字符串的多个不同粒度的分词序列，根据预定的编码方法得到每一个句子的每一个字的多粒度标签；最后，对这些多粒度标签进行数据训练得到多粒度标签序列。

还包括以下步骤，以下步骤的方式和上述实施例1的方式相同，在此不再赘述。将每一个句子对应的2种遵守不同规范分词序列转化为多粒度分词层次结构，所述的多粒度分词层次结构各层分别为句子、不能进一步与词语合并成更粗粒度的词语、词语、字；

实施例4

本实施例基于序列标注建模的多粒度分词系统，用于采用上述各实施例中所述的方法运行，所述系统包括：

本实施例中，序列标注模型训练单元包括：第一训练单元，用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型；第二训练单元，用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型。

上述各实施例中，还可以包括通过规则后处理，将句子的多粒度标签序列转化为多粒度分词层次结构。

上述各实施例中，获得的多粒度分词序列合并为一多粒度分词数据集，多粒度分词数据集中的数据可多、可少，单粒度分词规范的种类数量也是根据需要选择的，具体实施例的多少根据实际的需要设置，单粒度标注数据集中的句子转化为多粒度分词结果转化的多，则多粒度分词数据集中的数据多，单粒度标注数据集中的句子转化为多粒度分词结果转化的少，则多粒度分词数据集中的数据少。也即用于多粒度分词序列标注模型训练的多粒度标签序列的多少根据多粒度分词数据集中数据的多少决定。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于序列标注建模的多粒度分词方法，其特征在于，包括：

将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列，被转化后的句子对应n种不同规范的分词序列，其中n≥2，且n为正整数；

2.根据权利要求1所述的基于序列标注建模的多粒度分词方法，其特征在于，还包括通过规则后处理，将句子的多粒度标签序列转化为多粒度分词层次结构。

3.根据权利要求1所述的基于序列标注建模的多粒度分词方法，其特征在于，所述的预定编码方法包括：对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签，进而将这些单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序，或是按照分词粒度从粗到细的顺序。

4.根据权利要求3所述的基于序列标注建模的多粒度分词方法，其特征在于，根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型或基于长短时记忆循环神经网络(Long-Short Term Memory,LSTM)的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> <mrow> <msub> <mi>&Sigma;</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> </msub> <msup> <mi>e</mi> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>

<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </munder> <mi>&theta;</mi> <mo>&CenterDot;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中score(x,y；θ)是表示分值的函数，f(x,i,y_i-1,y_i)是第i个字的特征向量，θ是特征权重向量；c₀和c_n+1是分别表示句子开始和结尾的两个特殊字符；其中T(c_i)函数返回字符c_i的类型，I(c_i,c_j)函数用来判断c_i和c_j两个字符是否相同。

设训练数据是其中y_i是句子x_i的正确标签，D的对数似然是：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow>

训练的目标是找到一个最优的参数θ来最大化对数似然；

将第一层双向LSTM网络BiLSTM1层的输出作为第二层双向LSTM网络BiLSTM2的输入，前向传播得到输出f₁ ²,f₂ ²，f₃ ²…，后向传播，得到输出b₁ ²,b₂ ²，b₃ ²…；

将两层双向LSTM前/后向传播的输出结果分别连结，即，将f_i ¹与f_i ²，i＝1,2,3…连结得到f_i，i＝1,2,3…，将b_i ¹与b_i ²，i＝1,2,3…连结得到b_i，i＝1,2,3…；

CRF定义一个标签序列的概率为：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>T</mi> <mo>,</mo> <mn>...</mn> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <msup> <mi>e</mi> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&prime;</mo> </msup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>&prime;</mo> </msup> <mo>;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>

<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>k</mi> <mo>&le;</mo> <mi>n</mi> </mrow> </munder> <msubsup> <mi>o</mi> <msub> <mi>t</mi> <mi>k</mi> </msub> <mi>k</mi> </msubsup> <mo>+</mo> <msub> <mi>A</mi> <mrow> <msub> <mi>t</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>,</mo> <mi>A</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> </msup> </mrow>

其中t₁ ^*,...,t_n ^*表示正确的标签序列：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>L</mi> <mi>L</mi> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>max</mi> <mrow> <mo>(</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <mi>P</mi> <mo>(</mo> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>*</mo> </msup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>*</mo> </msup> <mo>|</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>(</mo> <mrow> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>*</mo> </msup> <mo>,</mo> <mn>...</mn> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>*</mo> </msup> <mo>;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>log&Sigma;</mi> <mrow> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>T</mi> <mo>,</mo> <mn>...</mn> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <msup> <mi>e</mi> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&prime;</mo> </msup> <mn>...</mn> <msup> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>&prime;</mo> </msup> <mo>;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>.</mo> </mrow>

5.一种基于序列标注建模的多粒度分词系统，其特征在于，包括：

6.根据权利要求5所述的基于序列标注建模的多粒度分词方法，其特征在于，还包括分词结果层次结构转化单元，基于规则后处理，将句子的多粒度标签序列转化为多粒度分词层次结构。

7.根据权利要求5所述的基于序列标注建模的多粒度分词方法，其特征在于，标签生成单元包括标签提取模块、标签排序模块，所述标签提取模块，用于对于句子中每一个字，根据多粒度分词层次结构，自底向上遍历，得到包含这个字的不同粒度的所有词语，从而得到这个字在这些词语中的单粒度分词标签；所述标签排序模块，用于将获取的单粒度分词标签按照预定顺序合并在一起，构成该字的多粒度标签，其中所述预定顺序为按照分词粒度从细到粗的顺序，或是按照分词粒度从粗到细的顺序。

8.根据权利要求5所述的基于序列标注建模的多粒度分词方法，其特征在于，序列标注模型训练单元包括：第一训练单元，用于根据句子对应的多粒度标签序列对基于离散特征的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型；第二训练单元，用于根据句子对应的多粒度标签序列对基于LSTM的CRF序列标注模型进行数据训练，得到多粒度分词序列标注模型。