CN103778142A

CN103778142A - 一种基于条件随机场的缩略词扩展解释识别方法

Info

Publication number: CN103778142A
Application number: CN201210404108.8A
Authority: CN
Inventors: 刘杰; 陈季梦; 黄亚楼; 刘天笔; 王嫄
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2012-10-23
Filing date: 2012-10-23
Publication date: 2014-05-07

Abstract

本发明公开了一种基于条件随机场的缩略词扩展解释识别方法，涉及机器学习领域和缩略词识别任务。本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务，并采用条件随机场这一结构化模型来识别缩略词的扩展解释。针对缩略词识别任务的具体特点，发明设计并抽取了三类特征，包括拼写特征、与缩略词的对应特征、上下文相关特征，并对模型进行了改进。所设计的模型考虑了缩略词扩展解释的上下文信息和结构信息，并具有潜在稀疏特征学习能力，发明进一步设计了多种特征函数及其组合方法，从而更好地从文本序列中识别出可能的扩展解释。

Description

一种基于条件随机场的缩略词扩展解释识别方法

技术领域

本发明涉及机器学习领域和缩略词识别任务，尤其涉及一种基于条件随机场的缩略词扩展解释识别方法。

背景技术

目前，针对英文缩略词及其解释的自动识别与抽取方法主要有基于规则的方法和全监督的机器学习方法。这些方法通常要求在文本中必须出现缩略词，然后设计不同的规则和特征在该缩略词附近某窗口大小内匹配可能出现的扩展解释候选。

发明人在实现本发明的过程中，发现现有技术方法中至少存在以下缺点和不足：

1)归纳缩略词抽取规则复杂，耗费人力资源。

2)忽略了大多数的缩略词及其扩展解释并不成对出现这一现象。若是爬取的源数据中未包含同时出现的缩略词与扩展解释，或缩略词与扩展解释并未在小窗口中同时出现，则将遗漏可能的扩展解释。

3)另外，传统方法通常采用特征定义的方式利用这一上下文语境信息，而从未使用模型来表示文本的上下文关系。

发明内容

本发明提供了一种基于条件随机场的缩略词扩展解释识别方法。本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务，并采用条件随机场(CRF，Conditional Random Fields)来识别缩略词的扩展解释。CRF模型考虑了缩略词扩展解释的上下文信息和结构信息，可更好地从文本序列中识别出可能的扩展解释。所述方法包括将缩略词扩展解释识别任务建模为序列识别问题；利用CRF来识别缩略词扩展解释；具有潜在稀疏特征学习能力的条件随机场的方法；研究多种特征函数的设计及其组合方法；缩略词与其对应的拓展解释的三类特征的设计及应用。详见下文描述：

所述将缩略词扩展解释识别任务建模为序列识别问题，包括缩略词的扩展解释识别任务，序列标注模型，序列识别标签设计。

所述缩略词的扩展解释识别任务，是指在序列文本中识别出解释某缩略词的短语的过程。因为单独识别出扩展解释短语中的一个或部分词，并不能完整地解释缩略词，而只有全部识别出扩展解释，才能解释缩略词的意义，所以该任务可认为是序列识别的过程。由于缩略词的扩展解释具有上下文的序列特征，因此本发明将其建模为序列标注模型，而不是简单的对单个词进行标注。

所述序列标注模型定义为，给定一个缩略词q和一个包含序列单词x＝(x₁，...，x_n)的句子，从所有可能的序列标注中挑选出最有可能的序列标注y＝(y₁，...，y_n)。因此，将从解得的标签序列y中得知是否该句子包含与缩略词对应的候选解释，无需缩略词与扩展解释在文中成对出现。

所述序列识别标签设计，在自然语言任务中，常用两种NP标签来表示一个连续的短语(chunk)：短语的开始(B-NP)，短语的其他词(I-NP)。在本发明中，发明人也用“B”来表示扩展解释的开始，“I”来表示扩展解释中的其他词，而其他不相干的词则标记为“O”。

所述利用CRF来识别缩略词扩展解释，指CRF在建模时考虑了数据的内容信息和数据之间标签的结构和动态变化等信息，在序列标注任务中，CRF要学习一个从观测序列x＝(x₁，...，x_n)到标注序列y＝(y₁，...，y_n)的函数映射关系

P (y | x; θ) = \frac{1}{Z (x; θ)} \exp {θ^{T} F (y, x)} .

所述具有潜在稀疏特征学习能力的条件随机场(SNCRF，Sparse Neural Conditional Random Fields)的方法，是为了解决现实中的特征稀疏问题。在CRF中引入一个神经网络算子δ(x_t；α)，以便从稀疏的原始数据特征中学习到潜在的有效特征，如图2所示。而CRF则变换为如下公式所示。

P (y | x; θ, α) = \frac{1}{Z (x; θ)} \exp {\underset{t}{Σ} θ^{T} F (y, δ (x_{t}; α), t)}

所述多种特征函数的设计及其组合方法，CRF通常使用两类特征函数，分别是本地的状态特征函数和边的转移特征函数。状态特征函数仅计算单个节点的特征值，而转移特征函数则计算节点之间边的特征值。CRF中边和节点的特征被区分对待，一方面这反映出两者的特征类型不同，但另一方面，这也削减了两者之间的联系。因此本发明引进一种新的特征函数，同时考虑边和节点对模型的影响。训练CRF模型时，可仅使用两类特征函数，也可同时使用三类特征函数。

所述缩略词与其对应的拓展解释的三类特征，包括拼写特征，与缩略词的对应特征，上下文相关特征。拼写特征描述的是一个需标注的目标单词本身的拼写结构特征，并未考虑它与对应缩略词的关系。与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系，这是识别该词是否是给定缩略词的扩展解释的重要依据。上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系，这是一个与文本序列相关的特征。

本发明通过利用所设计的SNCRF模型从三类稀疏特征中学习出潜在的有效特征，同时考虑上下文相关的特征定义和结构化模型两个角度，使其在上下文相关的文本中识别缩略词的扩展解释更具优势。

附图说明

图1为一个缩略词扩展解释序列标注示例；

图2为一个改进的CRF模型：带特征抽取器与节点-边联合的特征函数；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了更好地识别出序列文本中的缩略词扩展解释，本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务，并采用条件随机场来识别缩略词的扩展解释。

为了将缩略词扩展解释识别任务建模为序列识别问题，用NP标签来描述所需识别的单词的标签类别。用“B”来表示扩展解释的开始，“I”来表示扩展解释中的其他词，而其他不相干的词则标记为“O”。一个完整的缩略词扩展解释应是以B为开头，以最后一个连续的I为结尾。如图1所示，是一个缩略词为“BBC”的句子的序列标注示例，其中“British Broadcasting Corporation”的类别标签是“B-I-I”，而其他的单词则都是“O”。

序列标注模型定义为，给定一个缩略词q和一个包含序列单词x＝(x₁，...，x_n)的句子，从所有可能的序列标注中挑选出最有可能的序列标注y＝(y₁，...，y_n)。需要学习如下CRF模型，

P (y | x; θ) = \frac{1}{Z (x; θ)} \exp {θ^{T} F (y, x)}

其中，F(y，x)是输入的观测序列x到输出的序列y的特征函数，θ是矢量参数，Z(x；θ)是标准化因子，是所有可能的标注序列情况之和，

Z(x；θ)＝∑_y′exp{θ^TF(y′，x)}

给定一个序列训练集合为了估计出最有可能的标注序列

CRF的参数估计可用最大化对数似然得出，如下公式所示。

\hat{θ} = \max_{θ} {Σ_{t = 1}^{N} lo g_{e} P (y^{(t)} {| x}^{(t)}; θ) - U (θ)}

其中是正则化函数，用于防止过拟合。

CRF是一个较成熟的序列识别模型，现已存在多种有效的优化推导算法：Viterbi算法和置信传播算法。

如上所述，本发明采用CRF可以快速地从文本序列中识别出缩略词的拓展解释，并计算出与该缩略词的相似度分值，从而为该缩略词的拓展解释进行排序。然而，由于现实中特征较为稀疏，初始输入的特征不一定有效。为了解决这一问题，本发明在CRF中引入了神经网络算子，从稀疏的原始数据特征中学习到潜在的有效特征。所述具有潜在稀疏特征学习能力的条件随机场SNCRF就是这一改进的CRF方法。

SNCRF在CRF中引入一个神经网络算子δ(x_t；α)，以便从稀疏的原始数据特征中学习到潜在的有效特征，如图2所示。具体方法如下，

考虑一组序列观测值

及其标签

用一个长串表示y，使y_t∈y＝{1，...，C}，用二进制来编码每个y_t。例：当y_t＝2，C＝4时，y_t转换为[0，1，0，0]^T。非线性SNCRF模型可表示为，

P (y | x; θ, α) = \frac{1}{Z (x; θ)} \exp {\underset{t}{Σ} θ^{T} F (y, δ (x_{t}; α), t)}

其中

δ(x_t；α)是一个非线性特征抽取函数，可由参数α控制。SNCRF像是一个多层神经网络，可同时优化分类器和隐藏层特征，如图2所示。在实现过程中，发明人选用了神经网络作为特征抽取器δ(x_t；α)，如下公式所示。

δ_{t} (x_{t}; α) = ρ (Σ_{k = 1}^{H} w_{t, k}^{δ} h_{k} (x) + b_{t}^{δ})

h_{k} (x) = ρ (Σ_{j = 1}^{D} w_{k, j}^{h} x_{j} + b_{k}^{h})

其中，i＝1，...，M，ρ是一个非线性转换函数，参数α包括了特征抽取过程中所需要调节的所有参数，包括w和b。

采用SNCRF可以学习出稀疏特征的有效表示，尤其在复杂任务中具有明显优势。

所述多种特征函数的设计及其组合方法。传统CRF通常使用两类特征函数，分别是本地的状态特征函数和边的转移特征函数。

状态特征函数仅计算单个节点的特征值，如下公式所示，

F^{v} (x_{t}, y_{t}) = \underset{t}{Σ} f^{v} (δ (x_{t}), y_{t})

其中，δ(x_t)是一个节点的特征抽取器，对于含大量特征的复杂模型可以先抽取较能反映标签信息的特征再进行训练，以便降低数据维度。对于传统的CRF而言，δ(x_t)输出即为xt本身。假设，δ(x_t)是d维，s是标签空间的大小，这种状态特征有s×d个。

转移特征函数则计算节点之间边的特征值。设序列中的节点之间的边集合为E，<u，v>∈E，且u，v∈V，对x上某一边(y′，y)，其转移特征函数如下公式所示。

F^{e} (x_{t}, y_{t}) = \underset{t}{Σ} f^{e} (y_{u}, y_{v})

其中

对每一个节点这种转移特征有s²个。

CRF中边和节点的特征被区分对待，一方面这反映出两者的特征类型不同，但另一方面，这也削减了两者之间的联系。因此本发明引进一种新的特征函数，同时考虑边和节点对模型的影响，如以下公式所示。

F^{ve} (y, x) = \underset{ve}{Σ} f^{ve} (δ (x_{v}), y_{v}, y_{u})

此类特征的作用相当于在模型中显式地增加了ds²个边和节点联合的特征，即增加了内容特征与上下文相关的联合特征，用特征的结构化联合增强模型的结构化，可更好的预测结构化数据的序列。

训练CRF模型时，可仅使用两类特征函数，也可同时使用三类特征函数。同时采用三类特征函数的模型明显要优于其他组合。

为了更好的识别语句中的扩展解释，本发明抽取了三种类型的特征，具体描述如下：

拼写特征：拼写特征描述的是一个需标注的目标单词本身的拼写结构特征，并未考虑它与对应缩略词的关系。如单词中是否存在大写字母，是否存在数字，或者是否存在除字母数字外的特殊符号。这类特征非常重要，因为人们常用这类拼写信息来强调缩略词的扩展解释。

与缩略词的对应特征：这类特征描述需标注的单词与给定缩略词之间的对应关系，这是识别该词是否是给定缩略词的扩展解释的重要依据。如该词的首字母是否出现在缩略词中，该词的大写字母或特殊字母是否出现在缩略词中。

上下文相关特征：以上两类特征描述的都是一个单词的特征，而单词周围的单词是否是扩展解释中的一员也是非常关键的一个指向因素。本发明设置了窗口大小为3的文本窗口，包括需标注的目标单词本身，该词的前一个单词，该词的后一个单词。判断当目标单词的首字母或大写字母在缩略词t位置中时它的前一个单词的首字母或大写字母是否在缩略词中t-1的位置；判断当目标单词的首字母或大写字母在缩略词t位置中时它的后一个单词的首字母或大写字母是否在缩略词中t+1的位置。

综上所述，本发明提供了一种基于条件随机场的缩略词扩展解释识别方法。可将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务，设计合适的特征与标签，并采用具有潜在稀疏特征学习能力的条件随机场来识别缩略词的扩展解释。SNCRF模型考虑了缩略词扩展解释的上下文信息和结构信息，具备优秀的稀疏特征学习能力，可更好地从文本序列中识别出可能的扩展解释。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于条件随机场的缩略词扩展解释识别系统，其特征在于：将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务，并采用条件随机场(CRF，Conditional Random Fields)来识别缩略词的扩展解释。所述方法包括将缩略词扩展解释识别任务建模为序列识别问题，用NP标签来标注一个序列文本，用“B”来表示扩展解释的开始，“I”来表示扩展解释中的其他词，而其他不相干的词则标记为“O”；所述利用CRF来识别缩略词扩展解释，学习从观测文本序列的特征矩阵x＝(x₁，...，x_n)到标注序列向量y＝(y₁，...，y_n)的函数映射关系

所述具有潜在稀疏特征学习能力的条件随机场(SNCRF，Sparse Neural Conditional Random Fields)的方法，是为了解决现实中的特征稀疏问题。在CRF中引入一个神经网络算子δ(x_t；α)，以便从稀疏的原始数据特征中学习到潜在的有效特征，从而学习如何更好地识别给定缩略词的扩展解释，如

P (y | x; θ, α) = \frac{1}{Z (x; θ)} \exp {\underset{t}{Σ} θ^{T} F (y, δ (x_{t}; α), t)};

所述多种特征函数的设计及其组合方法，包括本地的状态特征函数，边的转移特征函数，同时考虑边和节点的特征函数，状态特征函数仅计算单个节点的特征值，转移特征函数则计算节点之间边的特征值，同时考虑边和节点的特征函数则同时计算点和边的特征值。所述缩略词与其对应的拓展解释的三类特征，包括拼写特征，与缩略词的对应特征，上下文相关特征，拼写特征描述的是一个需标注的目标单词本身的拼写结构特征，与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系，上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系。

2.根据权利要求1所述的基于条件随机场的缩略词扩展解释识别系统，其特征在于将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务。

所述对缩略词的扩展解释识别任务建模成序列标注任务，是指将从序列文本中识别出解释某缩略词的短语这一过程建模为从文本中抽取序列特征，为序列特征自动标注标签。缩略词的序列标注模型定义为，给定一个缩略词q和一个包含序列单词x＝(x₁，...，x_n)的句子，从所有可能的序列标注中挑选出最有可能的序列标注y＝(y₁，...，y_n)。所述序列识别标签设计，用“B”来表示扩展解释的开始，“I”来表示扩展解释中的其他词，而其他不相干的词则标记为“O”。

3.根据权利要求1所述的利用CRF来识别缩略词扩展解释，其特征在于，

学习从观测文本序列的特征矩阵x＝(x₁，...，x_n)到标注序列向量y＝(y₁，...，y_n)的函数映射关系，从中学习最能识别出缩略词扩展解释的参数，

P (y | x; θ) = \frac{1}{Z (x; θ)} \exp {θ^{T} F (y, x)}

Z(x；θ)＝∑_y′exp{θ^TF(y′，x)}

给定一个序列训练集合

为了估计出最有可能的标注序列

CRF的参数估计可用最大化对数似然得出，如下公式所示。

\hat{θ} = \max_{θ} {Σ_{t = 1}^{N} lo g_{e} P (y^{(t)} {| x}^{(t)}; θ) - U (θ)}

其中

是正则化函数，用于防止过拟合。

所述CRF采用Viterbi算法和置信传播算法。

4.根据权利要求1所述具有潜在稀疏特征学习能力的条件随机场模型SNCRF，其特征在于，在CRF中引入了神经网络算子，从稀疏的原始数据特征中学习到潜在的有效特征。

SNCRF在CRF中引入一个神经网络算子δ(x_t；α)，以便从稀疏的原始数据特征中学习到潜在的有效特征。具体方法如下，

考虑一组序列观测值

及其标签

P (y | x; θ, α) = \frac{1}{Z (x; θ)} \exp {\underset{t}{Σ} θ^{T} F (y, δ (x_{t}; α), t)}

其中

δ_{t} (x_{t}; α) = ρ (Σ_{k = 1}^{H} w_{t, k}^{δ} h_{k} (x) + b_{t}^{δ})

h_{k} (x) = ρ (Σ_{j = 1}^{D} w_{k, j}^{h} x_{j} + b_{k}^{h})

5.根据权利要求1所述多种特征函数的设计及其组合方法，其特征在于，本地的状态特征函数，边的转移特征函数，同时考虑边和节点的特征函数及其组合。

所述状态特征函数仅计算单个节点的特征值，如下公式所示，

F^{v} (x_{t}, y_{t}) = \underset{t}{Σ} f^{v} (δ (x_{t}), y_{t})

所述转移特征函数则计算节点之间边的特征值。设序列中的节点之间的边集合为E，<u，v>∈E，且u，v∈V，对x上某一边(y′，y)，其转移特征函数如下公式所示。

F^{e} (x_{t}, y_{t}) = \underset{t}{Σ} f^{e} (y_{u}, y_{v})

其中对每一个节点这种转移特征有s²个。

所述同时考虑边和节点的特征函数，如以下公式所示。

F^{ve} (y, x) = \underset{ve}{Σ} f^{ve} (δ (x_{v}), y_{v}, y_{u})

所述特征函数的多种组合方式，在训练CRF模型时，可仅使用两类特征函数，也可同时使用三类特征函数。同时采用三类特征函数的模型明显要优于其他组合。

6.根据权利要求1所述缩略词与其对应的拓展解释的三类特征，其特征在于文本序列的拼写特征，与缩略词的对应特征，上下文相关特征。

拼写特征描述的是一个需标注的目标单词本身的拼写结构特征，如单词中是否存在大写字母，是否存在数字，或者是否存在除字母数字外的特殊符号。这类特征非常重要，因为人们常用这类拼写信息来强调缩略词的扩展解释。

与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系，如该词的首字母是否出现在缩略词中，该词的大写字母或特殊字母是否出现在缩略词中。

上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系，本发明设置了窗口大小为3的文本窗口，包括需标注的目标单词本身，该词的前一个单词，该词的后一个单词。判断当目标单词的首字母或大写字母在缩略词t位置中时它的前一个单词的首字母或大写字母是否在缩略词中t-1的位置；判断当目标单词的首字母或大写字母在缩略词t位置中时它的后一个单词的首字母或大写字母是否在缩略词中t+1的位置。