CN109635303A

CN109635303A - 特定领域意义改变词的识别方法

Info

Publication number: CN109635303A
Application number: CN201811578060.6A
Authority: CN
Inventors: 陈恩红; 何伟栋; 吕广奕; 吴乐; 张琨
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-16
Anticipated expiration: 2038-12-19
Also published as: CN109635303B

Abstract

本发明公开了一种特定领域意义改变词的识别方法，包括：从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据，并从正常语料中爬取相应的正常文本；使用基于词嵌入的语言模型获取正常文本的表征，作为词初始表征，并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型，并使用梯度下降策略训练该深度自编码网络模型；深度自编码网络模型训练完成后，获得所有特定领域词的词向量表征，分别计算与对应词初始表征的距离，并按照距离从大到小排序，取排序前K个次作为特定领域意义改变词。通过上述方法可以准确的识别特定领域文本中存在的意义不同的词，从而为下游应用，如构建领域专有词汇表等提供帮助。

Description

特定领域意义改变词的识别方法

技术领域

本发明涉及机器学习和自然语言处理领域，尤其涉及一种特定领域意义改变词的识别方法。

背景技术

近年来，互联网的高速发展见证了用户生成内容(UGC)的蓬勃发展。其中，用户生成文本扮演了一个重要的角色，例如朋友圈、微博、视频评论等等。在这类文本中，有一个非常有趣的现象是用户经常会使用一些传统语料中已有的但是意义不同的词，即所谓的旧词新意，例如狗粮这个词，经常用于被秀恩爱的场景，而非其原本含义，而这类词称为特定领域意义改变词。如何识别该类词对于用户生成文本的理解是非常关键的。

然而，对于这个现象还未有太多的研究，多数相关的研究集中于网络新词的发现或者同义词的识别，不能直接应用于这个问题。

发明内容

本发明的目的是提供一种特定领域意义改变词的识别方法，可以充分利用词语语境和相应的图像内容来解决该类词识别问题。

本发明的目的是通过以下技术方案实现的：

一种特定领域意义改变词的识别方法，包括：

从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据，并从正常语料中爬取相应的正常文本；

使用基于词嵌入的语言模型获取正常文本的词表征，作为词初始表征，并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型，并使用梯度下降策略训练该深度自编码网络模型；

深度自编码网络模型训练完成后，获得所有特定领域词的词向量表征，分别计算与对应词初始表征的距离，并按照距离从大到小排序，取排序前K个次作为特定领域意义改变词。

由上述本发明提供的技术方案可以看出，同时使用正常文本和特定领域文本，借助基于嵌入的深度自编码网络框架，并且融入了图片的信息，从而可以准确的识别特定领域文本中存在的意义不同的词，从而为下游应用，如构建领域专有词汇表等提供帮助。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种特定领域意义改变词的识别方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种特定领域意义改变词的识别方法，如图1所示，其主要包括如下步骤：

步骤1、从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据，并从正常语料中爬取相应的正常文本。

举例来说，所述从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据可以包括：从在线视频网站中爬取一定量的弹幕数据，对于每一条弹幕，都有其对应的文本数据以及相应的帧图像数据。当然，也可以从其他类型的网站爬取其他形式的特定领域文本数据及相应的图像数据，所爬取的具体数量可根据实际需求或者经验来设定，本发明不做限定。

举例来说，可以将中文维基百科数据作为正常文本语料。

此外，为了便于后续处理，还可以对爬取到的特定领域文本数据及相应的图像数据，以及正常文本进行预处理，以爬取的弹幕数据为例，预处理的优选实施方式如下：

1)提取关键帧：根据图片的颜色描述符，使用affinity propagation聚类算法，并且将聚类核心作为关键帧，同时过滤包含弹幕文本条数少于设定值的关键帧，得到过滤后的关键帧所对应的图像数据，以及所包含的弹幕文本数据。

本领域技术人员可以理解，原始数据中一帧图像数据中包含的弹幕(弹幕文本)可能过少，因而，通过上述过滤处理后，每一个关键帧所对应的图像数据中都包含了数量大于设定值的弹幕文本，过滤时所涉及的设定值可以根据实际要求来设定。

2)对上个步骤中获得的特定领域文本数据(即弹幕文本)，借助基于重叠度的新词发现算法提取了相应的新词，将其加入分词工具的词典。

由于预处理的最终目的是为了对文字进行分词，然而弹幕文本中包含非常多的新词，会对分词结果产生干扰，所以，本步骤需要提取新词。

3)对爬取到的正常文本进行分词，对于关键帧过滤后所保留的特定领域文本数据使用新词的词典进行分词处理。

本发明实施例中，分词处理方式可使用常规工具实现，如jieba分词工具。

步骤2、使用基于词嵌入的语言模型获取正常文本的词表征，作为词初始表征，并结合所爬取的特定领域文本数据及相应的图像数据构建基于嵌入的深度自编码网络模型，并使用梯度下降策略训练该模型。

本领域技术人员可以理解，此处提到的爬取的特定领域文本数据及相应的图像数据是指经过预处理后的特定领域文本数据及相应的图像数据。

一、模型结构。

本发明实施例中，所述基于嵌入的深度自编码网络模型包括：表征层、编码-解码层、以及词提取层。

1、表征层。

所述表征层，用于将输入信息表征为一个固定长度的向量。

1)对于图像数据，使用已有的VGG-16网络的倒数第二层输出作为其向量表征v^v。

2)对于正常文本中的词，使用Word2Vec获取其表征，作为词初始表征。

3)对于特定领域文本数据，可以认为其只是在正常文本基础上，对部分词进行了意义改变。由此，可以利用词初始表征来构建特定领域文本数据的词表征，即特定领域词的表征可以通过在相应正常文本的词表征基础上与一个向量结合得到，这个结合的向量即为该特定领域词相对于正常文本的偏移量，表示为：

其中，为第i个特定领域词的one-hot表示；W_emb为词嵌入层的网络参数，f是嵌入层的激活函数，在本发明例中为ReLU激活函数；为第i个正常文本的词初始表征，当正常文本不包含特定领域的某个词时，可以将其简单的置为0；表示向量结合方式，在本发明例中为向量加法；为第i个特定领域词的向量表征。

本领域技术人员可以理解，文中所述的特定领域词及相应的正常文本是指二者文本内容相同。

2、编码-解码层。

所述编码-解码层是通过已获得的特定领域词的向量表征获取句子向量表征，并将句子向量表征与已经获得的图片向量表征嵌入到同一个空间；编码器和解码器由门循环单元网络(Gated Recurrent Unit)实现，假设某一时刻输入的特定领域词的向量表征为x_t，上一时刻的隐状态为h_t-1，则具体计算过程如下：

r_t＝σ(W_r[h_t-1,x_t])

z_t＝σ(W_z[h_t-1,x_t])

上式中，r_t和z_t分别为重置门和更新门，更新门z_t用于控制上一时刻的隐状态h_t-1被带入到当前时刻的隐状态h_t中的程度，更新门z_t的值越大说明上一时刻的隐状态h_t-1的信息带入越多，重置门r_t用于控制忽略上一时刻的隐状态h_t-1的程度，重置门r_t的值越小说明忽略得越多；是一个结合了重置门r_t和输入x_t的中间变量，[]表示两个向量拼接；σ和tanh分别表示sigmoid和tanh非线性激活函数；*表示矩阵对应元素相乘；W_r、W_z、是待优化的参数。

所述编码-解码层中，首先使用一个编码器，把特定领域词的向量表征序列作为输入，得到一系列对应的隐状态输出，其中将最后一个隐状态向量v^s作为相应的句子向量表征；然后相应的句子向量表征作为解码器的初始状态输入，重构表征层中特定领域词的输入，即相应特定领域词的one-hot表示；解码器的工作表示为：

其中，是表示句子开始的特殊向量，可以设置为0向量；z_i表示解码器的第i个隐状态向量；表示重构为第i个特定领域词的概率分布；W_out和b_out是输出层的网络参数，输出层是指在解码器之后的一层，作用是将解码器的每个隐状态转换为对应的每个特定领域词的概率分布；f是嵌入层的激活函数；

获取了解码器的输出以后，重构损失通过下面的式子计算：

其中，S^u是输入至编码器的特定领域词的向量表征序列(也即，一个句子向量表征)，其长度为n(即包含n个特定领域词)，P(S^u|v^s)是指S^u与v^s下的条件概率分布；

使用一个正交矩阵G把图像数据的向量Gv^v表征到文本空间，损失函数如下：

上式中，dist为距离损失函数；

最终损失函数为：

上式中，最后一项‖G^TG-I‖_F为对正交矩阵G的正交性约束，I为单位矩阵，α与β为设定的两个权值。

3、词提取层。

词提取层，用于在深度自编码网络模型训练完成后，提取特定领域意义改变词。

二、模型训练。

本发明实施例中，利用最终损失函数，并使用基于minibatch的随机梯度下降优化算法训练模型中的所有参数包括：表征层中所涉及的词嵌入层的网络参数W_emb，编码-解码层所涉及的参数W_r、W_z、以及输出层的网络参数W_out和b_out。

步骤3、深度自编码网络模型训练完成后，获得所有特定领域词的词向量表征，分别计算与对应词初始表征的距离，并按照距离从大到小排序，取排序前K个词作为特定领域意义改变词。

本步骤所获得的结果也即深度自编码网络模型中词提取层的输出结果。

示例性的，所计算的向量表征之间的距离可以选择余弦距离；K是一个预先设定的阈值，可以根据实际情况来设定。

本发明实施例上述方案，可以充分利用词语语境和相应的图像内容来解决该类词识别问题；同时，同时使用正常文本和特定领域文本，借助基于嵌入的深度自编码网络框架，并且融入了图片的信息，从而可以准确的识别特定领域文本中存在的意义不同的词，由此为下游应用，如构建领域专有词汇表等提供帮助。对于识别的结果，在多个评价指标上有一定的提高。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种特定领域意义改变词的识别方法，其特征在于，包括：

2.根据权利要求1所述的一种特定领域意义改变词的识别方法，其特征在于，所述从含有用户生成文本的网站上爬取一定量的特定领域文本数据及相应的图像数据包括：从在线视频网站中爬取一定量的弹幕数据，对于每一条弹幕，都有其对应的特定领域文本数据以及相应的帧图像数据。

3.根据权利要求1所述的一种特定领域意义改变词的识别方法，其特征在于，构建基于嵌入的深度自编码网络模型之前还包括对爬取的特定领域文本数据及相应的图像数据，以及正常文本进行预处理的过程，其步骤包括：

提取关键帧：根据图片的颜色描述符，使用affinity propagation聚类算法，并且将聚类核心作为关键帧，同时过滤包含弹幕文本条数少于设定值的关键帧，得到过滤后的关键帧所对应的图像数据，以及所包含的弹幕文本数据；

对上个步骤获得的特定领域文本数据，即弹幕文本数据，借助基于重叠度的新词发现算法提取了相应的新词，将其加入分词工具的词典；

对爬取到的正常文本进行分词，对于关键帧过滤后所保留的特定领域文本数据使用新词的词典进行分词处理。

4.根据权利要求1或3所述的一种特定领域意义改变词的识别方法，其特征在于，所述基于嵌入的深度自编码网络模型包括：表征层、编码-解码层、以及词提取层；

所述表征层，用于将输入信息表征为一个固定长度的向量；对于图像数据，使用已有的VGG-16网络的倒数第二层输出作为其向量表征v^v；对于正常文本中的词，使用Word2Vec获取其表征，作为词初始表征；对于特定领域文本数据，利用词初始表征来构建特定领域文本数据的词表征，表示为：其中，为第i个特定领域词的one-hot表示；W_emb为词嵌入层的网络参数，f是嵌入层的激活函数，为第i个正常文本的词初始表征，表示向量结合方式，为第i个特定领域词的向量表征；

所述编码-解码层是通过已获得的词向量表征获取句子向量表征，并将句子向量表征与已经获得的图片向量表征嵌入到同一个空间；编码器和解码器由门循环单元网络实现，假设某一时刻输入的特定领域词的向量表征为x_t，上一时刻的隐状态为h_t-1，则具体计算过程如下：

r_t＝σ(W_r[h_t-1,x_t])

z_t＝σ(W_z[h_t-1,x_t])

上式中，r_t和z_t分别为重置门和更新门，更新门z_t用于控制上一时刻的隐状态h_t-1被带入到当前时刻的隐状态h_t中的程度，更新门z_t的值越大说明上一时刻的隐状态h_t-1的信息带入越多，重置门r_t用于控制忽略上一时刻的隐状态h_t-1的程度，重置门r_t的值越小说明忽略得越多；是一个中间变量，[]表示两个向量拼接；σ和tanh分别表示sigmoid和tanh非线性激活函数；*表示矩阵对应元素相乘；W_r、W_z、是待优化的参数；

5.根据权利要求4所述的一种特定领域意义改变词的识别方法，其特征在于，所述编码-解码层中，首先使用一个编码器，把特定领域词的向量表征序列作为输入，得到一系列对应的隐状态输出，其中将最后一个隐状态向量v^s作为相应的句子向量表征；然后把相应的句子向量表征作为解码器的初始状态输入，重构表征层中特定领域词的输入，即相应特定领域词的one-hot表示；解码器的工作表示为：

其中，是表示句子开始的特殊向量；z_i表示解码器的第i个隐状态向量；表示重构为第i个特定领域词的概率分布；W_out和b_out是输出层的网络参数，输出层是指在解码器之后的一层，作用是将解码器的每个隐状态转换为对应的每个特定领域词的概率分布；f是嵌入层的激活函数；

获取了解码器的输出以后，重构损失通过下面的式子计算：

其中，S^u是输入至编码器的特定领域词的向量表征序列，其长度为n，P(S^u|v^s)是指S^u与v^s下的条件概率分布；

上式中，dist为距离损失函数；

最终损失函数为：

6.根据权利要求5所述的一种特定领域意义改变词的识别方法，其特征在于，利用最终损失函数，并使用基于minibatch的随机梯度下降优化算法训练模型中的所有参数包括：表征层中所涉及的词嵌入层的网络参数W_emb，编码-解码层所涉及的参数W_r、W_z、以及输出层的网络参数W_out和b_out。