CN103995805A

CN103995805A - 面向文本大数据的词语处理方法

Info

Publication number: CN103995805A
Application number: CN201410247336.8A
Authority: CN
Inventors: 王继生; 潘涛; 向阳
Original assignee: Information Technology Co Ltd Of Hollysys Of Shenhua; Shenhua Group Corp Ltd
Current assignee: Information Technology Co Ltd Of Hollysys Of Shenhua; Shenhua Group Corp Ltd
Priority date: 2014-06-05
Filing date: 2014-06-05
Publication date: 2014-08-20
Anticipated expiration: 2034-06-05
Also published as: CN103995805B

Abstract

本发明公开了一种面向文本大数据的词语处理方法，该方法包括：步骤1：从文本语料库中选择多个词语，针对该多个词语中的每一个词语构建一个K维特征向量，该特征向量的各维度初值由0-1区间内的均匀分布产生；步骤2：使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型；步骤3：利用神经网络模型，计算该N-gram模型的得分；步骤4：用一随机词替换该N-gram模型的中间位置词，并计算替换后模型的得分；步骤5：利用反向传播算法更新N-gram模型中的N维词向量，最终得到嵌入空间的词特征；步骤6：针对基于所述语料库所构造的每一组N-gram模型，重复步骤3-5，从而更新所有词的特征向量。

Description

面向文本大数据的词语处理方法

技术领域

本发明涉及计算文本处理领域，尤其是文本大数据中的词语计算方法。

背景技术

近年来，人们创造数据的能力已经大大超过了获取信息的能力，各种数据呈现爆炸式增长。文本作为最通用的数据类型，是知识传播和信息交流的主要载体，因此研究文本大数据显得格外重要。

虽然机器学习技术在文本挖掘、自然语言处理领域的广泛应用使得该领域取得了明显的进展，但是文本中词语的计算处理方法上却鲜有突破。

目前，词语作为最小计算单元，主要以N维向量的形式存在，彼此之间无任何语义关联。例如，当以三维向量表示三个词：飞机、火车、企业；它们分别会表示为：飞机—[1,0,0]，火车—[0,1,0]，企业—[0,0,1]。这种词语处理方式无法集成任何具有语义特性的先验知识，同时，向量空间随着词的增多而爆炸增加，且向量空间十分稀疏，极大增加后续的文本挖掘、自然语言处理的计算难度。

发明内容

本发明的目的就是为了克服传统向量表示方法的局限，提供一种新的词语处理方法，本方法能够降低文本处理的计算复杂性。

为了解决上述技术问题，本发明公开了一种面向文本大数据的词语嵌入空间特征处理方法，包括：步骤1：从文本语料库中选择多个词语，针对该多个词语中的每一个词语构建一个K维特征向量，该特征向量的各维度初值由0-1区间内的均匀分布产生；步骤2：使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型；步骤3：利用神经网络模型，计算该N-gram模型的得分；步骤4：用一随机词替换该N-gram模型的中间位置词，并计算替换后模型的得分；步骤5：利用反向传播算法更新N-gram模型中的N维词向量，最终得到嵌入空间的词特征；步骤6：针对基于所述语料库所构造的每一组N-gram模型，重复步骤3-5，从而更新所有词的特征向量。

与现有技术相比，本发明具有以下优点：

1、利用N维嵌入空间表示词语，可以反应词的内在特性；

2、词语特征不随词汇量的增大而增大，降低计算复杂性；

3、通过机器自动处理词语，形成词语特征，不再依赖人工定义特征集合。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法结构图；

图2示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法实例图；以及

图3示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法结果图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参考图1至图3，根据本发明的一个实施方式，提供了一种面向文本大数据的词语处理方法，该方法可以包括：

步骤1：从(例如大数据)文本语料库T中选择多个词语，针对该多个词语的每一个词语均构建一个K维特征向量，其中该特征向量各维度初值可由0-1区间内的均匀分布产生；其中，从文本语料库中选择多个词语可以包括：对所述文本语料库进行分词；去除停用词后，统计分词后各词语出现的词频；以及选择词频大于设定阈值的词语；

步骤2：使用N-gram(即N元语法模型，可以表示连续的N个字符组成的字符串，其中N为大于1的整数)的方法将文本表示为由一组特征向量组合成的N-gram特征向量，其可以称为N-gram模型，即为图2中的投影层；

步骤3：利用神经网络模型，计算该N-gram模型的得分(Score)；

步骤4：用一随机词替换该N-gram模型的中间位置词，并计算替换后模型的得分(Score’)；

步骤5：利用反向传播算法更新N-gram模型中的N维词向量，最终得到嵌入空间的词特征；

步骤6：针对基于该语料库T所构造的每一组N-gram模型，重复步骤3-5，从而更新所有词的特征向量。

其中步骤1可以包括以下步骤：

步骤1.1：对文本语料库T进行分词，统计分词后词语的词频；

步骤1.2：对于频率大于δ的词集V＝[v₁,v₂,...,v_n]中的每个词语，构建一个K维向量来表示该词，记为v_i＝[f₁,f₂,...,f_k]；该向量的初值由0-1区间的均匀分布产生；对于频率小于δ的词则直接丢弃；

步骤1.3：构造词集矩阵LookupTable＝[V₁,V₂,...,V_n]。

其中步骤2可以包括以下步骤：

步骤2.1：利用N-gram方法，将语料库T表示为[w₁,w₂,...,w_n]的集合形式，N一般为大于1小于10的整数，为表示方便，以下示例仅以N＝5来说明本发明的具体步骤；

步骤2.2：在步骤1.3构造的词集矩阵LookupTable基础上，查找N-gram模型中出现的词构造LT＝[w_i-2,w_i-1,w_i,w_i+1,w_i+2]向量；

其中步骤3可以包括以下步骤：

步骤3.1：在步骤2.2得到的N-gram模型的特征向量LT＝[w_i-2,w_i-1,w_i,w_i+1,w_i+2]的基础上，根据公式(1)对该特征向量做线性变换(即为图1中的线性变换层)后根据公式(2)计算sigmoid值(即为图1的Sigmoid变换层)，具体计算公式如下表示：

f＝W·LT+b (1)

g_{sigmoid} = \frac{1}{1 + e^{- f}} - - - (2)

步骤3.2：在步骤3.1的基础上，用公式(3)计算N-gram模型的得分(Score)。

score(g)＝W_score·g+b_score (3)

其中，在公式(1)、(2)(3)中，f表示线性转换，W(或W_scroe)表示模型的权重矩阵，LT为特征向量，b为函数偏置。

其中步骤4可以包括以下步骤：

步骤4.1：将步骤3中的N-gram模型的中间词替换为词集矩阵中的随机词，得到新特征向量LT'＝[w_i-2,w_i-1,w'_i,w_i+1,w_i+2]，并利用步骤3.1、3.2中的公式(1)、(2)、(3)计算该替换后的N-gram模型的得分score(g')。

其中步骤5可以包括以下步骤：

步骤5.1：以公式(4)为目标函数，利用反向传播算法，更新N-gram模型的特征向量LT＝[w_i-2,w_i-1,w_i,w_i+1,w_i+2]，即更新该N-gram模型中词的嵌入空间的特征；

J = \frac{1}{| T |} \underset{i &Element; T}{Σ} | 1 - score (g^{'}) + score (g) | - - - (4)

在公式(4)中，J为模型的目标函数，T表示训练样本个数。

发明人要说明的是本文中提到的N-gram模型、计算模型得分以及利用神经网络进行的处理是为所属领域技术人员公知的技术或方法，这里不再赘述。

图2示出了示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法实例图。具体来说，步骤如下：

步骤1：假设语料库中有一语句为“让人类平等认识世界”，通过分词后，构造5-gram模型；

步骤2：通过词集矩阵找到相应词的特征向量，并投影构造5-gram特征向量LT＝[w₁,w₂,w₃,w₄,w₅]；

步骤3：在图2的隐藏层中，对向量LT利用公式(1)、(2)计算隐藏层的输出向量g；

步骤4：利用公式(3)计算该5-gram模型的得分score；

步骤5：随机替换5-gram模型的中间词，例如，改为[让，人类，百科，认识，世界]，重复步骤2-4，得到修改后的得分score’；

步骤6：以为目标函数，利用反向传播算法更新5-gram模型中的词向量，更新该5-gram模型中词的嵌入空间的特征表示；

步骤7：对于语料库T中的所有5-gram，重复步骤2-6，最终实现对词语的处理，得到词的特征向量。

图3为利用该方法得到词的特征向量，并利用余弦相似度计算词语相似性得到的结果。该结果显示本发明对文本大数据中词语的处理方法，能够很好的反应词间相似性。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种面向文本大数据的词语处理方法，该方法包括：

步骤1：从文本语料库中选择多个词语，针对该多个词语中的每一个词语构建一个K维特征向量，该特征向量的各维度初值由0-1区间内的均匀分布产生；

步骤2：使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型；

步骤3：利用神经网络模型，计算该N-gram模型的得分；

步骤4：用一随机词替换该N-gram模型的中间位置词，并计算替换后模型的得分；

步骤6：针对基于所述语料库所构造的每一组N-gram模型，重复步骤3-5，从而更新所有词的特征向量。

2.根据权利要求1所述的方法，其中，从文本语料库中选择多个词语包括：

对所述文本语料库进行分词；

去除停用词后，统计分词后各词语出现的词频；以及

选择词频大于设定阈值的词语。

3.根据权利要求1所述的方法，其中，所述步骤3包括以下步骤：

在所述N-gram模型的特征向量LT＝[w_i-2,w_i-1,w_i,w_i+1,w_i+2]的基础上，根据公式(1)对该特征向量作线性变换后根据公式(2)计算sigmoid值：

f＝W·LT+b 公式(1)

g_{sigmoid} = \frac{1}{1 + e^{- f}}

公式(2)

以及，根据公式(3)计算所述N-gram模型的得分：

score(g)＝W_score·g+b_score 公式(3)，

f表示线性转换，W和W_scroe表示模型的权重矩阵，LT为特征向量，b为函数偏置。

4.根据权利要求3所述的方法，其中，所述步骤4包括以下步骤：

将步骤3中的N-gram模型的中间词替换为词集矩阵中的随机词，得到新特征向量LT'＝[w_i-2,w_i-1,w'_i,w_i+1,w_i+2]，并利用公式(1)、公式(2)和公式(3)计算该N-gram模型的得分score(g')。

5.根据权利要求4所述的方法，其中，步骤5包括以下步骤：

以为目标函数，利用反向传播算法，更新N-gram模型的特征向量LT＝[w_i-2,w_i-1,w_i,w_i+1,w_i+2]，

J为模型的目标函数，T表示训练样本个数。