CN113111653B

CN113111653B - 一种基于Word2Vec和句法依存树的文本特征构造方法

Info

Publication number: CN113111653B
Application number: CN202110371554.2A
Authority: CN
Inventors: 陈启军; 王秋晨; 刘成菊; 张恒
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2023-06-02
Anticipated expiration: 2041-04-07
Also published as: CN113111653A

Abstract

本发明涉及一种基于Word2Vec和句法依存树的文本特征构造方法，包括以下步骤：S1：对语料库中的文本数据进行预处理，并对句子进行句法分析得到句法依存树；S2：根据句法依存树合并依存词组；S3：对完成合并后的数据，利用Word2Vec训练词向量；S4：构造TF‑IDF特征向量；S5：对特征向量进行近义词拓展，根据近义词拓展情况对TF‑IDF特征向量进行特征值更新，完成文本特征的构造，用于输入机器学习模型，与现有技术相比，本发明具有避免重要特征丢失、提高文本特征表征能力等优点。

Description

一种基于Word2Vec和句法依存树的文本特征构造方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于Word2Vec和句法依存树的文本特征构造方法。

背景技术

当今互联网产业蓬勃发展，网络社交平台已经渗透到了人们生活的方方面面，曾经作为主流信息获取、交流的电视、广播、报纸杂志等传统媒体逐步被数字媒体所替代。随着微博、抖音等信息流媒体平台的崛起，越来越多的用户在这些平台上发布文字内容，这些内容又以短文本为主。

将短文本信息进行分类获得了非常广阔的应用场景，例如通过对新闻评论区进行情感分类可以进行舆情分析，对文章进行分类有助于快速对文章进行查找和推荐。但是随着网络技术的高速发展与广泛应用，电子文本信息呈级数增长，用人工方式对文本进行分类将是一项繁重的工作，因此需要借助计算机对文本进行自动分类。越来越多的学者和企业开始将机器学习算法用于文本自动分类，主要的机器学习算法有决策树、持向量机、朴素贝叶斯等。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Word2Vec和句法依存树的文本特征构造方法，从语义和句法两个角度对传统TF-IDF特征向量进行调整，最终得到的特征向量避免了重要特征的丢失，并具有更好的表征能力，有助于提升下游的机器学习模型的效果。

本发明的目的可以通过以下技术方案来实现：

一种基于Word2Vec和句法依存树的文本特征构造方法，包括以下步骤：

S1：对语料库中的文本数据进行预处理，并对句子进行句法分析得到句法依存树；

S2：根据句法依存树合并依存词组；

S3：对完成合并后的数据，利用Word2Vec训练词向量；

S4：构造TF-IDF特征向量；

S5：对特征向量进行近义词拓展，根据近义词拓展情况对TF-IDF特征向量进行特征值更新，完成文本特征的构造，用于输入机器学习模型。

进一步地，所述的预处理包括中文分词、去除乱码和去除标点符号。

进一步地，步骤S2具体包括：遍历句法依存树，对每个词语，检查其父节点以及该词语与其父节点之间的依存关系，当符合设定规则时，将两者合并。

更进一步地，所述的设定规则根据具体任务通过人为设定，包括：

合并位置相邻、依存关系为“状中关系”的词语；

合并位置相邻、依存关系为“定中关系”的词语；

合并依存关系为“动补关系”的词语。

进一步地，步骤S3中，训练方法选用Hierarchical-Softmax，所述的词向量的维度根据语料库大小设定。

更进一步地，步骤S3中，通过查找近义词的方法判断词向量的训练效果，并通过修改迭代次数提高训练效果。

进一步地，步骤S4中，构造TF-IDF特征向量具体为：

首先为语料库中的每条文本都生成一个n维向量；

然后依次计算每条文本中每个词语的TF-IDF权重；

最后将各词语的TF-IDF权重，分别填入对应文本的n维向量中，作为各词语对应维度的特征值，得到每条文本对应的TF-IDF特征向量；

其中，n为语料库去停用词后的词语总数。

更进一步地，所述的TF-IDF权重的计算公式为：

TfIdf(w)＝TF_w×IDF_w

其中，TF_w为词语w的词频，IDF_w为词语w的逆向文件频率，n_w为词语w在文本d中的出现次数，∑_kn_k为在文本d中所有字词的出现次数之和，D为语料库中的文件总数，∑{d:w∈d}为包含词语w的文件数目。

进一步地，步骤S5具体包括：

首先对于每个词语，用Word2Vec搜索语义最相近的前K个近义词；

然后判断各词语的每个近义词是否对应着文本特征中的一个维度，若是，则对TF-IDF特征向量中该近义词对应维度的特征值进行更新。

经过步骤S5，特征向量中很多原本值为0的维度都不再为0，缓解了高维向量的稀疏问题，同时也增强了向量的表征能力；很多原本不为0的维度，权重也因其与近义词共现而得到增强。

更进一步地，搜索语义最相近的前K个近义词时，两个词语的相似度通过两者词向量的余弦相似度计算，其表达式为：

对TF-IDF特征向量中该词语对应维度的特征值进行更新的表达式为：

其中，w为文本中的词语，w_i为词语w对应的第i个近义词。

与现有技术相比，本发明具有以下优点：

1)本发明基于句法依存树将一些词语合并，依存词组在语义上更能表征词组本身的含义，有效提高文本特征的准确性和表征能力；同时通过扩展近义词，将TF-IDF特征向量赋予近义词所对应的维度，缓解了高维向量的稀疏问题；

2)本发明能够将一些停用词和被修饰词合并，避免了去停用词带来的信息丢失，导致重要特征丢失的问题；

3)本发明通过Word2Vec寻找近义词，将特征向量中的TF-IDF权重赋予近义词所对应的维度，使特征向量中很多原本值为0的维度都不再为0，缓解了高维向量的稀疏问题，同时也增强了向量的表征能力；同时很多原本不为0的维度，权重也因其与近义词共现而得到增强；

4)本发明同时考虑了原始TF-IDF与词语间的余弦相似度，兼顾了统计特征与语义特征，提高构造文本特征的准确性；

5)本发明的低频词经过近义词拓展后，特征向量中也包含了高频词特征，有助于机器学习模型更好的学习其特征。

附图说明

图1为本发明方法的流程示意图；

图2为实施例中得到的句法依存树示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明公开了一种基于Word2Vec和句法依存树的文本特征构造方法，具体包括以下步骤：

S1：对语料库中的文本数据进行预处理，并对句子进行句法分析得到句法依存树。

具体为：对语料库数据集中的文本数据进行以下处理：中文分词；去除乱码；去除标点符号；对句子进行句法分析，得到句法依存树。

S2：根据句法依存树合并依存词组。

具体为：遍历句法依存树结构，对每个词语，检查它的父节点和它们间的依存关系，当符合设定规则时将二者合并，具体规则可以根据具体任务灵活制定，包括但不限于：

1)合并位置相邻、依存关系为“状中关系”的词语(该规则包含了大部分停用词和形容词搭配的情形)；

2)合并位置相邻、依存关系为“定中关系”的词语；

3)合并依存关系为“动补关系”的词语。

S3：对完成合并后的数据，利用Word2Vec训练词向量。

具体为：对于预处理后和根据句法依存树合并词语后的数据，用Word2Vec的方法训练词向量，本实施例中，训练方法选用Hierarchical(层次)-Softmax，该方法对于低频词更有利，词向量维度根据语料库大小自由定制，可以通过查找近义词的方法判断词向量的训练效果，若迭代次数太少效果不佳，可以增加迭代次数继续训练。

S4：构造TF-IDF特征向量。

词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数。对于在某一特定文件里的词语w来说，可表示为：

其中，分子n_w是词语w在文本d中的出现次数，而分母∑_kn_k则是在文本d中所有字词的出现次数之和。

逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。对于在某一语料库中的词语w来说，可表示为：

式中，分子D是语料库中的文件总数，分母中的∑{d:w∈d}代表包含词语w的文件数目。如果该词语不在语料库中，就会导致∑{d:w∈d}为零，因此一般情况下使用1+∑{d:w∈d}作为IDF的分母。将TF特征值与IDF特征值相乘，就得到了词语w的TF-IDF特征值，即TF-IDF权重：

TfIdf(w)＝TF_w×IDF_w

本步骤中，首先为语料库中的每条文本都生成一个n维向量，其中，n为语料库中的去停用词后的词语总数，然后依次计算每条文本中每个词语的TF-IDF权重，并将权重填入对应n维向量中该词对应的维度。

S5：对特征向量进行近义词拓展，根据近义词拓展情况对TF-IDF特征向量进行特征值更新，完成文本特征的构造。

具体为：对于句子中的每个词语w，用Word2Vec搜索其语义最相近前K个近义词，词语w_i与原词w的相似度用二者词向量的余弦相似度来计算。其中参数K可以根据具体任务进行调整，一般来说语料库越大(即特征向量维度n越大)，K的取值也应该越大。

判断词语w的每个近义词w_i是否对应着词带特征中的一个维度，如果是，则对其维度对应的特征值进行更新：

这样，特征向量中很多原本值为0的维度都不再为0，缓解了高维向量的稀疏问题，同时也增强了向量的表征能力；很多原本不为0的维度，权重也因其与近义词共现而得到增强。

下面以语料：“我今天吃了火锅，特别嗨皮～”为例，给出本发明方法的具体实施过程：

步骤S1：数据预处理，并对句子进行句法分析得到句法依存树。

1)中文分词，结果为：

['我','今天','吃','了','火锅','，','特别','嗨皮','～']；

2)去除乱码，跳过；

3)去除标点符号，将句中的逗号和波浪号被去掉，结果为：

['我','今天','吃','了','火锅','特别','嗨皮']

4)对句子进行句法分析，得到句法依存树，结果如图2所示。

步骤S2：根据句法依存树合并依存词组。

经过步骤S1处理后，得到相邻的两个词语“特别”和“嗨皮”属于状中关系，因此将二者合并为一个词语，结果为：

['我','今天','吃','了','火锅','特别嗨皮']

步骤S3：对完成合并后的数据，利用Word2Vec训练词向量。

在通过依存关系合并调整后的语料基础上，训练Word2Vec词向量，可以使用开源库进行训练，如python中的gensim库。

训练后检验词向量的效果：

1)“火锅”的top3近义词：

2)“特别嗨皮”的top3近义词：

词语	相似度
		很开心	0.712
开心	0.674
		嗨	0.607

可以看到训练得到的词向量模型能够挖掘到“火锅”与“串串”、“烧烤”在语义上的相近关系；同时也学习到了“特别嗨皮”这个低频词与“很开心”、“开心”等常见词的相似性，还学习到了停用词“特别”的语气程度加强，使同样拥有程度副词的“很开心”比“开心”相似度更高。

步骤S4：构造TF-IDF特征向量。

计算所有词的TF-IDF权重，并将它们赋予TF-IDF特征向量中的对应维度，这里假设两个词语的TF-IDF为：

词语	TF-IDF
		火锅	0.75
特别嗨皮	0.66

步骤S5：对特征向量进行近义词拓展，根据近义词拓展情况对TF-IDF特征向量进行特征值更新，完成文本特征的构造。

假设只搜索每个词语最相似的3个词，即K＝3；要遍历每个词语的所有top3近义词，这里以“火锅”和“特别嗨皮”为例。

对于词语“火锅”，其三个近义词分别为“串串”、“烧烤”和“汤锅”，分别用它们的相似度与“火锅”的TF-IDF相乘，并赋予特征向量中的对应维度：

词语	TF-IDF
		串串	0.75×0.711＝0.533
烧烤	0.75×0.659＝0.494
		汤锅	0.75×0.59＝0.443

用这样的特征向量输入机器学习模型，能够很轻松地学习到火锅、串串、烧烤这些美食间的联系。

对于词语“特别嗨皮”，其三个近义词分别为“很开心”、“开心”和“嗨”，分别用它们的相似度与“特别嗨皮”的TF-IDF相乘，但由于词语“嗨”属于停用词，不属于特征词语，因此只讲前面两个词语的权重赋予特征向量中的对应维度：

词语	TF-IDF
		很开心	0.66×0.712＝0.47
开心	0.66×0.674＝0.445
		嗨	-

用这样的特征向量输入机器学习模型，即便“特别嗨皮”一词的出现频率非常低，但通过特征向量中包含的“很开心”、“开心”等词的信息，依然能够很轻松地挖掘文本对应的情感倾向。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Word2Vec和句法依存树的文本特征构造方法，其特征在于，包括以下步骤：

S2：根据句法依存树合并依存词组；

S3：对完成合并后的数据，利用Word2Vec训练词向量；

S4：构造TF-IDF特征向量；

S5：对特征向量进行近义词拓展，根据近义词拓展情况对TF-IDF特征向量进行特征值更新，完成文本特征的构造，用于输入机器学习模型；

步骤S2具体包括：遍历句法依存树，对每个词语，检查其父节点以及该词语与其父节点之间的依存关系，当符合设定规则时，将两者合并；

所述的设定规则根据具体任务通过人为设定，包括：

合并位置相邻、依存关系为“状中关系”的词语；

合并位置相邻、依存关系为“定中关系”的词语；

合并依存关系为“动补关系”的词语；

步骤S4中，构造TF-IDF特征向量具体为：

首先为语料库中的每条文本都生成一个n维向量；

然后依次计算每条文本中每个词语的TF-IDF权重；

其中，n为语料库去停用词后的词语总数；

步骤S5具体包括：

然后判断各词语的每个近义词是否对应着文本特征中的一个维度，若是，则对TF-IDF特征向量中该近义词对应维度的特征值进行更新；

搜索语义最相近的前K个近义词时，两个词语的相似度通过两者词向量的余弦相似度计算，其表达式为：

其中，w为文本中的词语，w_i为词语w对应的第i个近义词。

2.根据权利要求1所述的一种基于Word2Vec和句法依存树的文本特征构造方法，其特征在于，所述的预处理包括中文分词、去除乱码和去除标点符号。

3.根据权利要求1所述的一种基于Word2Vec和句法依存树的文本特征构造方法，其特征在于，步骤S3中，训练方法选用Hierarchical-Softmax，所述的词向量的维度根据语料库大小设定。

4.根据权利要求3所述的一种基于Word2Vec和句法依存树的文本特征构造方法，其特征在于，步骤S3中，通过查找近义词的方法判断词向量的训练效果，并通过修改迭代次数提高训练效果。

5.根据权利要求1所述的一种基于Word2Vec和句法依存树的文本特征构造方法，其特征在于，所述的TF-IDF权重的计算公式为：

TfIdf(w)＝TF_w×IDF_w