CN109344403A

CN109344403A - 一种增强语义特征嵌入的文本表示方法

Info

Publication number: CN109344403A
Application number: CN201811101553.0A
Authority: CN
Inventors: 张祖平; 杨康
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-02-15
Anticipated expiration: 2038-09-20
Also published as: CN109344403B

Abstract

本发明公开了一种增强语义特征嵌入的文本表示方法，包括以下步骤：S1、文本预处理；S2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；将语义特征序列作为输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型；S3、将各个句子的绝对位置信息依次映射到同一个滑动窗口向量空间内，得到句子的位置向量模型；S4、将各个增强的特征向量模型进行融合，最终获得增强语义特征向量模型。本发明在自然语言处理任务中，如情感分析、文本摘要等，相比于现有的文本嵌入方法，应用增强语义特征的文本嵌入方法可以显著提高在这些任务上的表现。

Description

一种增强语义特征嵌入的文本表示方法

技术领域

本发明涉及自然语言处理技术领域，特别地，涉及一种增强语义特征嵌入的文本表示方法。

背景技术

自然语言处理是人工智能领域的尚未被完全攻克的一个方向。提高文本的表达质量，是改进包括自动文摘、情感分析在内的自然语言处理(Natural Language Processing，NLP)任务效果的一个重要思路。自2013年Mikilov等人提出了次向量模型CBOW和SkipGram，并开源工具包word2vec以后，文本表达方法的研究格局就彻底被改变了。

中国专利申请201710569638.0公开了一种基于词袋模型的文本表示的处理，对采集到的文本数据集进行分词，去停顿词，去低频词，特征选择等处理过程；然后运用空间向量表示处理后的文本；同时对对处理后的文本运用神经网络的方法训练词向量；根据词向量的相似性修改词袋模型的特征词的权重，得到新的文本表示模型。但以词袋模型(BagofWords，BOW)为基础的传统自然语言处理方法由于独热编码和稀疏性且忽略了单词的语义信息，在诸多NLP任务已经开始遇到效果的瓶颈。词向量(Word Embedding)将词语压缩到低维连续的空间解决了独热编码的缺点，在近年的NLP国际会议中都占据着重要地位。

尽管词向量的应用在诸多任务中展现出了极大的潜力，经典的词向量模型仍然存在这不可忽略的缺陷，例如，一词多义的语义混淆，词组语义的丢失等。传统的词向量模型将不同含义的同形词视作一个单词，并将它们映射到同一个词向量，因而造成一词多义的语义混淆；词向量模型是在单词层面进行训练的，因此无法捕捉到词组的语义。

发明内容

本发明的目的在于提供一种增强语义特征嵌入的文本表示方法，以解决背景技术中提出的问题。

本发明提供一种增强语义特征嵌入的文本表示方法，包括以下步骤：

S1、文本预处理；

S2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；将语义特征序列作为输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型；

S3、将各个句子的绝对位置信息映射到一个滑动窗口向量空间，得到句子的位置向量模型；

S4、将步骤S2获得的各个语义特征的向量模型进行融合，最终获得增强语义的句向量表示。

进一步的，所述文本预处理包括：

利用正则表达式对文本进行扫描，去除文本中的标点符号和特殊符号；

匹配停用词库，去除文本中无实际语义的停用词；

对文本进行分词处理。

进一步的，所述语义特征包括Word-POS特征、N-grams特征、词干特征和句子位置特征，所述语义特征序列包括Word-POS特征序列、N-grams特征序列、词干特征序列和句子位置特征序列；

通过词性标注技术获取文本中单词的词性，并将其与文本中的单词对应拼接组合获取文本的Word-POS特征序列；提取每个单词的词干，将文本转化为词干序列，作为词向量模型的输入。

进一步的，所述步骤S3具体为：

S3.1、将每个句子的位置向量初始化为一个N维零向量zeros(N)；

S3.2、将每个句子在文本中的绝对位置ID(即句子在文章中出现的序号)映射到N维零向量中的一个窗口位置，该窗口长度为

S3.3、将N维零向量中长度为的窗口位置的所有0元素替换成1，得到文本中句子的位置向量；其中，窗口位置由句子在文本中的绝对位置ID决定。

进一步的，所述步骤S3的映射关系为：

posvec＝zeros(N) 1)；

式中：posvec表示句子的位置向量；s_i为指示游标，表示窗口的起始位置；表示将的结果去两位小数；表示维度为的全1窗口向量。

进一步的，所述步骤S4具体为：将步骤S2中，从经预处理后的文本中抽取的各个语义特征对应的向量进行算术平均，然后根据不同的自然语言处理任务选择特征；并将各个语义特征对应的向量进行拼接最终获得增强语义的句向量表示。

进一步的，所述步骤S4中增强语义的句向量表示为：

其中，K为抽取的语义特征的种类数量，F_k为文本中第k类语义特征对应的向量的平均表示，k＝1,2,…,K。

进一步的，文本中第k类语义特征对应的向量的平均表示F_k的获取方法包括：

将文本转化为指定种类的特征序列S_feature(k)＝[f_k,1,f_k,2,…,f_k,l]；通过EFE模型训练，所有在训练语料中出现过的第k类语义特征均将被映射为EFE向量矩阵FM_k中唯一对应的一列；查找S_feature(k)中的每个元素f_k,i在FM_k中对应的EFE向量FM_k(f_k,i)，并将EFE向量FM_k(f_k,i)进行算术平均，再与原始句向量拼接后进行句向量强化；如果特征序列中的某个特征在FM_k中不存在，则将其映射为与其他向量等长的全零向量，F_k计算如下：

其中，i＝1,2,…,l。

相比于现有技术，本发明具有以下有益效果：

本发明的一种增强语义特征嵌入的文本表示方法，主要包括捕获文本中有效的语义特征并将文本转化为指定的特征序列；将这些特征序列作为词向量训练模型(如CBOW与Skip-Gram)的输入，把获取的增强语义特征映射为EFE向量用于后续的文本表示强化工作。本发明从原文本中抽取了Word-POS单词词性对特征，很大程度上解决了一词多义的问题；利用N-grams多元组特征，捕捉了词组的语义和局部语序信息；通过词干特征，消除了同一单词在不同时态、单复数时的语义冗余；另外，还考虑了句子在文章中的位置特征，保留了句子位置信息蕴含的句子重要性信息。本发明通过融合这些增强的语义特征，有效保留了句子多维度上的语义信息。在自然语言处理任务中，如情感分析、文本摘要等，相比于现有的文本嵌入方法，应用增强语义特征的文本嵌入方法可以显著提高在这些任务上的表现；本发明提高了文本表示的准确性，进而提高了文本处理的准确性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明中一种增强语义特征嵌入的文本表示方法的流程示意图；

图2是本发明中语义特征模型的结构示意图；

图3是本发明中句子位置信息模型的结构示意图；

图4是本发明中EFE强化句向量模型的流程图；

图5是本发明中EFE向量维度评估结果(IMDB数据集)；

图6是本发明中EFE向量维度评估结果(推特数据集)。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。

参见图1，本发明的一种增强语义特征嵌入(Enhanced Feature Embedding,EFE)的文本表示方法，是一种基于词向量技术的模型，其主要包括以下步骤：

1、文本预处理；具体包括：利用正则表达式对文本数据进行扫描，去除文本中的标点符号和特殊符号，只保留文本内容；然后匹配停用词库，去除库中的无实际语义的停用词；利用分词软件对文本进行分词处理。

2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；该语义特征包括Word-POS特征、N-grams特征、词干特征和句子位置特征；语义特征序列包括Word-POS特征序列、N-grams特征序列、词干特征序列以及句子位置特征序列；将语义特征序列作为词向量(如CBOW与Skip-gram)的输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型。

3、将各个句子的绝对位置信息映射到一个滑动窗口向量空间内，得到句子的位置向量模型。

4、将步骤2获得的各个语义增特征的向量模型进行融合，最终获得增强语义的句向量表示。

在本实施例中，通过词性标记技术获取单词的词性(Part-of-Speech,POS)，并将其与原始单词组合成“单词-词性对”(Word-POS)来达到一词多义消歧的目的。具体地，指定一条单词数为l的文本D＝[w₁,w₂,...,w_l]，通过词性标注得到文本的词性序列P＝[p₁,p₂,...,p_l]后，将所获取的单词词性序列与文本的单词对应拼接组合获取文本的单词词性对序列WP＝[(w₁,p₁),(w₂,p₂),...,(w_l,p_l)]；其中，w_i为文本中第i个单词，p_i为文本中第i个单词的词性，1≤i≤l。例如，单词“works”呈现了两种词性，动词(verb)与名词(noun)，那么它在Word-POS序列中会被区分为(works，verb)与(works，noun)两个Word-POS对，将文本从单词序列转化为Word-POS序列作为词向量训练模型的输入，可以将语料中的Word-POS对映射为特征向量从而捕获原始词向量丢失的一词多义信息。

表1为在IMDB影评数据上使用Skip-Gram训练的词向量模型与Word-POS向量模型中相似元素的对比。在Word-POS向量模型中，与动词形式的“works”最相似的为动作相关词，如“play”和“succeed”；而与名词形式的“works”作为相似的则为其他的名词，如“films”与“art”。相对比，在词向量模型中，这种一词多义的区别是无法被捕获到的，词向量很大程度上只会将“works”视为一个动词。

表1为词向量和Word-POS向量相似元素对比(训练于IMDB数据集)

本实施例中，通过获取文本的N-gram(多元文法)特征，可以得到一些传统词向量无法捕获的短语信息。具体可为在英文句子“His dream will come true”中，“come true”为有独立语义的连词词组，但以单词为输入单位的词向量模型会将“come”与“true”分开处理，从而丢失了部分语义。通过转化文本为二元文法(Bigram)特征序列[(His,dream),(dream,will),(will,come),(come,true)]，以区分出这种以两个单词为组合的短语单元。与Word-POS特征序列类似，以将Bigram序列作为词向量模型的训练输入来获得Bigram特征向量。

表2为在IMDB数据上训练所得的词向量模型与Bigram向量模型中的相似元素对比，图2给出了四种语义特征的训练模型。由表2可知，原始词向量完成无法得到短语语义，而Bigram向量可以识别出大量与“dream”相关的连词组合，在语义上更能体现出“cometrue”的含义。

表2词向量和Bigram向量相似元素对比(训练于IMDB数据集)

本实施例中，在英文文本中一个单词往往有多种时态与复数形式等，而这些单词由于基于同一个词干的原因，他们的上下文十分相似。在训练词向量时，如果不对单词进行词干提取(Lemmatization)处理，训练出来的词向量会出现语义上的冗余现象，与某一个单词向量距离最相近的往往是这个单词其他的形态。因此，提取文本中每个单词的词干，将文本转化为词干序列，作为词向量训练模型的输入。同样的，在IMDB数据集上训练了词干特征向量，并在表3中展示了与原始词向量模型的相似性对比。

表3词向量和词干向量相似元素对比(训练于IMDB数据集)

由表3可知，在词向量模型中同一词干的单词对应向量之间的距离都十分相近，存在语义上的冗余；而词干特征向量则通过归一化的处理消除了这种现象，能够捕获文本中单词更为紧凑的语义。

一篇文章中处于文章开头、结尾、段首、段尾的句子一般会暗示文章的中心思想，所以句子在文中的位置信息是非常重要的。特别地，在文本摘任务中，文章的段首句极有可能成为文章的摘要句。将句子在文档中的绝对位置(位置ID)映射成一个滑动窗口向量，将不同长度的文档中的位置映射到相同的向量空间，极大方便了后续的计算处理。

首先将句子的位置向量初始化为一个N维零向量zeros(N)；然后，将句子在文档中的绝对位置ID映射到这个N维向量中的一个窗口位置，具体映射关系在下述公式1)至公式3)中阐述；最后，将N维零向量中的窗口位置的所有0元素(个0)替换成1(个1)，最终得到文本中句子的位置向量。

posvec＝zeros(N) 1)；

式1)中posvec表示句子的位置向量(position vector)，zeros(N)表示一个维度为N的零向量，公式1)表示将位置向量初始化为一个长度为N的全零向量，这里N是位置向量的维度，N可设置为100；公式1)的含义是将每个句子的位置向量初始化为N维的零向量。

式2)中s_i为一个指示游标，表示窗口的起始位置；表示将的结果去两位小数，句子的位置ID由公式2)映射到的窗口位置。

公式3)中，表示一个维度为的全1窗口向量；公式3)表示将初始化的全0向量posvec中第s_i个到第个0元素替换成1，得到第i个句子位置的向量表示，如图3所示。

在词向量训练模型(如Skip-Gram)中，文本是作为词语序列进行输入的，相应的，将附加的语义特征映射成特征向量之前，需要将文本转化为指定的特征序列。表3-4展示了一个文本转化的例子，在文本预处理后，将文本转化为包含原始单词序列在内的五组特征序列，其中四种已在前述展示过的有效附加语义特征，分别为：Word-POS序列，Bigram序列，Trigram序列与词干序列。N-gram特征只选择了Bigram和Trigram，这是由于N-gram长度的增加会造成需要映射的特征向量大幅增多，从而造成更重训练消耗。

本实施例中，文本被转化为附加特征后便可以作为词向量训练模型的输入数据，通过常规的词向量训练过程，指定种类的语义特征可以被映射为增强语义特征向量(EFE向量)。EFE向量的原理同样基于词向量的上下文假设，相近的语义的文本特征拥有相似的上下文结构，在指定特征序列上进行窗口滑动训练，可以达到将语义相近的文本特征(如Bigram)映射为距离相近的向量。图2展示了使用Skip-Gram训练本文所选的四种EFE模型训练的过程。

表4EFE序列转化案例

利用特征拼接的方法将强化后的句向量表示为如下式4)：

其中，K代表了提取的附加语义特征的种类数量，F_k代表文本中第k类附加特征向量(如Bigram)的平均表示，其获取过程如下：首先，文本被转化为指定种类的特征序列S_feature(k)＝[f_k,1,f_k,2,…,f_k,l]。通过EFE模型训练，任何在训练语料中出现过的第k类附加特征都会将被映射为EFE向量矩阵FM_k中唯一对应的一列。那么，便可以查找S_feature(k)中的每个元素f_k,i在FM_k中对应的EFE向量FM_k(f_k,i)，并通过将这些向量做算术平均来与原始句向量进行拼接来进行句向量强化。如果特征序列中的某个特征在FM_k中不存在，则将其映射为与其他向量等长的全零向量，F_k计算如下式5)：

其中，i＝1,2,…,l。

拼接后的句向量在原始的基础上附带了丢失的语义信息，拥有了更强的表达能力。由于EFE向量基于词向量训练技术，附加语义特征全被映射为了低维连续向量，拼接强化后的句向量并不会因为特征的增加而造成维度灾难问题。图4展示了EFE强化的整体流程。

语义特征的评估(情感分析任务)：本实施例中将验证某种EFE向量单独添加对分类结果的影响。表5展示了在IMDB与推特数据集上添加各个EFE特征所带来的分类准确率增益。可以观察到，N-gram特征的添加带来最多的增益。在推特数据集的实验中，使用PV向量上拼接Bigram与Trigram的EFE向量表示文本，分类准确率相对于原始PV向量提高了2.49％；而在Skip-Gram平均句向量上，同样能带来1.78％的提高。另外还可以发现，Trigram的添加带来的提升与Bigram带来的提升差别不大，这也证实了N-gram的长度不宜选择太长，过多的N-gram组合直观上大幅度地增加了需要映射的EFE数量，在造成训练效率的下降的情况下并不能进一步显著提高分类效果。由于推特数据表达不规范的原因，可以发现，Word-POS特征在推特数据集上带来增益并不明显(使用Word-POS强化PV仅仅带来了0.28％的分类准确率提升)。由此可以，针对不同的数据集，附加特征的效果也不尽相同。

表5 EFE对篇章级情感分类准确率的强化效果(使用SVM算法)

语义特征的评估(自动文摘任务)：在自动文摘任务中，同样为了解每个特定的增强特征嵌入模型如何提高性能，单独使用特定模型运行实验。对于每个实验，只提取一个增强特征来训练嵌入模型输入的级联随机森林中作分类。对整个DailyMail数据测试集执行10次交叉验证，列出分类的精度(如表5左侧部分所示)。

在文本摘要任务中，位置特征是贡献最大的特征，作者经常在文章的开始时给出他们的主要想法，或者在文章结尾进行简要的总结。此外，POS有助于提高近2％的准确性。尽管Bigram和Trigram特征捕获了词序和短语信息，但它会随着N-gram特征数量的增加而影响模型训练的效率。在表5的右侧，发现随着增强特征模型一个接一个地被包含，准确度增加。因此，增强特征嵌入模型(EFE)在判断句子是否为摘要句这个任务中对句子的表示方式是有效的。

表6 EFE在DailyMail数据集上对摘要句的分类准确率的强化效果(使用cascadeforest算法)

维度评估：EFE向量的添加会带来文本表示维度的提升，因此，有必要在实验中来确定EFE的最佳长度。在本组实验中，将从10到300递增EFE向量的维度，然后使用SVM算法来进行情感分类实验。如图5所示，选择不同的EFE向量维度下，在IMDB数据集上的获得的情感分类准确率。可以观察到，EFE向量在低维度的选择下依然能得到不错的提升效果：在对于PV的强化实验中，仅训练50维的EFE向量就能使分类准确率超过93％。更高维度的选择虽然能够带来更好效果提升，但是向量长度为100到150维，分类效果已经趋于最佳，再进一步添加EFE向量长度很容易给分类器训练带来过拟合的影响。

如图6所示，在推特数据集上的递增维度实验结果，由于推特数据处理更为困难，EFE向量长度相比于IMDB实验需要取得更长，以获得最佳情感分类效果，在图中可以观察到，200维左右的维度下，分类准确率最佳。上述实验证实了EFE强化的可行性，EFE向量仅带来了很低维度消耗，并且由于向量长度在训练过程中可以进行人为的控制，EFE强化也具有很强的可控性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强语义特征嵌入的文本表示方法，其特征在于，包括以下步骤：

S1、文本预处理；

2.根据权利要求1所述的文本表示方法，其特征在于，所述文本预处理包括：

匹配停用词库，去除文本中无实际语义的停用词；

对文本进行分词处理。

3.根据权利要求1所述的文本表示方法，其特征在于，所述语义特征包括Word-POS特征、N-grams特征、词干特征和句子位置特征，所述语义特征序列包括Word-POS特征序列、N-grams特征序列、词干特征序列和句子位置特征序列；

4.根据权利要求1所述的文本表示方法，其特征在于，所述步骤S3具体为：

S3.1、将每个句子的位置向量初始化为一个N维零向量zeros(N)；

S3.2、将每个句子在文本中的绝对位置ID映射到N维零向量中的一个窗口位置，该窗口长度为

5.根据权利要求4所述的文本表示方法，其特征在于，所述步骤S3的映射关系为：

posvec＝zeros(N) 1)；

式中：posvec表示句子的位置向量；s_i为指示游标；表示将的结果去两位小数；表示维度为的全1窗口向量。

6.根据权利要求1所述的文本表示方法，其特征在于，所述步骤S4具体为：将步骤S2中，从经预处理后的文本中抽取的各个语义特征对应的向量进行算术平均，然后根据不同的自然语言处理任务选择特征；并将各个语义特征对应的向量进行拼接最终获得增强语义的句向量表示。

7.根据权利要求6所述的文本表示方法，其特征在于，所述步骤S4中增强语义的句向量表示为：

8.根据权利要求7所述的文本表示方法，其特征在于，文本中第k类语义特征对应的向量的平均表示F_k的获取方法包括：

其中，i＝1,2,…,l。