CN107729311A

CN107729311A - 一种融合文本语气的中文文本特征提取方法

Info

Publication number: CN107729311A
Application number: CN201710752000.0A
Authority: CN
Inventors: 郭延哺; 金宸; 姬晨; 邓春云; 李维华; 王顺芳
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-02-23
Anticipated expiration: 2037-08-28
Also published as: CN107729311B

Abstract

本发明公开了一种融合文本语气的中文文本特征提取方法，实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集，将文本词集和语气词集转换成词嵌入形式，得到对应的向量模型；其次，依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征，并将语气特征融入到选取的文本特征的时间步长维度上，获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献，将语气特征、句法特征和语义特征融合到文本特征表示之中，且该文本特征表示具有低维和连续的特点，不仅可以更好地表示文本语义，也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。

Description

一种融合文本语气的中文文本特征提取方法

技术领域

本发明属于自然语言处理领域，涉及一种融合文本语气的中文文本特征提取方法；基于海量的中文文本，把中文语气特征融入文本特征，更好地表示中文文本语义。

背景技术

每天来自互联网、电子商务等领域的文本数量急剧增加，单靠人工处理和理解这些海量的文本数据，将会耗费大量的成本而得不偿失。为快速并高效地挖掘出海量文本中有用的知识模式，基于人工智能相关技术处理和理解文本成为一个更好的选择；智能分析海量文本的关键是对文本语义特征进行有效地表示，最常用的文本表示方法是词袋模型（Bag of Words，BOW），词袋模型虽然简单实用但是文本表示往往纬度高并且稀疏。TF-IDF(词频-逆文档频率)、概率主题模型(Latent Dirichlet Allocation，LDA)等方法被提出改进文本特征表示方法；然而，这些方法往往假设词对文本的语义贡献和词出现的频率有关。但事实上，在中文文本中，有些词虽然出现的频率不是高，但对文本的语义贡献却是不能忽略的，语气词就是其中之一。词嵌入技术Skip-gram、CBOW（Continuous Bag Of WordsModel）等分布式词表示成为文本分析的一种重要手段，并取得一些很好的成果。随着深度学习研究的开展，卷积神经神经网络（Convolutional Neural Network，CNN）和长短期记忆（Long Short Term Memory，LSTM）神经网络凭借可以智能识别文本中重要信息和获取文本的广泛的语义信息等优势被应用到自然语言处理领域中，并取得了很好的效果。本发明基于中文文本的语气词，首先利用神经网络提取文本中的语义特征；其次智能判别最重要的句法知识和语义特征，提出一种充分利用语气词对语义的贡献的中文文本特征提取方法。

发明内容

本发明的目的在于在现有技术的基础上，公开了一种融合文本语气的中文文本特征提取方法，进一步提高文本分析、语言翻译、关系抽取等自然语言处理任务的准确性。

为实现上述目的，本发明提出一种融合文本语气的中文文本特征提取方法，其特征在于，包括以下步骤：

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

对文本集中的每个文本进行分词，将文本集中的每条文本的词依次添加到集合V ₁中，最后得到文本词集，表示文本集的词数目；

1.2)、文本语气词集生成

提取每条文本含有的语气词，将语气词添加到集合中，最后得到文本语气词集，表示文本集合语气词的数目；其中是可能的语气词集E的子集，E={唉，了，哪，呢，呐，否，呵，哈，不，呸，吧，罢，呗，啦，唻，嘞，哩，咧，咯，啰，喽，吗，嘛，么，阿，啊，呃，哇，呀，也，耶，哟，欤，呕，噢，呦，一定，必定，难道，何尝，大概，也许，果然，果真，难怪，原来，不中，罢了，不成，得了，而已，了得，也罢，已而，也好，就是，一般，再说，不过，怪不得，就是了，不得了}；

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

用Skip-gram模型训练文本词集得到每个词的k维词向量，p个词向量组成行列矩阵，；

2.2)、文本语气向量模型构建

用CBOW模型训练语气词集得到每个语气词的k维词向量，q个语气词向量组成行列矩阵,；

(3)、文本词表示模型构建

3.1)、文本初始向量生成

从文本词向量矩阵M获取第i条文本的向量表示；其中0<i<L, 表示文本的词数目，表示文本的第（0<j<n）个词的向量表示，:词向量属于维向量空间；

3.2)、文本词的上下文语义向量生成

将文本输入Bi-LSTM（双向长短期记忆网络）层，Bi-LSTM层逐字处理；输出文本中的第j个词的正向语义和逆向语义；

3.3)、文本词模型构建

文本中的第j个词的词向量、和向量进行运算，得到文本中第个位置的词的局部语义特征表示；那么文本的特征表示为二维向量,,表示文本的词数目；

Bi-LSTM局部语义合成运算为：

其中表示向量逐元素相加然后求均值，—表示向量逐元素相减。

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

文本词嵌入表示有时间步长维度和特征向量维度，将文本向量传入2维卷积层；即在文本特征的时间步长维度和特征向量维度进行卷积运算；2维卷积器为，表示卷积器在时间步长维度上对个词，特征向量维度上对个特征进行卷积运算，卷积运算在两个维度方向移动的步长都为1；得到第i条文本的中间表示，那么L条文本表示为；

4.1.2)、文本特征向量维度1维池化

将卷积层得到的第i条文本的中间表达传入1维最大池化层，仅在文本特征的时间维度上进行最大池操作；获取第i条文本在词的维度上的最大特征值；

操作如下：

4.1.3)、文本特征的2维卷积

重复一次步骤4.1.1)的2维卷积得到第i条文本新的中间特征表示，那么L条文本表示为；

4.1.4)、文本语气特征生成

从语气词向量空间模型T中获取第i条文本的语气词向量组成r个语气词的二维向量，向量集表示；其中0<i<L，为文本数目,为每条文本的第（0<j<n）个词的特征表示；

4.2)、文本表示生成

4.2.1)、文本语气特征融合

将第i条文本的语气向量与其特征表示进行融合；即将语气词向量放在文本特征之后，获得到融合语气的新的文本特征表示;

4.2.2)、文本表示强化

将第i条文本的特征再次进行1维最大池化操作，即在文本表示的时间步长维度（词维度）上进行最大池化操作，得到定长维度的文本特征表示；即选取第i条文本的词的维度上的最大特征值；最终得到第i条文本的融合文本语气的文本特征表示；

附图说明

图1：一种融合文本语气的中文文本特征提取方法过程图；

图2：文本词表示模型；

图3：文本表示模型；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。

图1：一种融合文本语气的中文文本特征提取方法包括：步骤(1)、海量文本词集和语气词集生成，通过文本集、文本语气词集生成每条文本的词、语气词集；(2)、词嵌入模型构建，通过训练Skip-gram、CBOW模型获得文本特征向量、语气词特征向量；(3)、文本词表示模型构建，通过Bi-LSTM层生成每条文本的词的上下文语义特征，然后结合初始化的词向量生成文本局部特征向量，再经过2维卷积1维池化得到文本中间全局特征；(4)、文本表示模型构建

下面对四个步骤进行详细说明。

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

1.2)、文本语气词集生成

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

2.2)、文本语气向量模型构建

在图2：文本词表示模型；图3：文本表示模型，具体过程具体如下：

(3)、文本词表示模型构建

3.1)、文本初始向量生成

从文本词向量矩阵M获取第i条文本的向量表示；其中0<i< L, 表示文本的词数目，表示文本的第（0<j<n）个词的向量表示，:词向量属于维向量空间；

3.2)、文本词的上下文语义向量生成

将文本序列输入Bi-LSTM（双向长短期记忆网络）层，Bi-LSTM层逐字处理；输出文本中每个词的正向语义和逆向语义；

3.3)、文本词模型构建

文本中的第j个词的词向量与正向语义和逆向语义表示向量进行运算，得到文本中第个位置的词的局部语义特征表示；那么文本的特征表示为：,,表示文本的词数目；

Bi-LSTM层局部语义合成运算为：

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

文本词嵌入表示有时间步长维度和特征向量维度，将Bi-LSTM层提取的文本表示传入2维卷积层；也就是在文本特征的时间步长维度和特征表示维度进行卷积运算；2维卷积器为，表示卷积器一次在时间步长维度上对个词，特征表示维度上对个特征进行卷积，卷积在两个维度方向移动的步长都为1；得到第i条文本的中间表示，那么L条文本表示为；

例如：假设有N个卷积器；其中一个卷积器的映射特征为：由一个范围的向量通过卷积运算产生；

2维卷积运算为：

其中从1到（n-a+1）, 从1到（k-b+1），表示向量点积，是偏差项，是非线性函数：双曲正切函数；

另外，第1个卷积器在一条文本表示的每个可能范围进行卷积生成的特征 ,其中

那么，第i条文本在N个卷积器生成的中间特征为：，则L条文本生成的中间特征为；

4.1.2)、文本特征向量维度1维池化

将卷积层得到的第i条文本的中间表达传入1维最大池化层；也就是仅在文本特征的时间步长维度上进行最大池化操作；获取第i条文本在每个词的维度上的最大特征值；即获取第i条文本的最主要特征；

操作如下：

4.1.3)、文本特征的2维卷积

重复一次步骤4.1.1)的2维卷积得到第i文本新的中间特征表示，那么L条文本表示为；

4.1.4)、文本语气特征生成

从语气向量空间模型T中获取第i文本的语气词的向量组成r个语气词的二维向量，向量表示；其中 0<i<L，为文本数目,为每条文本的第（0<j<n）个词的特征表示；

4.2)、文本表示生成

4.2.1)、文本语气特征融合

将第i条文本的语气向量与特征表示进行融合；即将语气词向量放在中间特征之后，得到融合文本语气的文本新的特征;

4.2.2)、文本表示强化

这一步池化操作的目的是用语气向量强化文本语义特征；将第i条文本的特征进行1维最大池化操作；在文本的时间步长维度（词的维度）上进行最大池化操作，得到定长维度的文本特征表示；即选取第i条文本的词的维度上的最大特征值，最终提取到第i条文本的融合文本语气的文本特征表示。

Claims

1.一种融合文本语气的中文文本特征提取方法，其特征在于，包括以下步骤：

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

对文本集中的每条文本进行分词，将每条文本的词添加到集合V ₁中，最后得到文本词集，表示文本集的词数目；

1.2)、文本语气词集生成

提取每条文本中的语气词，将语气词添加到集合中，最后得到文本语气词集，表示文本集合语气词的数目；其中是可能的语气词集E的子集，E={唉，了，哪，呢，呐，否，呵，哈，不，呸，吧，罢，呗，啦，唻，嘞，哩，咧，咯，啰，喽，吗，嘛，么，阿，啊，呃，哇，呀，也，耶，哟，欤，呕，噢，呦，一定，必定，难道，何尝，大概，也许，果然，果真，难怪，原来，不中，罢了，不成，得了，而已，了得，也罢，而已，也好，就是，一般，再说，不过，怪不得，就是了，不得了}；

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

2.2)、文本语气向量模型构建

(3)、文本词表示模型构建

3.1)、文本初始向量生成

3.2)、文本词的上下文语义向量生成

3.3)、文本词模型构建

文本中的第j个词的词向量、和向量进行运算，得到文本中第个位置的词的特征表示；那么文本的特征表示为二维向量,,表示文本的词数目；

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

文本词嵌入表示有时间步长维度和特征向量维度，将文本向量传入2维卷积层，也就是在文本表示的时间步长维度和特征向量维度进行卷积运算；2维卷积器为，表示卷积器在时间步长维度上对个词，特征向量维度上对个特征进行卷积运算，卷积操作在两个维度方向移动的步长都为1；得到第i条文本的中间表示，那么L条文本表示为；

4.1.2)、文本特征向量维度1维池化

将卷积层得到的中间表达传入1维最大池化层，仅在文本特征的时间步长维度上进行最大池操作；即在文本表示的词的维度上获取最大特征值；

4.1.3)、文本特征的2维卷积

重复一次步骤4.1.1) 2维卷积得到文本新的特征表示，那么L条文本新的表示为；

4.1.4)、文本语气特征生成

从语气词向量空间模型T中获取第i条文本的语气词向量组成r个语气词的二维向量，向量集表示；其中0<i<L，为文本数目,为第个词的特征表示；

4.2)、文本表示生成

4.2.1)、文本语气特征融合

4.2.2)、文本表示强化

将第i条文本的特征再次进行1维最大池化操作，即在文本表示的时间步长维度上进行最大池化操作，得到定长维度的文本特征表示；即选取第i条文本的词的维度上的最大特征值；提取到第i条文本的融合文本语气的文本特征表示。

2.根据权利要求1中的特征提取方法，其特征在于；

(1)、神经网络权重、偏差的初始化采用小随机数权重初始化；

(2)、在2维卷积、1维池化操作中都采用策略损失避免过度拟合文本特征；采用模型训练过程中以交叉熵损失最小化为目标，反向传播更新每层的权重与偏差。