CN107729311B

CN107729311B - 一种融合文本语气的中文文本特征提取方法

Info

Publication number: CN107729311B
Application number: CN201710752000.0A
Authority: CN
Inventors: 郭延哺; 金宸; 姬晨; 邓春云; 李维华; 王顺芳
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2020-10-16
Anticipated expiration: 2037-08-28
Also published as: CN107729311A

Abstract

本发明公开了一种融合文本语气的中文文本特征提取方法，实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集，将文本词集和语气词集转换成词嵌入形式，得到对应的向量模型；其次，依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征，并将语气特征融入到选取的文本特征的时间步长维度上，获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献，将语气特征、句法特征和语义特征融合到文本特征表示之中，且该文本特征表示具有低维和连续的特点，不仅可以更好地表示文本语义，也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。

Description

一种融合文本语气的中文文本特征提取方法

技术领域

本发明属于自然语言处理领域，涉及一种融合文本语气的中文文本特征提取方法；基于海量的中文文本，把中文语气特征融入文本特征，更好地表示中文文本语义。

背景技术

每天来自互联网、电子商务等领域的文本数量急剧增加，单靠人工处理和理解这些海量的文本数据，将会耗费大量的成本而得不偿失。为快速并高效地挖掘出海量文本中有用的知识模式，基于人工智能相关技术处理和理解文本成为一个更好的选择；智能分析海量文本的关键是对文本语义特征进行有效地表示，最常用的文本表示方法是词袋模型（Bag of Words，BOW），词袋模型虽然简单实用但是文本表示往往纬度高并且稀疏。TF-IDF(词频-逆文档频率)、概率主题模型(Latent Dirichlet Allocation，LDA)等方法被提出改进文本特征表示方法；然而，这些方法往往假设词对文本的语义贡献和词出现的频率有关。但事实上，在中文文本中，有些词虽然出现的频率不是高，但对文本的语义贡献却是不能忽略的，语气词就是其中之一。词嵌入技术Skip-gram、CBOW（Continuous Bag Of WordsModel）等分布式词表示成为文本分析的一种重要手段，并取得一些很好的成果。随着深度学习研究的开展，卷积神经神经网络（Convolutional Neural Network，CNN）和长短期记忆（Long Short Term Memory，LSTM）神经网络凭借可以智能识别文本中重要信息和获取文本的广泛的语义信息等优势被应用到自然语言处理领域中，并取得了很好的效果。本发明基于中文文本的语气词，首先利用神经网络提取文本中的语义特征；其次智能判别最重要的句法知识和语义特征，提出一种充分利用语气词对语义的贡献的中文文本特征提取方法。

发明内容

本发明的目的在于在现有技术的基础上，公开了一种融合文本语气的中文文本特征提取方法，进一步提高文本分析、语言翻译、关系抽取等自然语言处理任务的准确性。

为实现上述目的，本发明提出一种融合文本语气的中文文本特征提取方法，其特征在于，包括以下步骤：

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

对文本集中的每个文本进行分词，将文本集中的每条文本的词依次添加到集合

中，最后得到文本词集

，p表示文本集的词数目；

1.2)、文本语气词集生成

提取每条文本含有的语气词，将语气词添加到集合

中，最后得到文本数据中的语气词集

，q表示文本集合语气词的数目；其中

是可能的语气词集E的子集，E={唉，了，哪，呢，呐，否，呵，哈，不，呸，吧，罢，呗，啦，唻，嘞，哩，咧，咯，啰，喽，吗，嘛，么，阿，啊，呃，哇，呀，也，耶，哟，欤，呕，噢，呦，一定，必定，难道，何尝，大概，也许，果然，果真，难怪，原来，不中，罢了，不成，得了，而已，了得，也罢，已而，也好，就是，一般，再说，不过，怪不得，就是了，不得了}；

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

用Skip-gram模型训练文本词集

得到每个词的k维词向量，p个词向量组成p行k列的文本词向量矩阵M，

；

2.2)、文本语气向量模型构建

用CBOW模型训练语气词集

得到每个语气词的k维词向量，q个语气词向量组成q行k列的文本语气词向量矩阵T，

；

(3)、文本词表示模型构建

3.1)、文本初始向量生成

从文本词向量矩阵M获取一条文本的向量表示

；其中0<i<n，n表示文本的词数目，

表示文本的第i个词的向量表示，

向量属于k维向量空间；

3.2)、文本词的上下文语义向量生成

将文本S输入双向长短期记忆网络层也叫Bi-LSTM层逐字处理；输出文本S中的i个词的正向语义

和逆向语义

；

3.3)、文本词模型构建

文本S中的第i个词的词向量

正向语义

和逆向语义

，首先根据

运算求得关键的正向和逆向语义；其次进行运算

，得到文本S中第i个位置的词的特征表示

；那么该条文本S的特征表示为

，n表示文本的词数目；

Bi-LSTM局部语义合成运算为：

其中

表示向量逐元素相加然后求均值，‘-’表示向量逐元素相减。

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

文本词嵌入表示有时间步长维度和特征向量维度，将文本向量H传入2维卷积层；即在文本特征的时间步长维度和特征向量维度进行卷积运算；2维卷积器为

，表示卷积器m在时间步长维度上对a个词，特征向量维度上对b个特征进行卷积运算，卷积运算在两个维度方向移动的步长都为1；得到第j条文本的中间表示

，那么L条文本表示为

；

4.1.2)、文本特征向量维度1维池化

将卷积层得到的第j条文本的中间表达

传入1维最大池化层，仅在文本特征的时间维度上进行最大池化运算；获取第j条文本在词的维度上的最大特征值, 得到该条文本表示

；

操作如下：

4.1.3)、文本特征的2维卷积

将经过1维池化得到的表示

输入4.1.1) 文本特征的2维卷积，即重复步骤4.1.1) 文本特征的2维卷积得到第j条文本新的中间特征表示

，那么L条文本表示为

，第j条文本的表示

；

4.1.4)、文本语气特征生成

从文本语气词向量矩阵T中获取文本S的语气词向量

，组成r个语气词的向量集

；

4.2)、文本表示生成

4.2.1)、文本语气特征融合

将第j条文本的语气向量

与其特征表示

进行融合；即将语气词向量放在文本特征

之后，获得融合语气的第j条文本特征表示

;

4.2.2)、文本表示强化

将文本特征

再次进行1维最大池化运算，即在文本表示的时间步长维度（词维度）上进行最大池化运算，得到定长维度的文本特征表示；即选取第j条文本的词的维度上的最大特征值；最终得到第j条文本的融合文本语气的文本特征表示

；

附图说明

图1：一种融合文本语气的中文文本特征提取方法过程图；

图2：文本词表示模型；

图3：文本表示模型；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。

图1：一种融合文本语气的中文文本特征提取方法包括：步骤(1)、海量文本词集和语气词集生成，通过文本集、文本语气词集生成每条文本的词、语气词集；(2)、词嵌入模型构建，通过训练Skip-gram、CBOW模型获得文本特征向量、语气词特征向量；(3)、文本词表示模型构建，通过Bi-LSTM层生成每条文本的词的上下文语义特征，然后结合初始化的词向量生成文本局部特征向量，再经过2维卷积1维池化得到文本中间全局特征；(4)、文本表示模型构建

下面对四个步骤进行详细说明。

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

中，最后得到文本词集

，p表示文本集的词数目；

1.2)、文本语气词集生成

提取每条文本含有的语气词，将语气词添加到集合

中，最后得到文本数据中语气词集

，q表示文本集合语气词的数目；其中

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

用Skip-gram模型训练文本词集

；

2.2)、文本语气向量模型构建

用CBOW模型训练语气词集

；

在图2：文本词表示模型；图3：文本表示模型，具体过程具体如下：

(3)、文本词表示模型构建

3.1)、文本初始向量生成

从文本词向量矩阵M获取一条文本的向量表示

；其中0<i<n，n表示文本的词数目，

表示文本的第i个词的向量表示，

向量属于k维向量空间；

3.2)、文本词的上下文语义向量生成

和逆向语义

；

3.3)、文本词模型构建

文本S中的第i个词的词向量

正向语义

和逆向语义

，首先根据

运算求得关键的正向和逆向语义；其次根据运算

，得到文本S中第i个位置的词的特征表示

；那么该条文本S的特征表示为

，n表示文本的词个数；

Bi-LSTM层局部语义合成运算

为：

其中

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

，那么L条文本表示为

；

例如：假设有N个卷积器；其中一个卷积器的映射特征

由一个范围的向量

通过卷积运算产生；

2维卷积运算为：

其中I从1到(n-a+1)，J从1到(k-b+1)，

表示向量点积，

是偏差项，

是非线性函数；

另外，第1个卷积器在一条文本表示为H的每个窗口范围中进行卷积运算生成的特征

, 其中

那么，第j条文本在N个卷积器生成的中间特征为：

，则L条文本生成的中间特征为

；

4.1.2)、文本特征向量维度1维池化

将卷积层得到的第j条文本的中间表达

；

操作如下：

4.1.3)、文本特征的2维卷积

将经过1维池化得到的表示

，那么L条文本表示为

, 第j条文本的表示

；

4.1.4)、文本语气特征生成

从文本语气词向量矩阵T中获取文本S的语气词向量

，组成r个语气词的向量集

；

4.2)、文本表示生成

4.2.1)、文本语气特征融合

将第j条文本的语气向量

与其特征表示

进行融合；即将语气词向量放在文本特征

之后，获得融合语气的新的文本特征表示

;

4.2.2)、文本表示强化

这一步最大池化操作的目的是用语气向量强化文本语义特征；将第j条文本的特征

再次进行1维最大池化，即在文本表示的时间步长维度（词维度）上进行最大池化运算，得到定长维度的文本特征表示；即选取第j条文本的词的维度上的最大特征值；最终得到第j条文本的融合文本语气的文本特征表示

。

Claims

1.一种融合文本语气的中文文本特征提取方法，其特征在于，包括以下步骤：

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

对文本集中的每条文本进行分词，将每条文本的词添加到集合

中，最后得到文本词集

，p表示文本集的词数目；

1.2)、文本语气词集生成

提取每条文本中的语气词，将语气词添加到集合

中，最后得到文本数据中的语气词集

，q表示文本集合语气词的数目；其中

是语气词集E的子集，E={唉，了，哪，呢，呐，否，呵，哈，不，呸，吧，罢，呗，啦，唻，嘞，哩，咧，咯，啰，喽，吗，嘛，么，阿，啊，呃，哇，呀，也，耶，哟，欤，呕，噢，呦，一定，必定，难道，何尝，大概，也许，果然，果真，难怪，原来，不中，罢了，不成，得了，而已，了得，也罢，而已，也好，就是，一般，再说，不过，怪不得，就是了，不得了}；

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

用