CN110263174B

CN110263174B - —基于焦点关注的主题类别分析方法

Info

Publication number: CN110263174B
Application number: CN201910567508.2A
Authority: CN
Inventors: 顾凌云; 王洪阳; 严涵
Original assignee: Chengdu Bingjian Information Technology Co ltd
Current assignee: Chengdu Bingjian Information Technology Co ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2020-10-23
Anticipated expiration: 2039-06-27
Also published as: CN110263174A

Abstract

本发明公开了—基于焦点关注的主题类别分析方法，属于大数据技术领域，包括建立客户端服务器和中心服务器，客户端服务器用于获取原始文本，客户端服务器通过互联网与中心服务器通信；在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块；解决对主题特征差异不明显的情况下进行二次主题划分的技术问题，本发明提出的局部循环卷积网络既可以学习文本序列之间的字词关系，还可以提取文本中的关键字词和相应的位置信息，本发明采用基于焦点关注的主题类别分析方法，当主题特征差异不明显的时候依然能得到良好的分类效果。

Description

—基于焦点关注的主题类别分析方法

技术领域

本发明属于大数据技术领域，尤其涉及—基于焦点关注的主题类别分析方法。

背景技术

随着互联网上的新闻数据不断增加，如何将新闻数据按照其主题进行正确地归类以方便人们浏览和查找显的尤为重要。目前，主题分类技术广泛应用在商业领域中，人们在浏览新闻时，首先按照类别筛选后，再进行相关阅读，常见的新闻分类类别有：体育、军事、科技、娱乐、教育、国际、财经等。互联网上关于各公司的新闻同样在日益增长，而与企业相关的新闻类别有：公司信息、公告报告、产品信息、成果奖项、投资融资等。为了分析公司的相关类别信息，通过新闻数据判别该公司的发展情况，对关于公司的新闻数据进行主题分类十分重要。

主题分类是自然语言处理领域中一个非常经典的问题，传统的方法通过利用知识工程监理专家系统，然后通过专家规则进行分类，该方法不仅耗费精力，其覆盖的范围和准确率都十分有限，后来，普遍使用机器学习方法解决主题分类问题，通过人工特征工程和一个浅层分类器完成该任务，该方法的缺点和前期的知识工程一样，耗费人工精力。接着，目广泛使用深度学习进行文本的主题分类，该方法最大的优点是省去了大量的人工特征提取步骤，通过神经网络自动提取主题特征，其准确率要高于机器学习方法。通过观察发现，在主题的特征差异比较大的情况下，现有的主题分类技术能表现不错的效果，但是在主题特征之间差异不大的情况下，如对科技这一主题进一步划分为：数码、手机、平板、电脑等类别时，现有模型在其数据上表现效果往往不是很好，误分类的情况很多。

目前在主题分类的问题中，现阶段所使用的方法主要是根据提取的上下文特征外接一个分类器进行主题的分类，这样做的主要缺点是针对某一主题类别进行二次划分的时候，分类的效果不是很好，尤其是当主题特征差异不明显的时候。

发明内容

本发明的目的是提供—基于焦点关注的主题类别分析方法，解决对主题特征差异不明显的情况下进行二次主题划分的技术问题。

为实现上述目的，本发明采用如下技术方案：

—基于焦点关注的主题类别分析方法，包括如下步骤：

步骤1：建立客户端服务器和中心服务器，客户端服务器用于获取原始文本，客户端服务器通过互联网与中心服务器通信；

在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块、池化模块、

步骤2：中心服务器获取客户端服务器中的原始文本，并通过数据预处理模块进行清洗和筛选，生成预处理文本，其具体步骤如下：

步骤A1：获取原始文本的文本主题数据作为原始数据，对原始数据进行ETL处理，即抽取、转换和加载操作；

步骤A2：对原始数据进行文本数据和主题类别的提取；将文本数据和主题类别分别转换为文本列表和标签列表，每一条主题类别在标签列表中分别对应一条主题标签，文本列表中的每一条文本数据分别对应标签列表中的一条主题标签，对所有的文本数据进行分词操作，统计文本数据中所有的字词，形成字典表，将文本数据中的字词转化为字典表中的索引号，完成对文本数据的序列化操作，将序列化后的文本数据和对应的主体标签作为预处理文本；

步骤A3：创建一个数据生成器，每批次产生指定数量的预处理文本；

步骤3：向量学习模块对预处理文本进行向量学习，用向量表示预处理文本，具体步骤包括：使用CBOW训练预处理文本中的字词，得到关于预处理文本中所有字词的向量表示，即字向量，字向量代表每个字词的特征；加载训练得到的所有字向量，通过查找得到预处理文本中的每个字向量特征表示，完成对预处理文本的字向量表示；

步骤4：特征提取模块使用卷积神经网络对预处理文本进行特征提取，对预处理文本的字向量进行类卷积操作，指定卷积核的大小，规定在每个卷积窗口内执行相应的操作，通过局部循环神经网络学习预处理文本的字词含义，同时捕捉上下文之间的重要信息；

类卷积操作为局部循环神经网络GRU，通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示，包括如下步骤：

步骤S1：设置一个局部循环卷积的内核大小为kernel_size，指定循环网络只在kernel_size区域内进行执行运算；

步骤S2：对预处理文本进行补全操作，在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引，设置起始位置为0，终止位置为kernel_size-1；

步骤S3：使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码，学习字词向量的表示方法，取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果；

步骤S4：对每次局部循环卷积的结果进行拼接，逐步得到上下文特征向量；

步骤S5：起始位置和终止位置均向预处理文本方向移动一个位置，判断终止位置是否小于预处理文本的序列长度，若满足条件，则跳转至步骤S3继续进行计算，否则退出循环，结束计算；

步骤5：特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络，进一步提取高度抽象的上下文的文本特征，得到的上下文信息的高层次特征；

步骤6：注意力计算模块对高层次特征进行一次注意力计算，将焦点聚集在能体现文本主题类别的关键字词上，其具体步骤如下：

步骤C1：对上下文字词特征向量进行线性变换，将其特征降低到一维，得到一个长度为文本序列大小的向量；

步骤C2：对步骤C1得到的向量进行归一化操作，得到上下文中每个字词的权重向量；

步骤C3：将权重向量与高层次特征相结合，得到新的上下文特征向量，该特征向量将焦点关注在对主题类别有贡献的关键字词上，设定该特征向量为主题特征向量；

步骤:7：池化模块对主题特征向量进行最大池化操作，形成最终的文本特征向量表示，具体步骤如下：

步骤D1：对主题特征向量执行卷积中的最大池化操作；

步骤D2：将二维的上下文特征压缩成一维，进一步提取关字词以及其位置信息，得到最终的文本特征表示；

步骤8：在中心服务器中建立Softmax分类器，使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算，该层神经元个数为标签字典中主题的数量，得到文本数据属于各主题类别的得分，通过Softmax归一化计算得到文本数据属于各主题的概率，取概率最大的主题作为文本数据最终的主题类别，得到文本数据属于各主题类别的概率。

优选的，在执行步骤3时，CBOW即为Continuous Bag of Words，是一个使用上下文与层当面字词的语言模型，在此，加载预训练好的CBOW模型，将每个字词转换为字向量，因此经过转换后的一文本表示为

其中，n为一文本的长度，d_e为字向量的维度。

优选的，在执行步骤S2时，补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量，即，设定两个变量p_start,p_end分别表示初始位置和终止位置，其中，设定p_start＝0，那么p_end＝p_start+kernel_size-1。

优选的，在执行步骤6时，使用一层注意力计算权重向量，得到文本中各字词的权重，具体的计算过程如下：

其中，s为权重向量，

进行归一化操作，得到每个字词相应的权重，表示为att_i，其具体公式如下：

设定所述新的上下文特征向量为H′，根据以下公式计算H′的值：

H′_i＝H′_i*att_i。

优选的，在执行步骤D1时，所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作，再次保留关键字词及其位置信息。

本发明所述的—基于焦点关注的主题类别分析方法，解决对主题特征差异不明显的情况下进行二次主题划分的技术问题，本发明提出的局部循环卷积网络既可以学习文本序列之间的字词关系，还可以提取文本中的关键字词和相应的位置信息，本发明采用基于焦点关注的主题类别分析方法，当主题特征差异不明显的时候依然能得到良好的分类效果。

附图说明

图1是本发明的流程图；

图2是本发明的局部循环卷积神经网络的算法流程图。

具体实施方式

通过观察发现当主题边界模糊的时候，文本中的关键词对主题类别的判断起到了决定作用，因此，本发明提出了一种基于焦点关注的主题类别分析方法。

如图1-图2所示的一基于焦点关注的主题类别分析方法，包括如下步骤：

本实施例先对原始文本进行筛选，删除带有缺失值的文本数据，并将其分为两部分：文本数据对应的文本列表列表Documents和主题类别对应的标签列表Labels，对Documents进行分词操作，按照字进行切分，统计文本中所有的字词，同时建立一个字典，里面存储所有每个字词及其对应的索引号，方便查找，将中文字典表示为Dict_word，在Dict_word中额外加入两个字符：＜PAD＞和＜UNK＞，其索引号分别对应为0和1；对Labels里面的所有主题标签进行统计，同时建立一个标签字典，里面存储每个标签及其对应的索引号，表示为Dict_label。接下来对文本列表Documents进行分词操作，并将各字词替换为其在Dict_word中对应的索引号，完成文本的序列化操作。

同理，将标签列表Labels中的各标签替换为其在Dict_label中对应的索引号，完成标签的序列化操作。接着，进行文本的补全操作，计算序列化后的Documents中最大的文本长度，将所有文本长度与其进行比较，若长度不足，则以0进行补充，直到所有的文本长度均相同。最后，使用生成器完成数据的加载，每次生成指定大小的序列化文本及其对应的序列化主题标签。

补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量，即，设定两个变量p_start,p_end分别表示初始位置和终止位置，其中，设定p_start＝0，那么p_end＝p_start+kernel_size-1，在区域[p_start,p_end]之间使用循环神经网络学习字词间的序列关系。

使用GRU循环神经网络对区间[p_start,p_end]内的字词进行编码，GRU(GatedRecurrent Unit)是循环神经网络RNN的一种变体，它可以通过内置的门单元学习序列之间的长依赖，门单元可以控制信息的流动并且减轻反向传播中梯度消失的现象，GRU有两种门单元：重置门r_t和更新门z_t，其中间的隐藏状态h_t计算过程如下所示：

其中，h_t-1是上一个序列的状态，

是候选状态，由当前的输入信息序列计算得到，

是元素对应相乘操作，更新门z_t计算过程如下：

z_t＝σ(W_tx_t+U_th_t-1)；

其中，x_t是输入的第t个字符序列，W_t和U_t是线性变换中需要学习的参数。候选状态

的计算过程如下：

其中，W和U是线性变换中需要学习的参数，tanh是双曲正切函数，具体公式如下：

其中，r_t是重置门，它决定前一个状态流入到当前状态的信息，和更新门很相似，重置门的计算过程如下：

r_t＝σ(W_rx_t+U_rh_t-1)；

在此，本实施例使用卷积中的窗口来控制着GRU当前的状态只能由指定的前kernel_size-1个隐藏状态决定，可以表示为：

h_t＝GRU(x_t,x_t-1...,x_{t-kernel_size+1})；

其中，x_t经过COW处理后的t时刻的字符向量。

将初始位置和终止位置均沿着文本的方向移动过一个字符位置，进行下一次局部循环卷积计算，直到文本中所有的字符序列均计算过为止。

步骤4得到的结果表示为

其中，h代表步骤S3中得到的隐藏层状态结果，H则是整个集合，公式本身已表明该含义，R是实数集合，上标表示维度，是通用数学符号，d_h是隐藏层的神经元个数，接下来，使用一层全连接神经网络对其进一步进行特征提取，抽取高度抽象的文本字词特征，过程如下：

H′＝σ(W_lH+b_l)；

其中，W_l和b_l是需要训练的网络参数,

d_l是多层感知机隐藏层的神经元数量，得到的H′表示高度抽象的上下文字词特征表示。

使用一层注意力计算权重向量，得到文本中各字词的权重，具体的计算过程如下：

其中，s为权重向量，W^T表示W的转置，

其中，n表示文本字符的数量，k是一个求和变量，其取值为从1到n；

H′_i＝H′_i*att_i。

步骤D1：对主题特征向量执行卷积中的最大池化操作；

所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作，再次保留关键字词及其位置信息，进行该操作后，得到最终的文本特征向量，表示为H_context。

使用一层全连接神经网络将文本特征向量转换为该文本属于各主题类别的得分，过程如下所示：

其中，s^logits表示文本属于各主题类别的分数，接着需要对其进行归一化操作：

其中，|Dict_label|是主题类别的数量。cats_i表示文本属于主题标签i的概率，k是一个求和变量。

其中，x_i表示第i个字符的字向量表示，n为一文本的长度，d_e为字向量的维度。

Claims

1.—基于焦点关注的主题类别分析方法，其特征在于：包括如下步骤：

在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块；

步骤D1：对主题特征向量执行卷积中的最大池化操作；

2.如权利要求1所述的—基于焦点关注的主题类别分析方法，其特征在于：在执行步骤3时，CBOW即为Continuous Bag of Words，是一个使用上下文与层当面字词的语言模型，在此，加载预训练好的CBOW模型，将每个字词转换为字向量，因此经过转换后的一文本表示为X＝{x₁,x₂...,x_n},

其中，n为一文本的长度，d_e为字向量的维度。

3.如权利要求1所述的—基于焦点关注的主题类别分析方法，其特征在于：在执行步骤S2时，补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量，即，设定两个变量p_start,p_end分别表示初始位置和终止位置，其中，设定p_start＝0，那么p_end＝p_start+kernel_size-1。

4.如权利要求1所述的—基于焦点关注的主题类别分析方法，其特征在于：在执行步骤6时，使用一层注意力计算权重向量，得到文本中各字词的权重，具体的计算过程如下：

s＝σ(W_s ^TH′),

其中，s为权重向量， d_l是多层感知机隐藏层的神经元数量；W^T表示W的转置；

H′_i＝H′_i*att_i。

5.如权利要求1所述的—基于焦点关注的主题类别分析方法，其特征在于：在执行步骤D1时，所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作，再次保留关键字词及其位置信息。