CN114443809B

CN114443809B - 基于lstm和社交网络的层次化文本分类方法

Info

Publication number: CN114443809B
Application number: CN202111565473.2A
Authority: CN
Inventors: 魏嵬; 李晓婉; 张贝贝
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2024-04-09
Anticipated expiration: 2041-12-20
Also published as: CN114443809A

Abstract

本发明公开一种基于LSTM和社交网络的层次化文本分类方法，步骤包括：步骤1，从社交网站上采集文本数据，对原数据集中质量较低且无意义的文本进行检测和过滤后对数据进行人工标记；步骤2，对步骤1得到的带标签的数据集进行平衡化处理；步骤3，对步骤2平衡化后的数据集进行分词及产生词向量；步骤4，将步骤3得到的词向量集进行投入LSTM网络中进行监督学习，得到初步分类结果；步骤5，将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类，得到的分类结果与初步分类结果相结合即为最终分类结果。本发明针对不常见的极度不平衡，耦合，丰富暗语，社交性质的数据有较好的分类效果。

Description

基于LSTM和社交网络的层次化文本分类方法

技术领域

本发明属于自然语言处理中文本分类技术领域，涉及一种基于LSTM和社交网络的层次化文本分类方法。

背景技术

文本分类是根据数据内部相似性与关联性进行分组的过程，各小组内部是有组织的小簇集。簇集之间又表现出明显的区别。文本分类作为自然语言处理的重要分支，一直占据着重要的地位，而文本分类的方法也是越来越多，大致可以分为基于规则统计的方法和基于深度学习和机器学习的数据驱动型方法。基于规则的方法主要依赖于前期制定好的规则或者专家库，规则和专家库的形成需要深入的领域知识作为铺垫，在形成规则之后，模型按照指定的规则进行分类，分类过程比较固化，不同的分类任务很大程度上都具有不同的规则，所以规则之间的共享率很低，从而导致模型的普适性会较低。另一种基于机器学习的数据驱动型方法，因其分类算法的选择性呈现出多样化的趋势并且其不需要深入的领域和专家知识，所以近年来受到了广泛的关注。基于机器学习的方法通常使用预先标记的示例作为训练样本集，机器学习算法学习文本及其标签之间存在的内在联系，从而完成文本分类任务。

发明内容

本发明的目的是提供一种基于LSTM和社交网络的层次化文本分类方法，针对不常见的极度不平衡，耦合，丰富暗语，社交性质的数据有较好的分类效果。

本发明所采用的技术方案是：

基于LSTM和社交网络的层次化文本分类方法，步骤包括：

步骤1，从社交网站上采集文本数据，对原数据集中质量较低且无意义的文本进行检测和过滤，然后对干净数据进行人工标记；

步骤2，对步骤1得到的带标签的数据进行平衡化处理；

步骤3，对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的向量表示，即embedding；

步骤4，将步骤3产生的embedding投入LSTM网络中进行监督学习，得到初步分类结果；

步骤5，将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类，得到的分类结果与初步分类结果相结合即为最终分类结果。

步骤1具体包括：

步骤1.1将从社交网站上获取到的文本数据中无实际意义的内容过滤和删除；

步骤1.2，对较长的句子进行精简和压缩，剔除修饰，无意义的表述，即保留较清晰且具有强特征的部分；

步骤1.3，经过步骤1.2操作后，对数据进行人工标记。

步骤2包括：

步骤2.1：使用数据增强方法，按照原样本的50％采用随机采样技术采集标准样本，然后增强两次；

步骤2.2，将经过数据清洗后的数据生成多个特征词袋，这个特征词袋中包含数据倾斜类别的种元词汇，依词性分为动词，名词，形容词，副词，按照不同词性形成多个子袋，将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本。

所述步骤3包括：使用jieba分词技术将步骤2得到的句子分词，然后使用word2Vec技术产生词向量，word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近，并且其解决了one-hot存在的稀疏问题，训练的词向量是高效的，所以在此采用word2Vec技术来产生词向量。

步骤4具体方法为：将训练好的embedding依次进入LSTM层，Dropout层，全连接层最后使用sigmoid激活函数来得到最后的分类结果。

本发明的有益效果是：

本发明的方法,能够有效处理语义结构松散，指代丰富，同义不同形的不平衡的社交帖子数据。能够捕获具有社交属性的数据显著特征，结合数据本身的特性，具有针对性地采用更加契合的模型，我们使用LSTM模型进行预分类，然后再使用社交网络进行二次分类或者称之为二次回收。这样做能够更加有效地完成分类任务，提升分类任务的准确率。

附图说明

图1是本发明方法的流程框图；

图2是本发明中数据清洗图；

图3是本发明中数据生成图；

图4是本发明中LSTM网络和社交网络文本分类模型的框架图；

图5是本发明中社交网络图。

图中，1.子网络，2.邻居网络

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1，本发明基于LSTM和社交网络的层次化文本分类方法，其步骤包括：

步骤1，从社交网站上采集文本数据，对原数据集中质量较低且无意义的文本进行检测和过滤，然后进行人工标记；

步骤2，对步骤1得到的带标签的数据进行平衡化处理；

步骤3，对步骤2平衡化后的数据集进行分词及产生词向量即转化为数值空间中的词向量；

步骤4，将步骤3得到的词向量投入LSTM网络中进行监督学习，得到初步分类结果；

其中步骤1具体包括：

步骤1.1：过滤无意义“流水账式”的帖子，具体而言就是，针对帖子中，无意义内容，类似“。。。。”，“Ha ha ha ha”，“Support the original poster”等无实际意义数据进行过滤。因为类似的句子经过分词后转化为词向量输入到我们的模型当中，不但不会增强各个类别的特征，反而会稀释特征，影响模型的分类结果，从而影响最终的准确率。所以在数据预处理阶段，将此类数据剔除。如下图2所示，我们将在第一阶段过滤这些无意义帖子保留“优质”帖子，例如图中的句子2，3都会被过滤删除，故该阶段又称为过滤。这样对于模型后期的训练都会有较好的影响。

步骤1.2：压缩和精简句子，我们没有设定size直接截断的方法。这种方法虽然容易实现，节省人力和时间，但是该方法并未捕获词在当前句子的重要权重，也就是注意力机制，这种将每个单词同等看待的做法，会损失重要特征，进而影响后期的分类效果。所以，在此我们的处理方法是，针对较长帖子，我们会分析当前句子中的重要部分，保留较清晰且具有强特征的部分句子，剔除修饰，无意义的表述。简而言之，就是保留带有特征的表述，删除无意义的表述。如下图1的compress部分，在句子1中“This cat with big eyes is verycute”主要说猫很可爱，所以我们直接简化为“cat cute”。这样是为了保留重要句子，减少噪声数据对于分类结果的影响，从而能够为后期分类做好准备。

步骤1.3人工标记，这一步的工作需要基于上一步的数据清洗任务之后的，首先确保当前数据都是干净数据，在此基础上，再进行标记，这样可以节省时间和人力成本。在标记之初我们制定了严格的标记规则，最大限度地减少主观差异性，从而能够最大限度地保证数据标签的正确性与一致性。

步骤2，具体为：

步骤2.2：数据生成，数据生成的过程如下图3所示，首先由挑选过的帖子生成一个特征词袋，这个特征词袋中包含数据倾斜类别(需要数据生成的类别)的尽可能完整的种元词汇。词性包括动词，名词，形容词，副词等，不同词汇可以充当不同的角色。抽取完毕以后，我们将会按照不同词性来形成多个子袋，如下图2中有三个子袋。根据当前原始样本中的句子的语法结构来形成新的句子，其深层原理是使用数据增强方法里面的同义词及同类同型词替换技术。当前句子中，在同一个词袋中的词汇可以放在同一个地方修饰同一个成分，但是生成以后的句子是一个全新的句子，可以作为新的样本出现。例如“I don’t like thisugly cat even though it’s clean”，我们查询与ugly cat相同的子袋发现该词与rubbish同义，所以我们将其同位替换，也就是“I don’t like this rubbish even thoughit’s clean”它们表达的都是消极，厌恶的情感，其原理是使用相同的模式及不同的子袋产生不同的样本。所以其中心思想是产生具有相同主题或者语义的句子来充当样本解决数据不平衡的问题，从而能够更好地训练分类器。

步骤3包括：使用jieba分词技术将将步骤2得到的句子分词以后，使用word2Vec技术产生词向量，word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近，并且其解决了one-hot存在的稀疏问题，训练的词向量是高效的，所以在此采用word2Vec技术来产生词向量，得到向量集。

步骤4包括：如下图4中虚线右边的上半部分属于LSTM网络部分，我们将训练好的embedding依次进入LSTM层，Dropout层，全连接层最后使用sigmoid激活函数来得到初步分类结果。

步骤5具体为：

步骤4得到的初步分类结果，筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收。之所以选择LSTM是因为LSTM具有长时记忆的优点，能够选择性记忆重要信息，降低重要信息的损失，故本文模型的第一阶段选择LSTM进行分类。

图4虚线右边的下半部分为模型的第二部分--社交网络，社交网络是一种根据社交数据自带的社交关系建立结点间的关联网络，其本身不是一种分类方法，一般用于构建主体间关系，发现主体间的规律与共性的网络结构。在本发明中，我们将LSTM作为底层分类方法，社交网络也作为顶层分类的方法，之所以将社交网络称为顶层分类方法是因为它不直接参与前期LSTM分类过程，而是作为后期进阶型分类方法，是前期分类的进阶版。在该部分中，我们首先拿到LSTM阶段分类正确的结果数据，以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构。之所以叫它种元，是因为它作为一个起始点搜索或构建的角色，有萌生更多结点的作用。所以为了形象化表示，我们将其称之为种元。在构建网络的过程中我们会使用到原始比较庞大的数据集也就是虚线左侧预处理完毕后产生的All posts Base,这个库主要用来构建种元结点萌生的其他结点，可能是中心结点，也可能是很多以种元结点为中心的子结点。具体要看种元结点的类型是主贴还是评论。

在构建社交网络的过程中，社交网络并不是在分类之初就建立好所有的网络，这样网络结构就会很庞大，且在高层分类的时候需要搜索目标结点对应的网络，同样也会有搜索时间的损耗。基于此我们将采用动态实时构建网络的方法，建立起来的网络是局部网络而不是全局网络，而且还省去了搜索时间，所以不管在时间复杂度还是空间复杂度来考虑，实时社交网络的优点显而易见。

社交网络构建完毕以后，将会输出社交网络二次回收的数据，该结果与上一阶段LSTM正确或错误的分类结果均有重合，由于社交网络主要是对上一阶段误分数据的纠正，所以secondary recovery results中更多地会包含wrong result，它是对LSTM误分数据的二次回收，最后我们将LSTM分类结果与社交网络回收以后的分类结果融合，得到最后的分类结果Final result。

下图5为社交网络图，由少量样本绘制而成，其中共有十二个子网络，子网络之间存在很少的连接和通信，对于每个子网络内部，都有一个中心结点和许多围绕在中心结点周围的子结点，该中心结点就是主贴，围绕在其周围的子节点就是当前中心结点也即主帖所对应的评论。图中子网络1和与之紧挨的邻居网络2之间有连接，也即存在通信，由图所示，我们不难发现，子网络1中心结点是邻居网络2的子节点，这是符合客观现实的，因为每个人既可以成为发帖人(主贴)，也可以评论别人的帖子(评论)，这显示了角色的多样性和关系的动态演化，社交网络能够更加清晰地捕获以单个人为研究主体构建的社交网络和以所有人为研究主体构建多态社交网络，发现其演变和不同类别之间的内在关系。

Claims

1.基于LSTM和社交网络的层次化文本分类方法，其特征在于，步骤包括：

步骤2，对步骤1得到的带标签的数据集进行平衡化处理；

所述步骤2包括：

步骤2.2，将经过数据清洗后的数据生成多个特征词袋，这个特征词袋中包含数据倾斜类别的完整的种元词汇，词性包括动词，名词，形容词，副词，按照不同词性来形成多个子袋，将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本；

步骤3，对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的词向量；

步骤4，将步骤3得到的词向量集进行投入LSTM网络中进行监督学习，得到初步分类结果；

步骤5，将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类，得到的分类结果与初步分类结果相结合即为最终分类结果；

其中，步骤4得到的初步分类结果，筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收；首先拿到LSTM阶段分类正确的结果数据，以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构；社交网络构建完毕以后，将会输出社交网络二次回收的数据，该结果与上一阶段LSTM正确或错误的分类结果均有重合，由于社交网络主要是对上一阶段误分数据的纠正，所以secondary recovery results中更多地会包含wrong result，它是对LSTM误分数据的二次回收，最后我们将LSTM分类结果与社交网络回收以后的分类结果融合，得到最后的分类结果Final result。

2.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法，其特征在于，所述步骤1具体包括：

步骤1.1将采集的社交网络文本数据中无实际含义的内容过滤删除；

步骤1.2，对较长的句子进行精简和压缩，剔除修饰，无意义的表述，即保留较清晰且具有强特征的部分句子；

步骤1.3，经过步骤1.2操作后，对数据进行人工标记。

3.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法，其特征在于，所述步骤3包括：使用jieba分词技术将步骤2得到的句子分词以后，使用word2Vec技术产生词向量，word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近，并且其解决了one-hot存在的稀疏问题，训练的词向量是高效的，所以在此采用word2Vec技术来产生词向量，得到向量集。

4.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法，其特征在于，步骤4具体方法为：首先使用word2Vec训练词嵌入，将训练好的embedding依次放入LSTM层，Dropout层，全连接层最后使用sigmoid激活函数来得到预分类结果。