CN117332787A

CN117332787A - 一种基于文本聚类语义云的可视化文本数据分类方法

Info

Publication number: CN117332787A
Application number: CN202311269594.1A
Authority: CN
Inventors: 林晓; 沈锴成; 王正凯
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-02

Abstract

本发明涉及一种基于文本聚类语义云的可视化文本数据分类方法，包括以下步骤：获取无标注的文本数据集；将所述文本数据集输入至预先构建好的自然语言处理模型中，生成每条文本的句子嵌入，其中在构建所述自然语言处理模型过程中，利用对比学习的方式强化所述自然语言处理模型的预训练阶段；采用聚类算法对所述句子嵌入进行聚类，获得聚类结果；采用语义云方法对所述聚类结果进行可视化处理，获得语义云图。与现有技术相比，本发明具有全程无需标签和微调、语义分析准确率高等优点。

Description

一种基于文本聚类语义云的可视化文本数据分类方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于文本聚类语义云的可视化文本数据分类方法。

背景技术

在大数据环境下，容易产生出大量鱼龙混杂、良莠不齐的数据，这些数据很难依靠人工对其进行分析。因此，研究者们利用数据挖掘技术以及相应的可视化分析工具用以解决此类问题。在数据挖掘技术中，经常利用聚类方法对拥有多个维度特征的对象进行分析，按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。通过聚类，我们可以整体把握一个数据族群中不同部分的区别和联系，在数量庞大的数据中挖掘出有价值的信息。

然而，对于点击量、购买数量、价格等可量化的数据来说，数据特征的处理和提取是简便可计量的。对于商品评论、电影评论、问卷中不可量化的文本数据来说，数据特征通常是难以归纳的。因此，文本聚类技术应运而生。文本聚类(Text clustering)主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。在传统的无监督聚类模型和文本聚类方法中，对TF-IDF(词频-逆文档频率)以及Word2Vec词向量的运用较多。这些方法虽然能快速地从词频和词向量中提取有关文本的特征，但是这些特征无法全面的表示词与词之间的上下文联系，其语义表征较弱。

现有的文本数据研究中，对于问卷中文本数据的分析一般是采用词云作为工具。词云图是文本数据可视化的一种形式，视觉冲击力较强，迎合现在快节奏的生活，能够让人聚焦主旨，眼前一亮。其原理是对输入的文本数据进行词频统计，根据词汇出现频率的不同，按不同比例显示词汇，生成图片，频率高的词汇显示的字号大颜色深，频率低的词汇显示的字号小颜色浅。尽管词云图能够快速的帮助大数据研究者找到文本中的关键词，但它缺乏对于文本数据的语义挖掘，在一定程度上忽略了文本语义当中可能存在的潜在具备研究价值的信息。因此，人们急需一种可以更加清晰的展示文本数据的类别结构，对篇章级、句子级的信息进行处理而非仅仅呈现关键词的可视化文本分析工具。

发明内容

本发明的目的就是为了提供一种提高分析准确性的基于文本聚类语义云的可视化文本数据分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于文本聚类语义云的可视化文本数据分类方法，包括以下步骤：

获取无标注的文本数据集；

将所述文本数据集输入至预先构建好的自然语言处理模型中，生成每条文本的句子嵌入，其中在构建所述自然语言处理模型过程中，利用对比学习的方式强化所述自然语言处理模型的预训练阶段；

采用聚类算法对所述句子嵌入进行聚类，获得聚类结果；

采用语义云方法对所述聚类结果进行可视化处理，获得语义云图。

进一步地，所述文本数据集在输入至文本聚类模型前，进行数据清洗和预处理操作。

进一步地，所述预训练阶段的具体步骤包括：

获得句子集合，采用预训练模型对每个句子进行编码，得到每个句子的隐层表示；

对于每个句子，随机生成dropout掩码，并将句子连续输入编码器多次，获得句子以及用其本身作为正例的隐藏表示对；

将隐藏表示对输入至对比学习的损失函数，并进行优化，从而更新模型参数，以完成预训练阶段。

进一步地，所述对比学习的损失函数为：

式中，l_i为损失值；τ表示温度系数；N为一个小批次中句子对数；Sim(·)函数表示计算两个隐层向量的余弦相似度；和/>分别为一个小批次中每个句子的原句子向量的隐层表示，一个小批次中每个句子对应的正样本的隐层表示以及一个小批次中其余句子及其正样本的隐层表示。

进一步地，所述预训练阶段采用BERT语言模型作为编码器进行训练。

进一步地，所述句子嵌入在输出前采用池化策略进行处理，所述池化策略包括cls、cls_before_pooler、avg、avg_first_last和avg_top2。

进一步地，所述聚类算法为K-means聚类算法。

进一步地，所述获得语义云图的具体步骤包括：

将所述句子嵌入进行降维处理；

基于降维后的句子嵌入和聚类结果，计算每朵语义云的云半径；

计算每朵语义云的中心点，并基于所述云半径形成语义云图。

进一步地，采用t-SNE算法对所述句子嵌入进行降维处理。

进一步地，所述每朵语义云的云半径的计算公式为：

式中，R_i为每朵语义云i的云半径；N为语义云数量；n_i为每朵语义云最外层数据点的数据量；{Xⁿ _i,Yⁿ _i}为每朵语义云i中最外层数据点集合；{X_i,Y_i}每个簇i的中心点。

与现有技术相比，本发明具有以下有益效果：

(1)本发明在构建自然语言处理模型过程中，采用对比学习技术改善了在句向量特征空间的表征，因此较好的解决了无监督聚类模型在没有标签作为监督信号的情况下句向量特征空间稠密性难以改变的情况。其句向量空间特征提取相较传统的TF-IDF、Word2vec等有较大提升，再经过聚类方法将对特征进行聚类并通过语义云图进行可视化展示，显著提升了文本语义分析的准确度。

(2)本发明提出的方法无需提前对文本数据进行任何标注，大大节省了模型微调时昂贵的标注成本。在允许一定误差的情况下，语义云甚至还能够反过来帮助大数据研究者对大批量数据进行快速标注，用以对相关问题进行更精确的分析。

(3)本发明提出了自然语言处理模型和聚类算法的框架可以嵌入多种预训练模型和聚类算法，自动完成大量质性数据的文本聚类，大大提升了数据挖掘的效率。

(4)本发明的语义云可视化工具，全面定义了新的文本数据可视化分析方式，相比于传统的只突出关键词信息的词云，语义云可以从语义信息的层面更好的处理和呈现文本数据中有价值的信息。同时，研究者还可以利用这种语义信息，在语义云中利用“语义信标”的方式有目的性地深度挖掘文本大数据中潜在的信息价值。

附图说明

图1为本发明方法流程示意图；

图2为本发明文本聚类模型构建框架图；

图3为本发明实施例中文在线教育问卷文本分析效果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于文本聚类语义云的可视化文本数据分类方法，如图1所示，该方法包括以下步骤：

步骤1、获取无标注的文本数据集。

本实施例以中文在线教育问卷为应用对象，获取该问卷的数据集。

步骤2、将所述文本数据集输入至预先构建好的自然语言处理模型中，生成每条文本的句子嵌入，其中在构建所述自然语言处理模型过程中，利用无监督对比学习的方式强化所述自然语言处理模型的预训练阶段。

如图2所示，自然语言处理模型的训练和应用可以分为上游任务和下游任务(Downstream Tasks)两个部分。在上游任务中，使用预先准备好的语料数据对模型进行预训练，用以提升其在下游任务中的能力，这个模型可以将其称之为Encoder(编码器)。由于该模型的训练没有使用任何标签进行微调。因此，为了能够在无标签微调的情况下依然能够达到较好的聚类效果，预训练过程中的无监督对比学习(Unsup-CL-Task)强化训练必不可少。在这个过程中，本发明对预训练模型生成的句子嵌入(Sentence embedding)进行对比学习强化。借助增量预训练的思想，将模型从一个通用领域逐步迁移到大数据分析所需要的如医疗、教育领域上来。在下游任务中，我们对中文问卷数据集进行数据清洗和预处理之后，利用上游任务中预先训练好的模型对文本数据进行，生成每条文本的句子嵌入。对这些嵌入进行一定的池化后便可以提取到聚类需要的特征，应用不同的聚类算法对这些特征进行聚类，最终就能产生较好聚类的结果。该步骤中构建文本聚类模型的具体步骤为：

为预训练模型构建了一个对比学习任务，如果通俗的解释，对比学习的训练目标就是将句子本身作为正例(Positive instance)，将同一批中的其他句子作为负例(Negative instance)，以使得模型能够构建更均匀的句子嵌入空间。假设有一组句子集合其中m为句子的数量。令每个句子x_i在对比学习任务中的正例/>就是它本身，即这么做的一个关键点是，需要利用Transformer这类预训练模型中的dropout机制，在其编码器的全连接层上，以通过dropout机制来使得模型避免过拟合。而在模型的对比学习任务中，利用这个机制来构造每个句子的对比学习正例。具体方法是，假设z是一个随机的dropout掩码，那么通过全连接层输出的句子x_i的隐层表示/>如果将这个句子连续输入编码器两次，两次的dropout掩码分别是z,z'，那么就可以得到句子以及用其本身作为正例的隐藏表示对/>因此，对比学习的损失函数就可以表示为：

式中，l_i为损失值；τ表示温度系数；N为一个小批次中句子对数。Sim函数表示计算两个隐层向量的余弦相似度。

为了验证和评估训练效果，我们采用句子相似度(Sentence similarity)任务进行验证。这些数据集分别是：

ATEC：ATEC语义相似度学习赛数据集，主要关于金融领域客服场景。

BQ：哈工大BQ Corpus数据集，主要关于银行金融领域的问题匹配。

LCQMC：哈工大LCQMC数据集，覆盖多个领域的问题匹配。

PAWSX：谷歌发布的数据集，数据集里包含了多语种的释义对和非释义对，即识别一对句子是否具有相同的释义(含义)，特点是具有高度重叠词汇，对无监督方法来说算是比较难的任务，只保留其中文部分。

STS-B：计算两句话之间的相关性，原数据集为英文版，通过翻译加部分人工修正的方法生成中文版。

其中，除了STS-B数据集按照相关度从低到高有0到5共6个标签之外。其他数据集只有相关(1)和不相关(0)两个标签。在验证时，参考Facebook研发的SentEval(一个对于模型句子嵌入进行评估的基准)，在其它条件不变的情况下载入中文数据集并进行验证。

预训练模型主要通过使用5个中文句子语义相似度的数据集作为验证集，选取在该任务上性能最好的模型。

接着使用训练和验证过后的Encoder对文本数据集中需要提取特征的结构化文本数据进行编码，产生高质量的句子嵌入。具体为：

先使用上述训练好Encoder对句子进行编码，为了更好凸显出编码器输出的句子向量的特征，设计了一个池化策略来处理编码器生成的句子嵌入。具体来说，共提供五种池化策略。以Bert作为Encoder为例，分别是经过一个线性映射的Bert模型句子向量表征(cls)、直接输出隐藏层最后一层的结果(cls_before_pooler)、对隐藏层最后一层的结果进行平均池化(avg)、对隐藏层第一层和最后一层的结果进行求和平均后进行平均池化(avg_first_last)、对隐藏层最后两层的结果进行求和平均后进行平均池化(avg_top2)。

(1)经过一个线性映射的Bert模型句子向量表征：在Bert模型中，CLS token对应的输出即为整个句子的表征向量，通过对CLS token的输出附加一个线性映射，某些时候可能会得到更好的结果。假设CLS token的输出为H_CLS，线性映射的权重矩阵为W，偏置向量为b，全连接层上的激活函数为Tanh，则经过一个线性映射的Bert模型句子向量表征：

vector＝Tanh(H_clsW+b)

(2)直接输出隐藏层最后一层的结果：与第一种情况不同的是，直接输出隐藏层最后一层的结果，即直接使用H_CLS。

(3)对隐藏层最后一层的结果进行平均池化：假设n为输入序列的长度，定义一个集合为序列在编码器中的隐层状态。假设t为模型隐藏层的层数，定义/>为模型隐藏层第t层的输出，则隐藏层最后一层的输出可以用/>表示。那么对隐藏层最后一层的结果进行平均池化的操作可以表示为：

其中，M为这个句子对应的注意力掩码向量(attention mask)。该向量完全由1或0组成，作用是标记序列的长度，⊙表示元素级乘积。

(4)对隐藏层第一层和最后一层的结果进行求和平均后进行平均池化：按照3中的规则进行表示，隐藏层第一层和最后一层的和为再对H_sum进行平均池化即可得到句子表征向量。

(5)对隐藏层最后两层的结果进行求和平均后进行平均池化：与(4)中同理，唯一的不同是再对H_sum进行平均池化即可得到句子表征向量。

步骤3、将所述句子嵌入进行处理以提取聚类特征，并采用聚类算法对所述聚类特征进行聚类，获得聚类结果。

通过池化之后，所有的句子嵌入送入事先选择好的聚类算法中进行计算，常见的聚类算法有K-means、DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise，基于密度的聚类算法)和层次聚类。通过聚类算法，得到了每一条句子的聚类标签，以及每个簇的中心点。

步骤4、采用语义云方法对所述聚类结果进行可视化处理，获得语义云图。

本步骤通过对该聚类结果的进一步可视化处理，输出一个“语义云图”。首先对可视化分析结果中的如下概念给出定义：

定义1-语义云图：语义云图的输入是“句向量矩阵组成的列表，句子文本组成的列表，句子的标签组成的列表”构成的三元组。而由相似的句子向量嵌入聚类形成的一个语义簇按照相对位置在二维可视化空间中排布后，就会形成语义云图中的一朵“语义云”。多个语义云组成了一个语义云图。

定义2-云半径：每一朵语义云的半径由构成这个语义簇的最外围的点到语义簇中心的平均距离求得。因此，每一朵语义云都被抽象为圆形轮廓。

定义3-湿度：语义云的湿度由语义云内数据点的数量除以云面积求得(即数据点的密度)。语义云的湿度越大，说明语义云内的数据点越密集。湿度越大，聚类效果越好，语义特征越明显。一个语义云图中所有语义云的平均湿度可以用来反应聚类算法效果，还可以从侧面反应数据集的质量。

定义4-语义交叉：如果两朵语义云在语义云图中出现部分相交，说明两朵语义云产生了语义交叉。说明两朵云内的部分语义表述是相似的。产生语义交叉的云可以被融合为一朵更大的语义云。同时，通过计算语义交叉范围，可以计算语义云之间的相似程度。提取交叉部分的数据可以进一步进行分析来获得更多有价值的信息。

定义5-云间距：通过计算两朵语义云中心点在句向量空间中的距离(点积、余弦相似度等)可以得到云间距。计算云间距可以对不同语义云之间进行关联分析。云间距越小，说明两朵语义云之间越有关系，云间距越大说明两朵语义云之间的内容越独立。云间距小到一定程度就会产生语义交叉。

定义6-语义信标：通过人为在语义云图中生成一个不在数据集内的句子向量的方式，可以在语义云图中添加语义信标。例如，在语义云图中添加三个人造文本的数据点，这三个数据点在语义云图中以一个特殊的标记呈现，通过测算这三个数据点到其他语义云的间距来计算不同的语义云到这三个信标的距离，这样就可以通过语义云图中丰富的语义信息来达成某种特定的文本分析目的。

通过上述定义我们知道，一张语义云图的输入是“句向量矩阵组成的列表，句子文本组成的列表，句子的标签组成的列表”构成的三元组，其中句子的标签可以在聚类结束之后由人为替换成具有意义的文本标签。通过上述步骤得到了上述输入，接下来，使用t-SNE算法对输入的句子向量进行降维，降低至二维后，假设每个簇i的中心点为{X_i,Y_i}，语义云数量为N,每朵语义云i中最外层数据点集合为{Xⁿ _i,Yⁿ _i}，n_i为每朵语义云最外层数据点的数据量，我们可以通过以下公式计算出每朵语义云的云半径R_i：

通过计算得到的云半径和每朵语义云的中心点，通过python进行编程即可得到一张语义云图。

最后以一个具体的例子解释语义云图中“语义信标”的应用。假设在线教育的困难与挑战问卷最终在语义云图中生成了4朵语义云，将其分别命名为{视力下降问题、缺乏户外锻炼、家长负担过重、缺乏实验场地和器材}。语义云的名字和这个语义云所代表聚类簇的标签一致。此后，在数据集中增加“家长”、“学生”、“学校”三个短文本，这三个短文本仅仅由一个词语构成，这些短文本在Encoder编码之后同样会产生对应的句子嵌入。按照上述步骤，对它们的句子嵌入进行降维，得到三个短文本所代表的数据点在语义云图中的坐标{X_家长,Y_家长}、{X_学生,Y_学生}、{X_学校,Y_学校}，就可以在语义云图中绘制出这三个数据点，这便是的语义信标。在语义云图中进行可视化分析，如图3所示，“家长”所对应的信标和“家长负担过重”这朵云是靠近的。而“学校”所对应的信标和“缺乏试验场地和器材”更接近。“学生”所对应的信标和“视力下降问题、缺乏户外锻炼”两朵语义云更接近。这就说明，语义云图中云与各数据点之间的距离包含了丰富的信息价值和语言含义，可以通过设计语义信标的方式有目的性的去挖掘想要的信息。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，包括以下步骤：

获取无标注的文本数据集；

采用聚类算法对所述句子嵌入进行聚类，获得聚类结果；

2.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述文本数据集在输入至文本聚类模型前，进行数据清洗和预处理操作。

3.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述预训练阶段的具体步骤包括：

4.根据权利要求3所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述对比学习的损失函数为：

5.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述预训练阶段采用BERT语言模型作为编码器进行训练。

6.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述句子嵌入在输出前采用池化策略进行处理，所述池化策略包括cls、cls_before_pooler、avg、avg_first_last和avg_top2。

7.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述聚类算法为K-means聚类算法。

8.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述获得语义云图的具体步骤包括：

将所述句子嵌入进行降维处理；

9.根据权利要求8所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，采用t-SNE算法对所述句子嵌入进行降维处理。

10.根据权利要求8所述的一种基于文本聚类语义云的可视化文本数据分类方法，其特征在于，所述每朵语义云的云半径的计算公式为：