CN115017320A

CN115017320A - 结合词袋模型和深度学习模型的电商文本聚类方法及系统

Info

Publication number: CN115017320A
Application number: CN202210946815.3A
Authority: CN
Inventors: 汪东瑶; 孙林君; 张军燕
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06

Abstract

本发明属于文本分类技术领域，具体涉及结合词袋模型和深度学习模型的电商文本聚类方法及系统。方法包括S1，获取原始文本，并进行清洗处理；S2，对清洗后的文本进行预处理；S3，利用词袋模型对文本分词后的内容构建词频向量，同时将最小单元token输入到深度学习模型得到句向量；S4，将词频向量和句向量进行叠加，得到叠加后的向量；S5，将叠加后的向量输入到自编码网络得到低维向量；S6，采用聚类算法对低维向量进行聚类，获得文本的聚类；S7，进行关键词的提取；S8，将提取到的关键词抽取并展示。本发明具有节省人工成本，且对文本能够实现精准表示，并对文本进行主题词抽取并进行直观展示的特点。

Description

结合词袋模型和深度学习模型的电商文本聚类方法及系统

技术领域

本发明属于文本分类技术领域，具体涉及结合词袋模型和深度学习模型的电商文本聚类方法及系统。

背景技术

大数据时代，社会信息化和网络化的发展导致数据爆炸式增长，全球数据量大约每两年翻一番，这意味着人们在最近两年产生的数据量相当于之前产生的全部数据量。NLP(自然语言处理)技术，悄然渗透到各个行业领域，逐渐成为一种生产要素发挥着重要作用。文本分类技术是NLP领域的基础核心技术，可以分类有监督学习和无监督学习两大类，但是有监督学习需要人工标注大量的数据，对于井喷式产生的数据量，该方法有天然的缺陷。而非监督学习，例如LDA（Latent Dirichlet Allocation）主题模型在不需要人工进行标注的情况下，利用贝叶斯原理对海量文本进行分类，并且能够识别文档中潜在的主题信息。它采用词袋模型，将一篇文档看作一个利用词频构成的向量。每一个主题可以看作许多词语构成的概率分布，而每一篇文档也可以看作是多个主题构成的概率分布。经过算法的多伦迭代后，该算法可以从海量的语料中提取潜在的主题。

尤其在电商评论以及咨询领域，商户需要对客户的评论或者咨询内容进行统计分析，假设完全由人工完成，过程较为繁琐并且较为主观，不同的人对于同一条评论或者咨询内容有不同的理解。采用主题模型的方式，利用评论或咨询内容之间的语义关联，进行聚类，达到迅速归类海量评论或者咨询内容的目的，并且还可以迅速获得对评论或者咨询内容直观了解，比如，这段时间哪一类问题出现较多。

综上所述，目前现有的文本分类技术，主要通过监督学习与非监督学习两大类方法进行。监督学习方法人工成本太高，使用不够灵活，非监督学习LDA有其局限性：由于使用的词袋模型，只能很简单的使用词频统计来表示文本，虽然可以根据经验去除大量的停用词，但是无法很好的理解上下文和同义词，对于深层次的语义关系和语义表征的挖掘能力较差。并且对于停用词的确定也需要人工主动进行干预，这种干预需要一定的经验以及业务水平。另一方面，以BERT为代表的深度学习词向量表征，虽然能够较为精确地表达文本内容，但由于深度神经网络的黑盒特性，不能像词袋模型一样对潜在的主题有直观的表示，例如是某几个词表示了文本的关键主题，这样就无法完全自动的生成主题词对文本进行精简表示。

基于上述问题，设计一种节省人工成本，且对文本能够实现精准表示，并对文本进行主题词抽取并进行直观展示的结合词袋模型和深度学习模型的电商文本聚类方法及系统，就显得十分重要。

例如，申请号为CN201810409742.8的中国专利文献描述的一种基于深度学习的文本表示与分类方法。涉及利用深度信念网络DBN、深度波尔茨曼机DBM和卷积神经网络CNN三类深度学习模型，解决文本表示与分类中传统的基于词袋模型BOW文本表示的分类方法存在的高维度、高稀疏和难以处理标签数目不确定、包含大量专业词汇的专业摘要文本问题。虽然充分利用DBM模型自动捕获文本特征对输入文档进行降维、DBN模型抽取高层文档、CNN模型权重共享及局部连接的优势；同时设计了一个针对文本表示和文本分类的高效模型，具有较高的F测度值、良好ROC曲线和实时性强的优点，但是其缺点在于，无法应用于聚类场景，无法解决聚类任务中，每一类主题词的精准展示问题，无法实现对客服或评论中出现的问题的精准定位，难以提高效率。

发明内容

本发明是为了克服现有技术中，现有的文本分类技术存在人工成本太高，使用具有局限性，且无法完全自动的生成主题词对文本进行精简表示的问题，提供了一种节省人工成本，且对文本能够实现精准表示，并对文本进行主题词抽取并进行直观展示的结合词袋模型和深度学习模型的电商文本聚类方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

结合词袋模型和深度学习模型的电商文本聚类方法，包括如下步骤；

S1，获取原始文本，并对原始文本进行清洗处理；

S2，对清洗后的文本进行预处理，所述预处理为对文本进行分词和生成深度学习模型所需要的最小单元token；

S3，利用词袋模型对文本分词后的内容构建词频向量，同时将生成的最小单元token输入到深度学习模型并得到句向量；

S4，将获得的词频向量和句向量进行叠加，得到叠加后的向量；

S5，将叠加后的向量输入到自编码网络得到低维向量；

S6，采用聚类算法对获得的低维向量进行聚类，获得文本的聚类；

S7，将每一类文本分别看作一篇长文本，对每一篇长文本使用词袋模型进行关键词的提取；

S8，将提取到的关键词抽取并展示。

作为优选，步骤S1中所述清洗处理包括去除无效内容；所述无效内容包括空值、乱码和问候语。

作为优选，步骤S2中所述最小单元token为词语或单字。

作为优选，步骤S3中所述将生成的最小单元token输入到深度学习模型并得到句向量包括如下步骤：

S31，采用Bert预训练模型为深度学习模型，将生成的最小单元token输入到Bert预训练模型中，取Bert预训练模型中最后四层隐向量的均值，得到句向量。

作为优选，步骤S4包括如下步骤：

S41，将M维的词频向量和N维的句向量叠加，得到M+N维的向量。

作为优选，步骤S5包括如下步骤：

S51，对自编码网络进行训练，将一组向量输入到自编码网络先降维，再进行升维，通过调整自编码网络参数，使得自编码网络的输出与输入相等；

S52，训练完成后，将从步骤S4中获得的叠加后的向量，输入自编码网络中的降维部分，得到低维向量。

作为优选，步骤S6包括如下步骤：

S61，设定超参数为K，通过调整评价指标，对低维向量进行聚类，将所有低维向量对应的文本分为K组；

其中超参数为类别数；所述评价指标包括困惑度。

作为优选，步骤S7包括如下步骤：

S71，对聚类完成的文本按照分类标签进行组合得到K篇长文本，并使用词袋模型对K篇长文本进行词频统计，提取出每篇长文本中辨识度排名靠前的词，作为关键词。

本发明还提供了结合词袋模型和深度学习模型的电商文本聚类系统，包括：

预处理模块，用于获取原始文本，并对原始文本进行清洗处理，并对清洗后的文本进行预处理，同时利用词袋模型对文本分词后的内容构建词频向量，将获得的词频向量和句向量进行叠加，得到叠加后的向量；

其中，所述预处理为对文本进行分词和生成深度学习模型所需要的最小单元token；

预训练模型模块，用于将生成的最小单元token输入到深度学习模型并得到句向量；

自编码网络模块，用于对自编码网络进行训练，将一组向量输入到自编码网络先降维，再进行升维，通过调整自编码网络参数，使得自编码网络的输出与输入相等；训练完成后，将叠加后的向量，输入自编码网络中的降维部分，得到低维向量；

聚类、后处理模块，用于采用聚类算法对获得的低维向量进行聚类，获得文本的聚类，并将每一类文本分别看作一篇长文本，对每一篇长文本使用词袋模型进行关键词的提取。

本发明与现有技术相比，有益效果是：（1）本发明结合深度学习模型与词袋模型对文本进行向量表示，既能利用预训练模型对于文本的精准表示，又能利用像词袋模型对文本进行主题词抽取并进行直观展示；（2）本发明能在无需人工标注的情况对大量文本（无论长短）进行迅速归类并提取主题词，节省人力成本；（3）本发明能够迅速定位某一段时间内大量出现并需要改进的内容，从而提升效率，改善客户体验。

附图说明

图1为本发明中结合词袋模型和深度学习模型的电商文本聚类方法的一种流程图；

图2为本发明中结合词袋模型和深度学习模型的电商文本聚类系统的一种原理框图；

图3为本发明实施例所提供的某客户咨询记录中通过聚类得到主题词的一种流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，结合词袋模型和深度学习模型的电商文本聚类方法，包括如下步骤；

S1，获取原始文本，并对原始文本去除无效内容；

无效内容包括空值、乱码和问候语等。

S2，对清洗后的文本进行预处理，所述预处理为对文本进行分词和生成深度学习模型所需要的词语或单字；

S3，利用词袋模型，对文本分词后的内容构建词频向量，获得M维的词频向量，同时采用Bert预训练模型为深度学习模型，将生成的词语或单字输入到Bert预训练模型中，取Bert预训练模型中最后四层隐向量的均值，得到N维的句向量。

其中，词袋模型具体采用TF-IDF模型或LDA模型。

S4，将M维的词频向量和N维的句向量叠加，得到M+N维的向量；

例如，词频向量为500维，句向量为768维，叠加得到一个1268维的向量。

S5，对自编码网络进行训练，将一组向量输入到自编码网络先降维，再进行升维，通过调整自编码网络参数，使得自编码网络的输出与输入相等；训练完成后，将从步骤S4中获得的叠加后的M+N维的向量，输入自编码网络中的降维部分，得到低维向量，用于避免向量过于稀疏（大量维度上为0）。

S6，设定超参数为K，通过调整评价指标，对获得的低维向量进行聚类，将所有低维向量对应的文本分为K组；

其中超参数为类别数；所述评价指标包括困惑度；聚类算法具体使用K-means聚类算法。

例如，设定超参数为3(类别数)，对获得的低维向量进行聚类，最终将所有文本分为3组。

S7，对聚类完成的文本按照分类标签进行组合得到K篇长文本，并使用词袋模型对K篇长文本进行词频统计，提取出每篇长文本中辨识度排名靠前的词，作为关键词。

S8，将提取到的关键词抽取并展示。每一篇长文本就代表一个主题。

例如，对聚类完成的文本按照标签进行组合得到3篇长文本，使用词袋模型TF-IDF对3篇文章进行词频统计，每篇文章中辨识度较高的词就会被提取出来。最后取每篇文章权重排名前6的词作为该类文本的主题展示。

如图2所示，本发明还提供了结合词袋模型和深度学习模型的电商文本聚类系统，包括：

具体过程为：首先，收集将近期（最近一周）咨询内容，并对文本数据内容进行清洗，即去除无效内容（例如问候、打招呼等）；然后对清洗后的文本进行预处理，即分别将文本数据内容利用结巴分词方式进行分词以及利用bert_tokenize解析器，生成适合深度学习模型所需要的词语或单字；采用TF-IDF模型对各文本中出现的词语进行词频统计加权向量，得到一组维度为500的，极为稀疏的词频向量；最后将统计方法生成的词频向量与Bert预训练模型生成的维度为768维的句向量进行叠加，生成一组1268维的句向量，即每一段文本都被表示成一个1268维的向量。

具体过程为：采用常规的bert_base_chinese预训练模型为基础，将收集到的电商语料输入到Bert预训练模型中，取最后四层隐向量的mean-pooling (取Bert预训练模型的最后四层神经网络)的平均值，得到768维的句向量。

由于统计方法生成的向量中含有大量的0，为了将其表示得更为紧凑、提升模型效果。利用自编码网络进行降维度，该模块的具体过程如下：

训练过程中将叠加得到的1268维的向量输入该网络先降维，然后再进行升维得到，通过调整神经网络参数，最终使得该网络的输出与输入相等。

训练完成后，将叠加得到的1268维的向量输入自编码网络模块的前半部分（即降维部分），得到500维向量。

聚类、后处理模块使用K-means聚类算法，具体过程如下：

设定超参数为3(类别数)，对降维后的低维向量（500维向量）进行聚类，最终将所有文本分为3组。对聚类完成的文本按照标签进行组合得到3篇长文本，使用词袋模型TF-IDF对3篇文章进行词频统计，每篇文章中辨识度较高的词就会被提取出来。最后取每篇文章权重排名前6的词作为该类文本的主题展示。

通过主题词展示，可以较为清晰的感知到最近客户咨询较多的三类问题。通过本发明方法能够迅速定位到相关问题并采取相应措施，以便改善客户体验。

以下是从某客户咨询记录中聚类得到主题词的例子，此类咨询服务一天的咨询量大致在几万人次，如果采用人工进行主题词定位，由于文本数据量大且较为混乱，人工提取所需信息可能较为困难。采用该聚类方法具体流程如下图3所示：

1.对客户所提供的原始信息进行清洗，编写常见的打招呼与问候语等无用信息的规则，利用规则去除这类信息，过滤掉乱码等无用字符。

2.将文本信息向量化

2.1：

对预处理过后的数据进行分词，并去除停用词。将每一段文本内容都表示为词频统计向量。例如：这个猫粮太差了，我家猫吃了拉肚子，太差了。表示为向量如下，去除了停用词“了”，相应的数字为该段中出现过的词的词频，未出现的词均用0表示。该向量维度为2400维。

表1 词频统计向量表

猫粮	太差	猫	吃	拉肚子	…
						1	2	1	1	1	0

2.2：

同时将语料输入到预训练模型（BERT）中，然后提取后两层输出的平均值作为该段的向量表示。该向量维度为768维。

2.3：

然后把2.1过程中获得的每段的词频统计向量与BERT获得的向量进行叠加。训练自编码网络，调整相应的学习率，对以上获得向量进行压缩，3168维的向量压缩至400维。

2.4：

将以上获得的数据输入到k-means 聚类模型，根据模型表现，通过调整困惑度评价指标，调整超参数K。最终选定K=5, 将短文本组合成5篇长文本，然后使用TF-Idf进行词语的权重得分统计，最后选取每组中的前5个词语作为该组文本的表示。

通过主题词展示，我们可以较为清晰的感知到最近客户咨询较多的5类问题，第一类问题大概和猫粮质量相关，第二类和性价比相关，第三类和物流等相关，第四类和客服态度相关，第五类和包装方式有关。通过该方法能够迅速定位到相关问题并采取相应措施，以便改善客户体验。

本发明提出结合深度学习模型与词袋模型对文本进行表示。既利用到了预训练模型对于语意的精准表示，又避免了人工标注数据带来的大量的人工消耗，同时有充分发挥了词袋模型在非监督条件下对文本内容主题的准备提炼与概括。

本发明将深度学习模型与词袋模型结合，用于文本的向量表示，并在聚类场景应用；解决了深度学习缺乏直观表示和词袋模型缺乏精准语义理解的问题，并不同于现有技术用于分类场景，本发明创造性地将其应用在聚类任务上，能避免巨大的人工消耗，更好地适应电商等海量数据场景；

本发明在聚类算法完成后，对归类后的文本进行再次拼接组合为一篇长文本，并使用TF-IDF模型（词袋模型）抽取每一类文本关键词或主题词并进行展示，从而解决聚类任务中，每一类主题词的精准展示问题，对客服或评论中出现的问题能够精准定位，提高效率。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，包括如下步骤；

S1，获取原始文本，并对原始文本进行清洗处理；

S5，将叠加后的向量输入到自编码网络得到低维向量；

S8，将提取到的关键词抽取并展示。

2.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S1中所述清洗处理包括去除无效内容；所述无效内容包括空值、乱码和问候语。

3.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S2中所述最小单元token为词语或单字。

4.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S3中所述将生成的最小单元token输入到深度学习模型并得到句向量包括如下步骤：

5.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S4包括如下步骤：

6.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S5包括如下步骤：

7.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S6包括如下步骤：

其中超参数为类别数；所述评价指标包括困惑度。

8.根据权利要求7所述的结合词袋模型和深度学习模型的电商文本聚类方法，其特征在于，步骤S7包括如下步骤：

9.结合词袋模型和深度学习模型的电商文本聚类系统，其特征在于，包括：