CN111611376B

CN111611376B - 基于用户生成文本的无监督学习的用户分类方法及装置

Info

Publication number: CN111611376B
Application number: CN202010298884.9A
Authority: CN
Inventors: 周存; 杨瑞
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-11-17
Anticipated expiration: 2040-04-16
Also published as: CN111611376A

Abstract

本发明公开了一种基于用户生成文本的无监督学习的用户分类方法，包括：获取用户生成文本，生成文本表征向量；使用无监督聚类算法对所有文本表征向量进行聚类，得到文本聚类结果；将得到的文本聚类结果中的文本类别作为用户特征；计算每一个用户的特征值，得到用户特征向量；使用无监督聚类算法对用户特征向量进行聚类，得到用户分类结果。不需要标注数据，仅仅基于用户生成文本（UGT）进行两次无监督聚类即能实现用户分类，方法简单快捷。

Description

基于用户生成文本的无监督学习的用户分类方法及装置

技术领域

本发明涉及用户分类技术领域，具体地涉及一种基于用户生成文本的无监督学习的用户分类方法及装置。

背景技术

用户分类是数据挖掘的一个重要应用领域，通过将用户划分成不同的类别，确定不同用户群体的需求，为不同的用户群体推送相应的信息，以实现信息精确的定向推送，个性化服务、智能营销，社交等。根据互联网用户的相似性，对他们进行分类，可有益于广泛的应用领域，如个性化服务，智能推荐，智能营销，社交等。

当前最新的技术方案包括基于用户使用应用程序的数据进行用户分类，无监督学习方法确定用户的拓扑关系特征进而确定用户类别，基于提取的用户画像特征确定用户类型和对用户操作应用程序的功能序列的词嵌入矩阵进行聚类等。例如公告号为CN110837862 A的专利公开了一种用户分类方法包括：获取用户在应用中的操作数据，并进行分析以得到由所述用户在所述应用中顺序使用的功能所组成的功能序列；对所述用户的功能序列中的每个功能的名称进行词嵌入处理，得到所述每个功能对应的向量；将所述功能序列中每个功能对应的向量顺序进行组合，得到对应所述用户的功能序列矩阵；对多个用户分别对应的功能序列矩阵进行聚类处理，得到每个功能序列矩阵对应的用户所属的类别。通过该发明，能够根据用户使用的功能序列对用户进行准确分类。

但是，这些用户分类方法通常需要花费很大代价设计、提取及处理所需数据且依赖特定的数据；应用于某种特定的业务场景，通用性不足。

发明内容

为了解决上述存在的技术问题，本发明提出了一种基于用户生成文本的无监督学习的用户分类方法及装置，不需要标注数据，仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类，方法简单快捷。

本发明的技术方案是：

一种基于用户生成文本的无监督学习的用户分类方法，包括以下步骤：

S01：获取用户生成文本，生成文本表征向量；

S02：使用无监督聚类算法对所有文本表征向量进行聚类，得到文本聚类结果；将得到的文本聚类结果中的文本类别作为用户特征；

S03：计算用户的特征值，得到用户特征向量；

S04：使用无监督聚类算法对用户特征向量进行聚类，得到用户分类。

优选的技术方案中，所述步骤S01中包括以下步骤：

S11：获取用户生成文本的每个token对应的表征向量；

S12：对文本所有token的表征向量取平均并将结果向量作为文本表征向量，文本表征向量为768维，用ST＝(ST₁,ST₂,ST₃,…,ST₇₆₈)表示，每一维ST_i通过下述公式计算：

其中，NT表示token的个数，表示第j个token的表征向量的第i维的值，ST_i表示文本表征向量ST的第i维的值。

优选的技术方案中，所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度，得到每一个用户的特征值。

优选的技术方案中，使用欧式距离计算用户特征值U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：

其中，N_i表示某用户生成的文本中被聚类到类别i中的文本个数，表示N_i中的第j条文本与类别i的类中心的欧式距离相似度，n表示用户特征数，T是一个预设常量。

优选的技术方案中，使用余弦相似度计算用户特征值U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：

其中，N_i表示某用户生成的文本中被聚类到类别i中的文本个数，表示N_i中的第j条文本与类别i的类中心的余弦相似度，n表示用户特征数。

本发明还公开了一种基于用户生成文本的无监督学习的用户分类装置，包括：

文本表征向量生成模块，获取用户生成文本，生成文本表征向量；

第一聚类模块，使用无监督聚类算法对所有文本表征向量进行聚类，得到文本聚类结果；将得到的文本聚类结果中的文本类别作为用户特征；

用户特征向量提取模块，计算用户的特征值，得到用户特征向量；

第二聚类模块，使用无监督聚类算法对用户特征向量进行聚类，得到用户分类。

优选的技术方案中，所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤：

S11：获取用户生成文本的每个token对应的表征向量；

优选的技术方案中，所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度，得到每一个用户的特征值。

与现有技术相比，本发明的优点是：

本发明基于用户生成文本(UGT)生成文本表征向量，并进行聚类，将得到的文本类别作为用户特征，计算量小，同时能保证一定的准确率。将用户生成文本在文本类内与对应的类中心的相似度，进行用户表征的确定，同样计算量小，并且能够较准确表征用户的特征。

本发明的方法不需要标注数据，仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类，方法简单快捷。具有广泛的应用前景。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于用户生成文本的无监督学习的用户分类方法的流程图；

图2为本发明将用户特征从96维降维到2维后的用户分类结果示意图；

图3为本发明将用户特征从96维降维到3维后的用户分类结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，一种基于用户生成文本的无监督学习的用户分类方法，包括以下步骤：

S01：获取用户生成文本，生成文本表征向量；

S02：使用无监督聚类算法对所有文本表征向量进行聚类，得到文本聚类结果，将得到的文本聚类结果中的文本类别作为用户特征；

S03：计算用户的特征值，得到用户特征向量；

下面对每一步骤进行具体说明：

步骤S01中，可以通过爬虫程序获取用户生成文本，例如采用爬虫程序从优酷网站爬取电视剧的弹幕。

一、生成文本表征向量

BERT是一个强大的语言表征模型并已在大量的NLP任务中被证明具有state-of-the-art的效果。本发明先使用BERT获取生成文本的每个token(中文字或者英文词)对应的表征向量，然后对文本所有tokens的表征向量取平均并将结果向量作为文本表征向量。文本表征向量有768维，用ST＝(ST₁,ST₂,ST₃,…,ST₇₆₈)表示，每个ST_i通过公式1计算。由于每个token的表征向量都包含了上下文信息，因此文本表征向量就包含了整个文本的语义信息。

其中，NT表示tokens的个数，表示第j个token的表征向量的第i维的值，ST_i表示文本表征向量ST的第i维的值。

二、文本聚类

使用无监督聚类算法对所有文本的文本表征向量进行聚类，得到文本聚类结果，将得到的文本聚类结果中的文本类别作为用户特征。每一个文本类别都代表了一种特征，不同的文本类别代表不同的特征。如果一个用户生成的文本属于某个文本类，则该用户具有该文本类的特征。本发明可以采用任意的无监督聚类算法，例如，K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。

三、用户特征提取

通过计算用户生成文本在文本类内与对应的类中心的相似度，得到每一个用户的特征值F_i，用向量U＝(F₁,F₂,F₃,…,F_n)表示用户特征，对于欧式距离，使用公式2计算用户特征值；对于余弦相似度，使用公式3计算用户特征值。用户生成的某文本在文本类内与对应的类中心相似度越大，则该文本对用户特征的贡献越大。

其中，N_i表示某用户生成的文本中被聚类到类别i中的文本个数，表示N_i中的第j条文本与类别i的类中心的欧式距离相似度，/>表示N_i中的第j条文本与类别i的类中心的余弦相似度，n表示用户特征数(即文本聚类个数)，T是一个预设常量，不小于文本类内两个成员欧式距离的最大值。

四、用户特征聚类

使用无监督聚类算法对用户特征向量进行聚类，聚类结果即是用户分类结果。该无监督聚类算法可以为，K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。

下面以具体的实例进行说明：

该实施例采用爬虫程序从优酷网站爬取了2019年7月5日评分最高的5个电视剧的弹幕。由于本实施例将BERT支持的最大序列长度设置为32，故将长度超过30个字的弹幕删除。同时将非活跃用户的弹幕移除(即属于某用户的所有弹幕总数低于50)。最终供本实施例使用的弹幕信息如下表所示：

Item	Result
		弹幕数量	1,000,000
平均弹幕长度	8.7
		弹幕生成者数量	6481

在Google colab(25.51GB RAM and 48.97GB disk)上使用预训练中文版BERT(chinese L-12H-768A-12)对所有弹幕生成tokens表征向量，然后通过取平均的方法计算每个弹幕的表征向量，每个弹幕的表征向量为768维，每个元素为float32类型。下表列出了BERT的使用配置。

使用了一种相似度可控的聚类算法SCC(SCC的使用配置如下表所示)在腾讯云服(64GB RAM)上将所有弹幕聚成了96个类别。每个类都具有很好的内聚性，类内任意成员间具有很好的相似度。

Item	Value
		优化机制	分片和压缩
最小类成员个数	1000
		相似度度量	Euclidean距离
TSP	18
		分片大小	4000
聚类顺序	从稠密到稀疏

基于弹幕聚类结果，设置公式2中的T为30，计算得到用户特征向量(矩阵)为6481行96列(即6481个用户，每个用户有96维特征)。本实例再次使用了相似度可控的聚类算法SCC对用户特征进行了聚类，使用设置如下表所示：

Item	Value
		优化机制	分片和压缩
最小类成员个数	50
		相似度度量	Euclidean距离
TSP	11
		分片大小	500
聚类顺序	从稠密到稀疏

将用户聚成了6类，每个类中任意两两用户都具有较强的相似性，下表列出了用户聚类结果。

采用主成分分析技术(PCA)将用户特征从96维降维到2维的用户分类结果，如图2所示。

采用主成分分析技术(PCA)将用户特征从96维降维到3维后的用户分类结果，如图3所示。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于用户生成文本的无监督学习的用户分类方法，其特征在于，包括以下步骤：

S01：获取用户生成文本，生成文本表征向量；

所述步骤S01中包括以下步骤：

S11：获取用户生成文本的每个token对应的表征向量；

S12：对文本所有token的表征向量取平均并将结果向量作为该文本的表征向量，文本表征向量用ST＝(ST₁,ST₂,ST₃,…,ST₇₆₈)表示，每一维ST_i通过下述公式计算：

其中，NT表示token的个数，表示第j个token的表征向量的第i维的值，ST_i表示文本表征向量ST的第i维的值；

S03：计算用户特征值，得到用户特征向量；

所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度，得到每一个用户的特征值；

使用欧式距离计算用户特征向量U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：

其中，N_i表示某用户生成的文本中被聚类到类别i中的文本个数，表示N_i中的第j条文本与类别i的类中心的欧式距离相似度，n表示用户特征数，T是一个预设常量；或者

使用余弦相似度计算用户特征向量U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：

其中，N_i表示某用户生成的文本中被聚类到类别i中的文本个数，表示N_i中的第j条文本与类别i的类中心的余弦相似度，n表示用户特征数；

2.一种基于用户生成文本的无监督学习的用户分类装置，其特征在于，包括：

所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤：

S11：获取用户生成文本的每个token对应的表征向量；

所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度，得到每一个用户的特征值；

使用欧式距离计算用户特征值U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：

使用余弦相似度计算用户特征值U＝(F₁,F₂,…,F_n)，每一维F_i用下述公式计算：