CN111611376B - 基于用户生成文本的无监督学习的用户分类方法及装置 - Google Patents

基于用户生成文本的无监督学习的用户分类方法及装置 Download PDF

Info

Publication number
CN111611376B
CN111611376B CN202010298884.9A CN202010298884A CN111611376B CN 111611376 B CN111611376 B CN 111611376B CN 202010298884 A CN202010298884 A CN 202010298884A CN 111611376 B CN111611376 B CN 111611376B
Authority
CN
China
Prior art keywords
text
user
vector
token
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010298884.9A
Other languages
English (en)
Other versions
CN111611376A (zh
Inventor
周存
杨瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong Liverpool University
Original Assignee
Xian Jiaotong Liverpool University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong Liverpool University filed Critical Xian Jiaotong Liverpool University
Priority to CN202010298884.9A priority Critical patent/CN111611376B/zh
Publication of CN111611376A publication Critical patent/CN111611376A/zh
Application granted granted Critical
Publication of CN111611376B publication Critical patent/CN111611376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于用户生成文本的无监督学习的用户分类方法,包括:获取用户生成文本,生成文本表征向量;使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;计算每一个用户的特征值,得到用户特征向量;使用无监督聚类算法对用户特征向量进行聚类,得到用户分类结果。不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。

Description

基于用户生成文本的无监督学习的用户分类方法及装置
技术领域
本发明涉及用户分类技术领域,具体地涉及一种基于用户生成文本的无监督学习的用户分类方法及装置。
背景技术
用户分类是数据挖掘的一个重要应用领域,通过将用户划分成不同的类别,确定不同用户群体的需求,为不同的用户群体推送相应的信息,以实现信息精确的定向推送,个性化服务、智能营销,社交等。根据互联网用户的相似性,对他们进行分类,可有益于广泛的应用领域,如个性化服务,智能推荐,智能营销,社交等。
当前最新的技术方案包括基于用户使用应用程序的数据进行用户分类,无监督学习方法确定用户的拓扑关系特征进而确定用户类别,基于提取的用户画像特征确定用户类型和对用户操作应用程序的功能序列的词嵌入矩阵进行聚类等。例如公告号为CN110837862 A的专利公开了一种用户分类方法包括:获取用户在应用中的操作数据,并进行分析以得到由所述用户在所述应用中顺序使用的功能所组成的功能序列;对所述用户的功能序列中的每个功能的名称进行词嵌入处理,得到所述每个功能对应的向量;将所述功能序列中每个功能对应的向量顺序进行组合,得到对应所述用户的功能序列矩阵;对多个用户分别对应的功能序列矩阵进行聚类处理,得到每个功能序列矩阵对应的用户所属的类别。通过该发明,能够根据用户使用的功能序列对用户进行准确分类。
但是,这些用户分类方法通常需要花费很大代价设计、提取及处理所需数据且依赖特定的数据;应用于某种特定的业务场景,通用性不足。
发明内容
为了解决上述存在的技术问题,本发明提出了一种基于用户生成文本的无监督学习的用户分类方法及装置,不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。
本发明的技术方案是:
一种基于用户生成文本的无监督学习的用户分类方法,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户的特征值,得到用户特征向量;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
优选的技术方案中,所述步骤S01中包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
优选的技术方案中,所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值。
优选的技术方案中,使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量。
优选的技术方案中,使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数。
本发明还公开了一种基于用户生成文本的无监督学习的用户分类装置,包括:
文本表征向量生成模块,获取用户生成文本,生成文本表征向量;
第一聚类模块,使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
用户特征向量提取模块,计算用户的特征值,得到用户特征向量;
第二聚类模块,使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
优选的技术方案中,所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
优选的技术方案中,所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值。
优选的技术方案中,使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量。
优选的技术方案中,使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数。
与现有技术相比,本发明的优点是:
本发明基于用户生成文本(UGT)生成文本表征向量,并进行聚类,将得到的文本类别作为用户特征,计算量小,同时能保证一定的准确率。将用户生成文本在文本类内与对应的类中心的相似度,进行用户表征的确定,同样计算量小,并且能够较准确表征用户的特征。
本发明的方法不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。具有广泛的应用前景。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于用户生成文本的无监督学习的用户分类方法的流程图;
图2为本发明将用户特征从96维降维到2维后的用户分类结果示意图;
图3为本发明将用户特征从96维降维到3维后的用户分类结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,一种基于用户生成文本的无监督学习的用户分类方法,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果,将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户的特征值,得到用户特征向量;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
下面对每一步骤进行具体说明:
步骤S01中,可以通过爬虫程序获取用户生成文本,例如采用爬虫程序从优酷网站爬取电视剧的弹幕。
一、生成文本表征向量
BERT是一个强大的语言表征模型并已在大量的NLP任务中被证明具有state-of-the-art的效果。本发明先使用BERT获取生成文本的每个token(中文字或者英文词)对应的表征向量,然后对文本所有tokens的表征向量取平均并将结果向量作为文本表征向量。文本表征向量有768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每个STi通过公式1计算。由于每个token的表征向量都包含了上下文信息,因此文本表征向量就包含了整个文本的语义信息。
其中,NT表示tokens的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
二、文本聚类
使用无监督聚类算法对所有文本的文本表征向量进行聚类,得到文本聚类结果,将得到的文本聚类结果中的文本类别作为用户特征。每一个文本类别都代表了一种特征,不同的文本类别代表不同的特征。如果一个用户生成的文本属于某个文本类,则该用户具有该文本类的特征。本发明可以采用任意的无监督聚类算法,例如,K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。
三、用户特征提取
通过计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值Fi,用向量U=(F1,F2,F3,…,Fn)表示用户特征,对于欧式距离,使用公式2计算用户特征值;对于余弦相似度,使用公式3计算用户特征值。用户生成的某文本在文本类内与对应的类中心相似度越大,则该文本对用户特征的贡献越大。
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,/>表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数(即文本聚类个数),T是一个预设常量,不小于文本类内两个成员欧式距离的最大值。
四、用户特征聚类
使用无监督聚类算法对用户特征向量进行聚类,聚类结果即是用户分类结果。该无监督聚类算法可以为,K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。
下面以具体的实例进行说明:
该实施例采用爬虫程序从优酷网站爬取了2019年7月5日评分最高的5个电视剧的弹幕。由于本实施例将BERT支持的最大序列长度设置为32,故将长度超过30个字的弹幕删除。同时将非活跃用户的弹幕移除(即属于某用户的所有弹幕总数低于50)。最终供本实施例使用的弹幕信息如下表所示:
Item Result
弹幕数量 1,000,000
平均弹幕长度 8.7
弹幕生成者数量 6481
在Google colab(25.51GB RAM and 48.97GB disk)上使用预训练中文版BERT(chinese L-12H-768A-12)对所有弹幕生成tokens表征向量,然后通过取平均的方法计算每个弹幕的表征向量,每个弹幕的表征向量为768维,每个元素为float32类型。下表列出了BERT的使用配置。
使用了一种相似度可控的聚类算法SCC(SCC的使用配置如下表所示)在腾讯云服(64GB RAM)上将所有弹幕聚成了96个类别。每个类都具有很好的内聚性,类内任意成员间具有很好的相似度。
Item Value
优化机制 分片和压缩
最小类成员个数 1000
相似度度量 Euclidean距离
TSP 18
分片大小 4000
聚类顺序 从稠密到稀疏
基于弹幕聚类结果,设置公式2中的T为30,计算得到用户特征向量(矩阵)为6481行96列(即6481个用户,每个用户有96维特征)。本实例再次使用了相似度可控的聚类算法SCC对用户特征进行了聚类,使用设置如下表所示:
Item Value
优化机制 分片和压缩
最小类成员个数 50
相似度度量 Euclidean距离
TSP 11
分片大小 500
聚类顺序 从稠密到稀疏
将用户聚成了6类,每个类中任意两两用户都具有较强的相似性,下表列出了用户聚类结果。
采用主成分分析技术(PCA)将用户特征从96维降维到2维的用户分类结果,如图2所示。
采用主成分分析技术(PCA)将用户特征从96维降维到3维后的用户分类结果,如图3所示。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于用户生成文本的无监督学习的用户分类方法,其特征在于,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
所述步骤S01中包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为该文本的表征向量,文本表征向量用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户特征值,得到用户特征向量;
所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值;
使用欧式距离计算用户特征向量U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量;或者
使用余弦相似度计算用户特征向量U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
2.一种基于用户生成文本的无监督学习的用户分类装置,其特征在于,包括:
文本表征向量生成模块,获取用户生成文本,生成文本表征向量;
所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值;
第一聚类模块,使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
用户特征向量提取模块,计算用户的特征值,得到用户特征向量;
所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值;
使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量;或者
使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数;
第二聚类模块,使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
CN202010298884.9A 2020-04-16 2020-04-16 基于用户生成文本的无监督学习的用户分类方法及装置 Active CN111611376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298884.9A CN111611376B (zh) 2020-04-16 2020-04-16 基于用户生成文本的无监督学习的用户分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298884.9A CN111611376B (zh) 2020-04-16 2020-04-16 基于用户生成文本的无监督学习的用户分类方法及装置

Publications (2)

Publication Number Publication Date
CN111611376A CN111611376A (zh) 2020-09-01
CN111611376B true CN111611376B (zh) 2023-11-17

Family

ID=72199592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298884.9A Active CN111611376B (zh) 2020-04-16 2020-04-16 基于用户生成文本的无监督学习的用户分类方法及装置

Country Status (1)

Country Link
CN (1) CN111611376B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统
JP2020042330A (ja) * 2018-09-06 2020-03-19 株式会社リコー 情報処理装置、データ分類方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2678716C1 (ru) * 2017-12-11 2019-01-31 Общество с ограниченной ответственностью "Аби Продакшн" Использование автоэнкодеров для обучения классификаторов текстов на естественном языке

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
JP2020042330A (ja) * 2018-09-06 2020-03-19 株式会社リコー 情報処理装置、データ分類方法およびプログラム
CN109582782A (zh) * 2018-10-26 2019-04-05 杭州电子科技大学 一种基于用弱监督深度学习的文本聚类方法
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统

Also Published As

Publication number Publication date
CN111611376A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
US10354170B2 (en) Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus
US20180240036A1 (en) Automatic segmentation of a collection of user profiles
CN110738247B (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN109508453A (zh) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN110399895A (zh) 图像识别的方法和装置
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
CN107908642B (zh) 基于分布式平台的行业文本实体提取方法
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN109635647B (zh) 一种基于约束条件下的多图片多人脸的聚类方法
Wahlberg et al. Large scale continuous dating of medieval scribes using a combined image and language model
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN115393666A (zh) 图像分类中基于原型补全的小样本扩充方法及系统
CN108920451A (zh) 基于动态阈值和多分类器的文本情感分析方法
CN106295688B (zh) 一种基于稀疏均值的模糊聚类方法
CN111611376B (zh) 基于用户生成文本的无监督学习的用户分类方法及装置
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN115526173A (zh) 一种基于计算机信息技术的特征词提取方法及系统
CN110377845B (zh) 基于区间半监督lda的协同过滤推荐方法
CN115033689A (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN114003803A (zh) 一种社交平台上特定地域的媒体账号发现方法及系统
CN107092875B (zh) 一种新的场景识别方法
Vadivukarassi et al. A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant