CN115795040A

CN115795040A - 一种用户画像分析方法及系统

Info

Publication number: CN115795040A
Application number: CN202310094436.0A
Authority: CN
Inventors: 邓翼; 谢丽菁; 童颖; 何以然
Original assignee: Chengdu Junneville Information Technology Co ltd
Current assignee: Chengdu Junneville Information Technology Co ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-03-14
Anticipated expiration: 2043-02-10
Also published as: CN115795040B

Abstract

本发明公开了一种用户画像分析方法及系统，涉及计算机技术领域，本方法获取评论数据后，首先根据评论内容对所述评论数据进行分类，然后分别计算每一类评论数据对应的主题和情感清倾向，分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像，获得了用户最感兴趣且最受欢迎的主题，实现了用户喜好分布和倾向的直观展现，完成了粉丝用户画像的刻画，提取了粉丝类别特征并进行粉丝分类管理，向自媒体从业者提供了创作内容方向的指导，能够有效帮助自媒体从业者提高粉丝的转化率与留存率。

Description

一种用户画像分析方法及系统

技术领域

本发明涉及计算机技术领域，具体地，涉及一种用户画像分析方法及系统。

背景技术

当前互联网技术发展迅速，互联网已经成为了人类生活密不可分的一部分，基于互联网的自媒体行业逐渐代替了传统社交媒体的功能，具有优秀的信息获取和信息传播能力。目前，各类自媒体平台拥有极大的用户量，也吸引了越来越多的自媒体从业者入驻，但由于自媒体账户面向的用户量极大，自媒体从业新人通常难以全面了解粉丝或观众的喜好以及情绪变化，从而难以提高粉丝的转化率与留存率。现有用户画像技术通常为面向用户的技术，旨在解决内容推荐相关的问题，即在对用户画像时关注每个用户在媒体平台上的总体行为和爱好并进行刻画，通过用户画像向对应的用户推荐特定的内容，而不能面向内容提供者对粉丝进行分析，无法为自媒体从业者提供信息支持。因此，如何对自媒体账户对应的粉丝群体进行用户画像的刻画，提取粉丝类别特征并进行粉丝分类管理这一问题亟待解决。

发明内容

为了对自媒体账户对应的粉丝群体进行用户画像的刻画与分析，提取粉丝类别特征，实现粉丝分类管理，本发明提供了一种用户画像分析方法，所述用户画像分析方法包括以下步骤：

配置爬虫规则，根据所述爬虫规则下载评论数据，获得第一评论数据；

对所述第一评论数据进行分类，获得分类结果；

根据所述分类结果分别提取每一类数据对应的关键词，获得第一数据，所述第一数据用于描述用户关注的主题；

根据所述分类结果分别计算每一类数据对应的情感倾向，获得第二数据，所述第二数据用于描述用户对主题的喜好；

分析所述第一数据和所述第二数据，获得用户喜好分布和倾向。

其中，本方法原理为：配置爬虫规则下载指定位置的评论数据后，首先根据评论内容对所述评论数据进行分类，获得分类结果；然后根据所述分类结果分别计算每一类数据对应的关键词，获得第一数据；根据分类结果分别计算每一类数据对应的情感倾向，获得第二数据；所述第一数据和所述第二数据分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像，通过分析所述第一数据和第二数据，能够获得用户最感兴趣且最受欢迎的主题，实现了用户喜好分布和倾向的直观展现，为自媒体从业者提供了创作内容方向的指导，能够有效帮助自媒体从业者提高粉丝的转化率与留存率。

进一步的，由于自媒体从业者发布的作品通常包括多个主题，且自媒体账户面向的用户包括粉丝群体和非粉丝群体，为了有针对性的获得用户喜好分布和倾向，因此，获得所述第一评论数据后，首先将所述第一评论数据存入本地数据库，然后确定分析范围，根据所述分析范围调用所述本地数据库中对应的数据，获得第二评论数据，其中，所述分析范围用于确定用户画像的分析目标，所述分析范围包括用户范围和作品范围。

进一步的，由于所述第一评论数据中包括用户对不同主题内容的观点，需要对所述第一评论数据分类，BERT（Bidirectional Encoder Representations fromTransformers）模型是一种自然语言处理框架，基于多个堆叠的Transformers模型实现，能够从目标文本的左右上下文中汲取信息，且BERT模型在包含25亿余字的无标签号文本语料库和8亿余字的图书语料库中进行了预训练，相比其余语言处理框架在预测准确性上有更好的表现，因此，对所述第一评论数据进行分类，获得分类结果的具体方法为：

建立BERT模型，根据所述BERT模型计算所述第一评论数据的特征向量，获得第三数据；

根据所述第三数据对所述第一评论数据进行分类，获得分类结果。

进一步的，由于所述第一评论数据为用户对某作品的评论，因此所述第一评论数据的数据量和数据分布情况通常是无法预期的，为了降低模型对数据量以及数据质量的依赖，使模型在小样本量的情况下同样能够准确的对评论数据进行分类计算，需要建立文本增强模型对所述第一评论数据进行增强，因此，获得所述第三数据后还包括以下步骤：

根据所述BERT模型对所述第一评论数据进行分词处理，获得第一词组；

根据所述第一词组建立同义词表，并根据所述同义词表建立同义替换增强器，所述同义词替换增强器通过根据所述同义词表对所述第一评论数据中的词语进行随机替换实现文本增强；

建立文本随机删除增强器，所述文本随机删除增强器通过对所述第一评论数据中的词语今次那个随机删除实现文本增强；

根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整，从而降低了所述BERT模型对数据量以及数据质量的依赖。

进一步的，根据所述同义词替换增强器和/或所述文本随机删除增强器对所述第一评论数据进行文本增强后获得的数据可能会与原始数据产生偏移，为了避免所述偏移过大影响模型分类的准确率，所述同义词替换增强器和所述文本随机删除增强器分别对应一个生效概率，其中，所述同义替换增强器对应生效概率为p₁，所述文本随机删除增强器对应生效概率为p₂，对于包含若干词组的文本而言，同义替换增强器对应的生效概率表示对该文本中每个词组，所述同义替换增强器有p₁的概率对其进行同义替换；文本随机删除增强器对应的生效概率表示对该文本中每个词组，所述文本随机删除增强器有p₂的概率将其删除，所述生效概率既保证了对文本的有效增强，又保证了增强后的文本与原文接近。

进一步的，由于所述同义替换增强器和所述随机删除增强器均以所述第一评论数据为基础，因此，相同的数据分别经过所述同义替换增强器和所述随机删除增强器处理，分别获得第一样本和第二样本后，模型对所述第一样本和所述第二样本的分类结果是相似的，因此，所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为：

将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器，分别获得第一样本和第二样本；

分别将所述第一样本和所述第二样本输入所述BERT模型中，分别获得第一特征向量和第二特征向量；

计算所述第一特征向量和所述第二特征向量的均方误差损失，获得所述第一评论数据的均方误差损失，根据所述均方误差损失更新所述BERT模型参数，调节所述BERT模型参数，所述均方误差损失达到最小即完成了对所述BERT模型的调整。

进一步的，由于所述第三数据为所述第一评论数据对应的特征向量，而向量空间中通常将相邻的特征向量归为同一类向量，因此，根据所述第三数据对所述第一评论数据进行分类即找到所述第三数据的若干聚类中心，根据聚类中心找到临近的特征向量，实现对所述第三数据进行分类，具体方法为：

步骤a：指定聚类类别数k，k为正整数，初始化所述第三数据中k个特征向量作为聚类中心，每个所述聚类中心分别对应一个类；

步骤b：分别计算所述第三数据和所述聚类中心的距离，将所述第三数据分类到距离最近的聚类中心所对应的类中；

步骤c：重新计算每个类的聚类中心；

步骤d：重复执行步骤b和步骤c，直至所述聚类中心和所述第三数据间的均方误差收敛。

进一步的，为了获得分类结果中每一类数据对应的关键词，且保证该关键词能够准确描述对应数据类别所属的主题，需要分别计算每一类数据中所有词组的特征值，将特征值最大的词组作为本类数据的关键词，因此，根据所述分类结果分别提取每一类数据对应的关键词，获得第一数据的具体方法为：

遍历所述分类结果中第k类数据，k为正整数，所述第k类数据中包括i条评论，i为大于1的整数，分别提取所述i条评论中的词组，获得第二词组；

分别计算所述第二词组的特征得分；

其中，所述特征得分最大的词组为所述第k类数据对应的关键词，获得第一数据。

其中，计算第k类数据中所述第二词组的特征得分的方法为：

其中，m表示第k类数据包含的评论总数，C表示词组j的特征得分，

表示第条评论距离类中心的距离，

表示第i条评论中词组j出现的频次，

为第一评论数据中评论总数，

为第一评论数据中出现词j的评论数量，将第i条评论距离类中心的距离作为计算该评论特征得分的权重，进一步保证了提取到的关键词在对应数据类中具有良好的代表性。

为实现上述目的，本发明还提供了一种用户画像分析系统，所述系统包括：

评论获取模块：用于配置爬虫规则，并根据所述爬虫规则下载评论数据，获得第一评论数据；

数据处理模块：用于对所述第一评论数据进行分类，获得分类结果；

特征提取模块：用于根据所述分类结果分别提取每一类数据对应的关键词和情感倾向，分别获得第一数据和第二数据，所述第一数据用于描述用户关注的主题，所述第二数据用于描述用户对主题的喜好；

粉丝聚类模块：用于分析所述第一数据和所述第二数据，获得用户喜好分布和倾向。

其中，本系统原理为：评论获取模块根据配置好的爬虫规则下载指定位置的评论数据后，首先通过数据处理模块对所述评论数据进行分类，获得分类结果，然后由特征提取模块分别提取每一类数据对应的关键词和对应的情感倾向，获得第一数据和第二数据，最后由粉丝聚类模块对所述第一数据和所述第二数据进行分析，分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像，实现了用户喜好分布和倾向的直观展现，完成了对用户画像的刻画，准确的获得了粉丝类别特征，实现了粉丝分类管理。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

1.通过对指定位置的评论数据进行分类计算，并提取每一类数据的关键词和情感倾向，分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像，直观的展现了用户喜好分布和倾向；

2.采用预训练的开源BERT模型，并通过文本增强器构建正例样本对所述BERT模型进行调整，保证了数据分类的准确性；

3.能够根据需要对爬取到的信息进行多方面的分析，通过确定用户范围和作品范围保证了对于用户画像分析的不同分析需求；

4.本发明在获取分类后数据关键词时，对传统TF-IDF算法进行了改进，将特征向量距离聚类重心的距离作为特征得分的权重，通过计算有效提高了关键词在类别中的代表性。

综上所述，本发明提供的一个或多个技术方案，通过对指定位置的评论数据进行下载和分析，对自媒体账户对应的粉丝群体的用户画像进行了刻画，准确获得了粉丝类别特征，实现了粉丝分类管理，具有良好的实用性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中用户画像分析方法的流程示意图；

图2是本发明中用户画像分析系统的结构示意图。

实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

请参考图1，本发明实施例一提供了一种用户画像分析方法，所述用户画像分析方法包括以下步骤：

对所述第一评论数据进行分类，获得分类结果；

其中，网络爬虫为自动从互联网中定向或不定向地采集信息的一种程序，所述配置爬虫规则即根据从信息采集目标确定URL（Uniform Resource Locator，统一资源定位符）从而定位互联网资源，根据URL爬取对应的内容并下载到本地；具体的，由于本方法旨在获得自媒体账户下的评论数据，因此，所述配置爬虫规则包括配置自媒体账户作品页对应的URL路径和自媒体账户每个作品对应的URL的路径，具体配置内容根据实际需要确定，本实施例在此不做限定。

具体的，在确定URL后，还需要在配置文件中配置用于提取评论的规则、用于提取评论所述的观众id的规则和用于判断评论所述的观众是否为粉丝的规则，爬取到数据后，将爬取到的每条评论组织成一个记录，所述记录包括作品id、评论者id、评论内容和评论者是否为粉丝。

其中，可以根据TF-IDF算法或TextRank算法对所述分类结果进行处理，分别提取每一类数据对应的关键词，获得第一数据，具体处理方法根据实际需要确定，本实施例在此不做限定。

其中，可以通过基于机器学习的算法或基于预训练模型的情感分析算法对所述分类结果进行处理，分别计算每一类数据对应的情感倾向，获得第二数据；其中，基于机器学习的算法包括但不限于朴素贝叶斯算法、SVM算法和KNN算法，所述基于预训练模型的情感分析算法包括但不限于BERT算法和SCARN算法；具体算法的选择根据实际需要确定，本实施例在此不做具体限定。

其中，在本实施例中，获得所述第一评论数据后，首先将所述第一评论数据存入本地数据库，然后确定分析范围，根据所述分析范围调用所述本地数据库中对应的数据，获得第二评论数据，其中，所述分析范围用于确定用户画像的分析目标。

其中，所述分析范围包括用户范围和作品范围，具体的，所述分析范围可以为单个作者的多个作品、单个作者的单个作品或多个作者的多个作品。

其中，在本实施例中，对所述第一评论数据进行分类，获得分类结果的具体方法为：

其中，在本实施例中，获得所述第三数据后还包括以下步骤：

根据所述第一词组建立同义词表，并根据所述同义词表建立同义替换增强器；

建立文本随机删除增强器；

根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整。

其中，可以基于开源的同义词数据库或手动根据所述第一词组建立同义词表，即手动或基于开源的同义词数据库将与所述第一词组中含义相近的词进行整合，获得同义词表，所述同义词表的具体建立方法根据实际需要确定，本实施例在此不做具体限定。

可以理解，所述同义替换增强器根据所述同义词表，将所述第一评论数据中的一个或多个词语随机替换为含义相近的词语，从而实现对数据的增强；所述文本随机删除增强器随机将所述第一评论数据中的一个或多个词语进行删除，从而实现对数据的增强。

其中，在本实施例中，所述同义替换增强器对应生效概率为p₁，所述文本随机删除增强器对应生效概率为p₂。

其中，所述同义替换增强器对应的生效概率p₁和所述文本随机删除增强器对应的生效概率p₂的具体大小根据实际需要确定，本实施例在此不做具体限定。

其中，在本实施例中，所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为：

计算所述第一特征向量和所述第二特征向量的均方误差，获得所述第一评论数据的均方误差损失，根据所述均方误差损失更新所述BERT模型参数。

其中，所述均方误差损失的计算方法为：

其中，n为所述第一评论数据包含的评论数，

表示第i条评论对应的第一特征向量，

表示第i条评论对应的第二特征向量，

表示所述第一特征向量和所述第二特特征向量的均方误差，

表示所述第一评论数据的均方误差损失，调节所述BERT模型参数，所述均方误差损失达到最小即完成了对所述BERT模型的调整。

实施例二

请参考图1，本发明实施例二提供了一种用户画像分析方法，在实施例一的基础上，根据所述第三数据对所述第一评论数据进行分类的具体方法为：

步骤c：重新计算每个类的聚类中心；

具体的，分别将每条评论数据输入所述BERT模型，获得第三数据；

指定聚类类别数k，k为正整数，初始化所述第三数据中k个特征向量作为聚类中心：

；

分别计算每条评论对应的特征向量到k个聚类中心的距离，并将其分到距离最小的聚类中心所对应的类中，距离计算方法为：

其中，c1，c2为所述第三数据中任意两个特征向量，w1是特征向量c1对应的分词结果，w2是特征向量c2对应的分词结果，

为w1和w2的交集，

表示c1和c2的余弦相似度，

为是调整两部分距离度量方式贡献的权重系数；

根据分类结果重新计算k类数据的聚类中心，并根据更新后的聚类中心对所述第三数据进行分类，持续迭代直至更新后的聚类中心和所述第三数据间的均方误差收敛。

其中，在本实施例中，根据所述分类结果分别提取每一类数据对应的关键词，获得第一数据的具体方法为：

遍历所述分类结果中第k类数据，k为整数，所述第k类数据中包括i条评论，i为大于1的整数，分别提取所述i条评论中的词组，获得第二词组；

分别计算所述第二词组的特征得分；

其中，在本实施例中，计算第k类数据中所述第二词组的特征得分的方法为：

表示第i条评论距离类中心的距离，

表示第i条评论中词组j出现的频次，

为第一评论数据中评论总数，

为第一评论数据中出现词j的评论数量。

实施例三

请参考图2，本发明实施例三提供了一种用户画像分析系统，所述系统用于实现上述用户画像分析方法的步骤，具体的，所述系统包括：

其中，所述评论获取模块通过网络爬虫技术在互联网指定位置下载评论数据，所述互联网指定位置根据实际需要确定，本实施例在此不作具体限定；所述网络爬虫技术可以为主题网络爬虫、链接评价爬虫、内容评价爬虫或通用爬虫，具体技术种类根据实际需要确定，本实施例在此不做具体限定。其中，在本实施例中，评论获取模块根据配置好的爬虫规则下载指定位置的评论数据后，首先通过数据处理模块对所述评论数据进行分类，获得分类结果，然后由特征提取模块分别提取每一类数据对应的关键词和对应的情感倾向，获得第一数据和第二数据，最后由粉丝聚类模块对所述第一数据和所述第二数据进行分析，分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像，准确的提取了粉丝类别特征，实现了粉丝分类管理。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。