CN115795040A - 一种用户画像分析方法及系统 - Google Patents

一种用户画像分析方法及系统 Download PDF

Info

Publication number
CN115795040A
CN115795040A CN202310094436.0A CN202310094436A CN115795040A CN 115795040 A CN115795040 A CN 115795040A CN 202310094436 A CN202310094436 A CN 202310094436A CN 115795040 A CN115795040 A CN 115795040A
Authority
CN
China
Prior art keywords
data
comment
enhancer
classification result
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310094436.0A
Other languages
English (en)
Other versions
CN115795040B (zh
Inventor
邓翼
谢丽菁
童颖
何以然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Junneville Information Technology Co ltd
Original Assignee
Chengdu Junneville Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Junneville Information Technology Co ltd filed Critical Chengdu Junneville Information Technology Co ltd
Priority to CN202310094436.0A priority Critical patent/CN115795040B/zh
Publication of CN115795040A publication Critical patent/CN115795040A/zh
Application granted granted Critical
Publication of CN115795040B publication Critical patent/CN115795040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户画像分析方法及系统,涉及计算机技术领域,本方法获取评论数据后,首先根据评论内容对所述评论数据进行分类,然后分别计算每一类评论数据对应的主题和情感清倾向,分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像,获得了用户最感兴趣且最受欢迎的主题,实现了用户喜好分布和倾向的直观展现,完成了粉丝用户画像的刻画,提取了粉丝类别特征并进行粉丝分类管理,向自媒体从业者提供了创作内容方向的指导,能够有效帮助自媒体从业者提高粉丝的转化率与留存率。

Description

一种用户画像分析方法及系统
技术领域
本发明涉及计算机技术领域,具体地,涉及一种用户画像分析方法及系统。
背景技术
当前互联网技术发展迅速,互联网已经成为了人类生活密不可分的一部分,基于互联网的自媒体行业逐渐代替了传统社交媒体的功能,具有优秀的信息获取和信息传播能力。目前,各类自媒体平台拥有极大的用户量,也吸引了越来越多的自媒体从业者入驻,但由于自媒体账户面向的用户量极大,自媒体从业新人通常难以全面了解粉丝或观众的喜好以及情绪变化,从而难以提高粉丝的转化率与留存率。现有用户画像技术通常为面向用户的技术,旨在解决内容推荐相关的问题,即在对用户画像时关注每个用户在媒体平台上的总体行为和爱好并进行刻画,通过用户画像向对应的用户推荐特定的内容,而不能面向内容提供者对粉丝进行分析,无法为自媒体从业者提供信息支持。因此,如何对自媒体账户对应的粉丝群体进行用户画像的刻画,提取粉丝类别特征并进行粉丝分类管理这一问题亟待解决。
发明内容
为了对自媒体账户对应的粉丝群体进行用户画像的刻画与分析,提取粉丝类别特征,实现粉丝分类管理,本发明提供了一种用户画像分析方法,所述用户画像分析方法包括以下步骤:
配置爬虫规则,根据所述爬虫规则下载评论数据,获得第一评论数据;
对所述第一评论数据进行分类,获得分类结果;
根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据,所述第一数据用于描述用户关注的主题;
根据所述分类结果分别计算每一类数据对应的情感倾向,获得第二数据,所述第二数据用于描述用户对主题的喜好;
分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
其中,本方法原理为:配置爬虫规则下载指定位置的评论数据后,首先根据评论内容对所述评论数据进行分类,获得分类结果;然后根据所述分类结果分别计算每一类数据对应的关键词,获得第一数据;根据分类结果分别计算每一类数据对应的情感倾向,获得第二数据;所述第一数据和所述第二数据分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像,通过分析所述第一数据和第二数据,能够获得用户最感兴趣且最受欢迎的主题,实现了用户喜好分布和倾向的直观展现,为自媒体从业者提供了创作内容方向的指导,能够有效帮助自媒体从业者提高粉丝的转化率与留存率。
进一步的,由于自媒体从业者发布的作品通常包括多个主题,且自媒体账户面向的用户包括粉丝群体和非粉丝群体,为了有针对性的获得用户喜好分布和倾向,因此,获得所述第一评论数据后,首先将所述第一评论数据存入本地数据库,然后确定分析范围,根据所述分析范围调用所述本地数据库中对应的数据,获得第二评论数据,其中,所述分析范围用于确定用户画像的分析目标,所述分析范围包括用户范围和作品范围。
进一步的,由于所述第一评论数据中包括用户对不同主题内容的观点,需要对所述第一评论数据分类,BERT(Bidirectional Encoder Representations fromTransformers)模型是一种自然语言处理框架,基于多个堆叠的Transformers模型实现,能够从目标文本的左右上下文中汲取信息,且BERT模型在包含25亿余字的无标签号文本语料库和8亿余字的图书语料库中进行了预训练,相比其余语言处理框架在预测准确性上有更好的表现,因此,对所述第一评论数据进行分类,获得分类结果的具体方法为:
建立BERT模型,根据所述BERT模型计算所述第一评论数据的特征向量,获得第三数据;
根据所述第三数据对所述第一评论数据进行分类,获得分类结果。
进一步的,由于所述第一评论数据为用户对某作品的评论,因此所述第一评论数据的数据量和数据分布情况通常是无法预期的,为了降低模型对数据量以及数据质量的依赖,使模型在小样本量的情况下同样能够准确的对评论数据进行分类计算,需要建立文本增强模型对所述第一评论数据进行增强,因此,获得所述第三数据后还包括以下步骤:
根据所述BERT模型对所述第一评论数据进行分词处理,获得第一词组;
根据所述第一词组建立同义词表,并根据所述同义词表建立同义替换增强器,所述同义词替换增强器通过根据所述同义词表对所述第一评论数据中的词语进行随机替换实现文本增强;
建立文本随机删除增强器,所述文本随机删除增强器通过对所述第一评论数据中的词语今次那个随机删除实现文本增强;
根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整,从而降低了所述BERT模型对数据量以及数据质量的依赖。
进一步的,根据所述同义词替换增强器和/或所述文本随机删除增强器对所述第一评论数据进行文本增强后获得的数据可能会与原始数据产生偏移,为了避免所述偏移过大影响模型分类的准确率,所述同义词替换增强器和所述文本随机删除增强器分别对应一个生效概率,其中,所述同义替换增强器对应生效概率为p1,所述文本随机删除增强器对应生效概率为p2,对于包含若干词组的文本而言,同义替换增强器对应的生效概率表示对该文本中每个词组,所述同义替换增强器有p1的概率对其进行同义替换;文本随机删除增强器对应的生效概率表示对该文本中每个词组,所述文本随机删除增强器有p2的概率将其删除,所述生效概率既保证了对文本的有效增强,又保证了增强后的文本与原文接近。
进一步的,由于所述同义替换增强器和所述随机删除增强器均以所述第一评论数据为基础,因此,相同的数据分别经过所述同义替换增强器和所述随机删除增强器处理,分别获得第一样本和第二样本后,模型对所述第一样本和所述第二样本的分类结果是相似的,因此,所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为:
将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器,分别获得第一样本和第二样本;
分别将所述第一样本和所述第二样本输入所述BERT模型中,分别获得第一特征向量和第二特征向量;
计算所述第一特征向量和所述第二特征向量的均方误差损失,获得所述第一评论数据的均方误差损失,根据所述均方误差损失更新所述BERT模型参数,调节所述BERT模型参数,所述均方误差损失达到最小即完成了对所述BERT模型的调整。
进一步的,由于所述第三数据为所述第一评论数据对应的特征向量,而向量空间中通常将相邻的特征向量归为同一类向量,因此,根据所述第三数据对所述第一评论数据进行分类即找到所述第三数据的若干聚类中心,根据聚类中心找到临近的特征向量,实现对所述第三数据进行分类,具体方法为:
步骤a:指定聚类类别数k,k为正整数,初始化所述第三数据中k个特征向量作为聚类中心,每个所述聚类中心分别对应一个类;
步骤b:分别计算所述第三数据和所述聚类中心的距离,将所述第三数据分类到距离最近的聚类中心所对应的类中;
步骤c:重新计算每个类的聚类中心;
步骤d:重复执行步骤b和步骤c,直至所述聚类中心和所述第三数据间的均方误差收敛。
进一步的,为了获得分类结果中每一类数据对应的关键词,且保证该关键词能够准确描述对应数据类别所属的主题,需要分别计算每一类数据中所有词组的特征值,将特征值最大的词组作为本类数据的关键词,因此,根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据的具体方法为:
遍历所述分类结果中第k类数据,k为正整数,所述第k类数据中包括i条评论,i为大于1的整数,分别提取所述i条评论中的词组,获得第二词组;
分别计算所述第二词组的特征得分;
其中,所述特征得分最大的词组为所述第k类数据对应的关键词,获得第一数据。
其中,计算第k类数据中所述第二词组的特征得分的方法为:
Figure SMS_1
其中,m表示第k类数据包含的评论总数,C表示词组j的特征得分,
Figure SMS_2
表示第条评论距离类中心的距离,
Figure SMS_3
表示第i条评论中词组j出现的频次,
Figure SMS_4
为第一评论数据中评论总数,
Figure SMS_5
为第一评论数据中出现词j的评论数量,将第i条评论距离类中心的距离作为计算该评论特征得分的权重,进一步保证了提取到的关键词在对应数据类中具有良好的代表性。
为实现上述目的,本发明还提供了一种用户画像分析系统,所述系统包括:
评论获取模块:用于配置爬虫规则,并根据所述爬虫规则下载评论数据,获得第一评论数据;
数据处理模块:用于对所述第一评论数据进行分类,获得分类结果;
特征提取模块:用于根据所述分类结果分别提取每一类数据对应的关键词和情感倾向,分别获得第一数据和第二数据,所述第一数据用于描述用户关注的主题,所述第二数据用于描述用户对主题的喜好;
粉丝聚类模块:用于分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
其中,本系统原理为:评论获取模块根据配置好的爬虫规则下载指定位置的评论数据后,首先通过数据处理模块对所述评论数据进行分类,获得分类结果,然后由特征提取模块分别提取每一类数据对应的关键词和对应的情感倾向,获得第一数据和第二数据,最后由粉丝聚类模块对所述第一数据和所述第二数据进行分析,分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像,实现了用户喜好分布和倾向的直观展现,完成了对用户画像的刻画,准确的获得了粉丝类别特征,实现了粉丝分类管理。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.通过对指定位置的评论数据进行分类计算,并提取每一类数据的关键词和情感倾向,分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像,直观的展现了用户喜好分布和倾向;
2.采用预训练的开源BERT模型,并通过文本增强器构建正例样本对所述BERT模型进行调整,保证了数据分类的准确性;
3.能够根据需要对爬取到的信息进行多方面的分析,通过确定用户范围和作品范围保证了对于用户画像分析的不同分析需求;
4.本发明在获取分类后数据关键词时,对传统TF-IDF算法进行了改进,将特征向量距离聚类重心的距离作为特征得分的权重,通过计算有效提高了关键词在类别中的代表性。
综上所述,本发明提供的一个或多个技术方案,通过对指定位置的评论数据进行下载和分析,对自媒体账户对应的粉丝群体的用户画像进行了刻画,准确获得了粉丝类别特征,实现了粉丝分类管理,具有良好的实用性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中用户画像分析方法的流程示意图;
图2是本发明中用户画像分析系统的结构示意图。
实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例一
请参考图1,本发明实施例一提供了一种用户画像分析方法,所述用户画像分析方法包括以下步骤:
配置爬虫规则,根据所述爬虫规则下载评论数据,获得第一评论数据;
对所述第一评论数据进行分类,获得分类结果;
根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据,所述第一数据用于描述用户关注的主题;
根据所述分类结果分别计算每一类数据对应的情感倾向,获得第二数据,所述第二数据用于描述用户对主题的喜好;
分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
其中,网络爬虫为自动从互联网中定向或不定向地采集信息的一种程序,所述配置爬虫规则即根据从信息采集目标确定URL(Uniform Resource Locator,统一资源定位符)从而定位互联网资源,根据URL爬取对应的内容并下载到本地;具体的,由于本方法旨在获得自媒体账户下的评论数据,因此,所述配置爬虫规则包括配置自媒体账户作品页对应的URL路径和自媒体账户每个作品对应的URL的路径,具体配置内容根据实际需要确定,本实施例在此不做限定。
具体的,在确定URL后,还需要在配置文件中配置用于提取评论的规则、用于提取评论所述的观众id的规则和用于判断评论所述的观众是否为粉丝的规则,爬取到数据后,将爬取到的每条评论组织成一个记录,所述记录包括作品id、评论者id、评论内容和评论者是否为粉丝。
其中,可以根据TF-IDF算法或TextRank算法对所述分类结果进行处理,分别提取每一类数据对应的关键词,获得第一数据,具体处理方法根据实际需要确定,本实施例在此不做限定。
其中,可以通过基于机器学习的算法或基于预训练模型的情感分析算法对所述分类结果进行处理,分别计算每一类数据对应的情感倾向,获得第二数据;其中,基于机器学习的算法包括但不限于朴素贝叶斯算法、SVM算法和KNN算法,所述基于预训练模型的情感分析算法包括但不限于BERT算法和SCARN算法;具体算法的选择根据实际需要确定,本实施例在此不做具体限定。
其中,在本实施例中,获得所述第一评论数据后,首先将所述第一评论数据存入本地数据库,然后确定分析范围,根据所述分析范围调用所述本地数据库中对应的数据,获得第二评论数据,其中,所述分析范围用于确定用户画像的分析目标。
其中,所述分析范围包括用户范围和作品范围,具体的,所述分析范围可以为单个作者的多个作品、单个作者的单个作品或多个作者的多个作品。
其中,在本实施例中,对所述第一评论数据进行分类,获得分类结果的具体方法为:
建立BERT模型,根据所述BERT模型计算所述第一评论数据的特征向量,获得第三数据;
根据所述第三数据对所述第一评论数据进行分类,获得分类结果。
其中,在本实施例中,获得所述第三数据后还包括以下步骤:
根据所述BERT模型对所述第一评论数据进行分词处理,获得第一词组;
根据所述第一词组建立同义词表,并根据所述同义词表建立同义替换增强器;
建立文本随机删除增强器;
根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整。
其中,可以基于开源的同义词数据库或手动根据所述第一词组建立同义词表,即手动或基于开源的同义词数据库将与所述第一词组中含义相近的词进行整合,获得同义词表,所述同义词表的具体建立方法根据实际需要确定,本实施例在此不做具体限定。
可以理解,所述同义替换增强器根据所述同义词表,将所述第一评论数据中的一个或多个词语随机替换为含义相近的词语,从而实现对数据的增强;所述文本随机删除增强器随机将所述第一评论数据中的一个或多个词语进行删除,从而实现对数据的增强。
其中,在本实施例中,所述同义替换增强器对应生效概率为p1,所述文本随机删除增强器对应生效概率为p2
其中,所述同义替换增强器对应的生效概率p1和所述文本随机删除增强器对应的生效概率p2的具体大小根据实际需要确定,本实施例在此不做具体限定。
其中,在本实施例中,所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为:
将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器,分别获得第一样本和第二样本;
分别将所述第一样本和所述第二样本输入所述BERT模型中,分别获得第一特征向量和第二特征向量;
计算所述第一特征向量和所述第二特征向量的均方误差,获得所述第一评论数据的均方误差损失,根据所述均方误差损失更新所述BERT模型参数。
其中,所述均方误差损失的计算方法为:
Figure SMS_6
其中,n为所述第一评论数据包含的评论数,
Figure SMS_7
表示第i条评论对应的第一特征向量,
Figure SMS_8
表示第i条评论对应的第二特征向量,
Figure SMS_9
表示所述第一特征向量和所述第二特特征向量的均方误差,
Figure SMS_10
表示所述第一评论数据的均方误差损失,调节所述BERT模型参数,所述均方误差损失达到最小即完成了对所述BERT模型的调整。
实施例二
请参考图1,本发明实施例二提供了一种用户画像分析方法,在实施例一的基础上,根据所述第三数据对所述第一评论数据进行分类的具体方法为:
步骤a:指定聚类类别数k,k为正整数,初始化所述第三数据中k个特征向量作为聚类中心,每个所述聚类中心分别对应一个类;
步骤b:分别计算所述第三数据和所述聚类中心的距离,将所述第三数据分类到距离最近的聚类中心所对应的类中;
步骤c:重新计算每个类的聚类中心;
步骤d:重复执行步骤b和步骤c,直至所述聚类中心和所述第三数据间的均方误差收敛。
具体的,分别将每条评论数据输入所述BERT模型,获得第三数据;
指定聚类类别数k,k为正整数,初始化所述第三数据中k个特征向量作为聚类中心:
Figure SMS_11
分别计算每条评论对应的特征向量到k个聚类中心的距离,并将其分到距离最小的聚类中心所对应的类中,距离计算方法为:
Figure SMS_12
其中,c1,c2为所述第三数据中任意两个特征向量,w1是特征向量c1对应的分词结果,w2是特征向量c2对应的分词结果,
Figure SMS_13
为w1和w2的交集,
Figure SMS_14
表示c1和c2的余弦相似度,
Figure SMS_15
为是调整两部分距离度量方式贡献的权重系数;
根据分类结果重新计算k类数据的聚类中心,并根据更新后的聚类中心对所述第三数据进行分类,持续迭代直至更新后的聚类中心和所述第三数据间的均方误差收敛。
其中,在本实施例中,根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据的具体方法为:
遍历所述分类结果中第k类数据,k为整数,所述第k类数据中包括i条评论,i为大于1的整数,分别提取所述i条评论中的词组,获得第二词组;
分别计算所述第二词组的特征得分;
其中,所述特征得分最大的词组为所述第k类数据对应的关键词,获得第一数据。
其中,在本实施例中,计算第k类数据中所述第二词组的特征得分的方法为:
Figure SMS_16
其中,m表示第k类数据包含的评论总数,C表示词组j的特征得分,
Figure SMS_17
表示第i条评论距离类中心的距离,
Figure SMS_18
表示第i条评论中词组j出现的频次,
Figure SMS_19
为第一评论数据中评论总数,
Figure SMS_20
为第一评论数据中出现词j的评论数量。
实施例三
请参考图2,本发明实施例三提供了一种用户画像分析系统,所述系统用于实现上述用户画像分析方法的步骤,具体的,所述系统包括:
评论获取模块:用于配置爬虫规则,并根据所述爬虫规则下载评论数据,获得第一评论数据;
数据处理模块:用于对所述第一评论数据进行分类,获得分类结果;
特征提取模块:用于根据所述分类结果分别提取每一类数据对应的关键词和情感倾向,分别获得第一数据和第二数据,所述第一数据用于描述用户关注的主题,所述第二数据用于描述用户对主题的喜好;
粉丝聚类模块:用于分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
其中,所述评论获取模块通过网络爬虫技术在互联网指定位置下载评论数据,所述互联网指定位置根据实际需要确定,本实施例在此不作具体限定;所述网络爬虫技术可以为主题网络爬虫、链接评价爬虫、内容评价爬虫或通用爬虫,具体技术种类根据实际需要确定,本实施例在此不做具体限定。其中,在本实施例中,评论获取模块根据配置好的爬虫规则下载指定位置的评论数据后,首先通过数据处理模块对所述评论数据进行分类,获得分类结果,然后由特征提取模块分别提取每一类数据对应的关键词和对应的情感倾向,获得第一数据和第二数据,最后由粉丝聚类模块对所述第一数据和所述第二数据进行分析,分别从用户关注的主题和用户对主题的情感倾向两个维度刻画了用户画像,准确的提取了粉丝类别特征,实现了粉丝分类管理。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用户画像分析方法,其特征在于,所述用户画像分析方法包括以下步骤:
配置爬虫规则,根据所述爬虫规则下载评论数据,获得第一评论数据;
对所述第一评论数据进行分类,获得分类结果;
根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据,所述第一数据用于描述用户关注的主题;
根据所述分类结果分别计算每一类数据对应的情感倾向,获得第二数据,所述第二数据用于描述用户对主题的喜好;
分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
2.根据权利要求1所述的一种用户画像分析方法,其特征在于,获得所述第一评论数据后,首先将所述第一评论数据存入本地数据库,然后确定分析范围,根据所述分析范围调用所述本地数据库中对应的数据,获得第二评论数据,其中,所述分析范围用于确定用户画像的分析目标,所述分析范围包括用户范围和作品范围。
3.根据权利要求1所述的一种用户画像分析方法,其特征在于,对所述第一评论数据进行分类,获得分类结果具体为:
建立BERT模型,根据所述BERT模型计算所述第一评论数据的特征向量,获得第三数据;
根据所述第三数据对所述第一评论数据进行分类,获得分类结果。
4.根据权利要求3所述的一种用户画像分析方法,其特征在于,获得所述第三数据后还包括以下步骤:
根据所述BERT模型对所述第一评论数据进行分词处理,获得第一词组;
根据所述第一词组建立同义词表,并根据所述同义词表建立同义替换增强器;
建立文本随机删除增强器;
根据所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整。
5.根据权利要求4所述的一种用户画像分析方法,其特征在于,所述同义替换增强器对应生效概率为p1,所述文本随机删除增强器对应生效概率为p2
6.根据权利要求4所述的一种用户画像分析方法,其特征在于,所述同义替换增强器和所述随机删除增强器对所述BERT模型进行调整的具体方法为:
将所述第一评论数据分别输入所述同义替换增强器和所述随机删除增强器,分别获得第一样本和第二样本;
分别将所述第一样本和所述第二样本输入所述BERT模型中,分别获得第一特征向量和第二特征向量;
计算所述第一特征向量和所述第二特征向量的均方误差损失,获得所述第一评论数据的均方误差损失,根据所述均方误差损失更新所述BERT模型参数。
7.根据权利要求3所述的一种用户画像分析方法,其特征在于,根据所述第三数据对所述第一评论数据进行分类的具体方法为:
步骤a:指定聚类类别数k,k为正整数,初始化所述第三数据中k个特征向量作为聚类中心,每个所述聚类中心分别对应一个类;
步骤b:分别计算所述第三数据和所述聚类中心的距离,将所述第三数据分类到距离最近的聚类中心所对应的类中;
步骤c:重新计算每个类的聚类中心;
步骤d:重复执行步骤b和步骤c,直至所述聚类中心和所述第三数据间的均方误差收敛。
8.根据权利要求7所述的一种用户画像分析方法,其特征在于,根据所述分类结果分别提取每一类数据对应的关键词,获得第一数据的具体方法为:
遍历所述分类结果中第k类数据,所述第k类数据中包括i条评论,i为大于1的整数,分别提取所述i条评论中的词组,获得第二词组;
分别计算所述第二词组的特征得分;
其中,所述特征得分最大的词组为所述第k类数据对应的关键词,获得第一数据。
9.根据权利要求8所述的一种用户画像分析方法,其特征在于,计算第k类数据中所述第二词组的特征得分的方法为:
Figure QLYQS_1
其中,m表示第k类数据包含的评论总数,C表示词组j的特征得分,
Figure QLYQS_2
表示第条评论距离类中心的距离,
Figure QLYQS_3
表示第i条评论中词组j出现的频次,
Figure QLYQS_4
为第一评论数据中评论总数,
Figure QLYQS_5
为第一评论数据中出现词j的评论数量。
10.一种用户画像分析系统,其特征在于,所述系统包括:
评论获取模块:用于配置爬虫规则,并根据所述爬虫规则下载评论数据,获得第一评论数据;
数据处理模块:用于对所述第一评论数据进行分类,获得分类结果;
特征提取模块:用于根据所述分类结果分别提取每一类数据对应的关键词和情感倾向,分别获得第一数据和第二数据,所述第一数据用于描述用户关注的主题,所述第二数据用于描述用户对主题的喜好;
粉丝聚类模块:用于分析所述第一数据和所述第二数据,获得用户喜好分布和倾向。
CN202310094436.0A 2023-02-10 2023-02-10 一种用户画像分析方法及系统 Active CN115795040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310094436.0A CN115795040B (zh) 2023-02-10 2023-02-10 一种用户画像分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310094436.0A CN115795040B (zh) 2023-02-10 2023-02-10 一种用户画像分析方法及系统

Publications (2)

Publication Number Publication Date
CN115795040A true CN115795040A (zh) 2023-03-14
CN115795040B CN115795040B (zh) 2023-05-05

Family

ID=85430763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310094436.0A Active CN115795040B (zh) 2023-02-10 2023-02-10 一种用户画像分析方法及系统

Country Status (1)

Country Link
CN (1) CN115795040B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111061962A (zh) * 2019-11-25 2020-04-24 上海海事大学 一种基于用户评分分析的推荐方法
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112651768A (zh) * 2020-12-04 2021-04-13 苏州黑云智能科技有限公司 基于区块链的电商分析方法及系统
US20220129621A1 (en) * 2020-10-26 2022-04-28 Adobe Inc. Bert-based machine-learning tool for predicting emotional response to text
WO2022116441A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
CN114676257A (zh) * 2022-03-30 2022-06-28 北京三快在线科技有限公司 一种对话主题确定方法及装置
CN115392259A (zh) * 2022-10-27 2022-11-25 暨南大学 一种基于对抗训练融合bert的微博文本情感分析方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111061962A (zh) * 2019-11-25 2020-04-24 上海海事大学 一种基于用户评分分析的推荐方法
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
US20220129621A1 (en) * 2020-10-26 2022-04-28 Adobe Inc. Bert-based machine-learning tool for predicting emotional response to text
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
WO2022116441A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
CN112651768A (zh) * 2020-12-04 2021-04-13 苏州黑云智能科技有限公司 基于区块链的电商分析方法及系统
CN114676257A (zh) * 2022-03-30 2022-06-28 北京三快在线科技有限公司 一种对话主题确定方法及装置
CN115392259A (zh) * 2022-10-27 2022-11-25 暨南大学 一种基于对抗训练融合bert的微博文本情感分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANILO VUCETIC 等: "Efficient Fine-Tuning of BERT Models on the Edge", 《2022 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS)》 *
郝丁魁: "基于模式自动归纳的开放域事件抽取关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN115795040B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US11182564B2 (en) Text recommendation method and apparatus, and electronic device
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108073568B (zh) 关键词提取方法和装置
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
US9720904B2 (en) Generating training data for disambiguation
WO2017097231A1 (zh) 话题处理方法及装置
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US9361377B1 (en) Classifier for classifying digital items
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN110147425B (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN107506472B (zh) 一种学生浏览网页分类方法
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN116935169A (zh) 文生图模型训练方法以及文生图方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
WO2019139727A1 (en) Accuracy determination for media
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant