CN116401456A - 一种画像方法、系统、设备及存储介质 - Google Patents
一种画像方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116401456A CN116401456A CN202310396098.6A CN202310396098A CN116401456A CN 116401456 A CN116401456 A CN 116401456A CN 202310396098 A CN202310396098 A CN 202310396098A CN 116401456 A CN116401456 A CN 116401456A
- Authority
- CN
- China
- Prior art keywords
- community
- portrait
- data
- user
- portrayal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000005516 engineering process Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000013079 data visualisation Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 20
- 230000003993 interaction Effects 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000007418 data mining Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013480 data collection Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000003012 network analysis Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035755 proliferation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开实施例公开一种画像方法、系统、设备及存储介质,所述方法包括:从各类社交网络或数据平台中获取用户数据;根据不同的用户数据,划分形成显式社区和隐式社区;基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。本公开的示例性实施例,对各类社区数据实时、综合建模,构建了全景式动态社区画像;另一方面,为语义搜索、智能问答、推荐系统、数据可视化、大数据分析与决策等应用提供数据支撑;再一方面,通过丰富社区节点语义信息来指导精准社区发现,以及将社区画像在推荐服务中的应用进一步泛化,用于支持更加复杂的辅助决策、寻求潜在合作等知识服务。
Description
技术领域
本公开实施例涉及大数据技术领域,具体涉及一种画像方法、系统、设备及存储介质。
背景技术
社会治理的精准化应以社区治理的精准化为基点,利用大数据技术等从不同维度分析社区居民的群体特征,构建社区画像模型。
图1为现有技术中的画像方法流程图,如图1所示,现有技术中,构建用户画像模型的大致步骤可以分为数据收集、数据预处理和用户画像建模。数据收集部分根据需要解决的问题选择相对应的数据;数据预处理是对收集到的数据进行特征提取,如文本数据对其进行分词、去停用词、统计词频等操作;用户画像建模是基于处理后的数据特征构建用户画像模型,以抽取出用户的兴趣点。
数据收集:
收集的数据内容可以有多种类型,1)用户基本属性信息,其中包含了注册时提供的基本信息,如年龄、性别、婚姻状况、教育程度等;2)浏览行为信息,收集用户的行为习惯信息,如用户购买过哪些产品、浏览过哪些网页、浏览时间长短以及在网页上点击、收藏等操作信息;3)用户资源相关属性,例如,如果推荐的是电子商务产品,则可以通过用户对产品的评价信息进行关联计算;4)用户的服务需求,指用户请求的服务,如查询操作等。
综合以上内容,数据收集最初是采用用户在注册时的基本信息以及用户为自己贴上的标签等。这些信息较为基础,并且并不一定能够保持准确性。于是希望通过用户的行为来获得信息,收集用户的隐式反馈即观察和跟踪用户的行为习惯,如用户购买过哪些产品、浏览过哪些网页、浏览时间长短以及对事件的态度,是否点赞、转发等。基于社交网络的发展,用户更加频繁地与朋友互动,社交关系也逐渐被用于一种输入数据,用于识别关系圈或是寻找相似的用户。采用以上数据来为用户建模还不够全面,由于近几年互联网的发展以及智能手机的普及,越来越多的用户用照片、语音和小视频结合着文本来表达自己的想法。于是数据源又有了新类型,已不再满足于已有的标记好的属性,而是从文本、图片或者视频等多媒体中去挖掘属性来标记用户。现在数据收集方面的挑战及热点主要是如何结合多种数据类型准确挖掘用户的属性以及如何做到跨平台地进行用户建模。
数据预处理:
由于真实世界中的数据来源复杂、体积巨大,往往难以避免地存在缺失、噪声、不一致等问题。此外,当数据的维数过高时还会存在所谓的“维度诅咒”问题,过高的维度增加了计算量,反而可能会降低算法的效果。并且有些算法对数据存在特殊的要求,比如基于距离的算法在数据进行归一化之后效果会提升。直接从网站平台上爬取的数据一般是不完整、不同程度的“脏数据”,在进行数据分析建模之前,需要对爬取的“脏数据”进行预处理和标准化,标准化的目的是将数据的各个指标处理成在同一数据级别上,便于评分析。
用户画像建模:
用户画像建模是在数据预处理后进行行为建模,以抽象得出用户的属性。目前常用的建模方法有:1)遗传算法,其借鉴了进化生物学的现象,用于最优解问题;2)聚类算法是利用统计分析方法把聚类对象分成相似类的过程;3)贝叶斯算法,其前提假设是各个类相互独立,通过贝叶斯公式计算概率分布问题;4)神经网络方法是模拟人脑神经元的工作方式,通过学习、训练模式输出预测结果。随着深度学习的出现,现在较多采用卷积神经网络来训练数据集,特别是将多个数据源进行结合训练得到的结果较好。
综上,随着社交网络用户群体的不断扩大,社交网络平台中,用户数据分为用户个人数据、社会关系数据、行为数据与用户生成内容等。利用画像技术对这些数据进行数据建模与知识挖掘,可从中提炼出有价值的信息和知识,实现深层次的个性化知识服务。现有画像研究多集中在单用户画像,其通过收集与分析用户数据,以标签形式刻画用户特征,挖掘这些特征的潜在价值信息,进而抽象出用户的信息全貌。单用户画像在揭示社交网络整体特征方面存在一些不足,如:①从数据层面上看,单用户画像没有充分利用用户社会关系数据,难以全面刻画用户亲近远疏的社会关系;②从技术层面上看,单用户画像难以准确过滤大量噪音数据,导致画像结果常常存在偏差;③从应用层面上看,对社区用户群体进行画像更有利于深层次揭示社区特征,支持更广泛的应用。
发明内容
本公开实施例提供一种画像方法、系统、设备及存储介质,以解决或缓解现有技术中的以上一个或多个技术问题。
根据本公开的一个方面,提供一种画像方法,包括:
从各类社交网络或数据平台中获取用户数据;
根据不同的用户数据,划分形成显式社区和隐式社区;
基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
在一种可能的实现方式中,所述的根据不同的用户数据,划分形成显式社区和隐式社区包括:
基于用户数据中的显性信息,利用分类算法划分形成显式社区,所述显性信息包括用户订阅信息;
分析用户数据中的用户特征潜在信息,利用社区发现算法生成隐式社区。
在一种可能的实现方式中,所述社区画像方法包括基于用户相似性的画像方法和基于社区差异性的画像方法;
所述基于用户相似性的画像方法包括基于单用户画像融合的社区画像方法和基于用户数据的社区画像方法;
所述基于社区差异性的画像方法包括基于完整社交网络的差异性画像方法和基于社区自身成员的差异性画像方法。
在一种可能的实现方式中,所述的基于单用户画像融合的社区画像方法包括:
基于用户数据形成单用户画像;
计算不同单用户画像间的相似程度;
将相似的单用户画像聚为一类;
将聚为一类的单用户画像进行融合,生成典型用户社区画像。
在一种可能的实现方式中,所述的基于用户数据的社区画像方法包括:
通过分析用户数据,利用每类用户数据相应的画像技术生成社区画像;所述用户数据包括个人数据、行为数据和社会关系数据。
在一种可能的实现方式中,所述的基于完整社交网络的差异性画像方法包括:
从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异来进行社区画像。
在一种可能的实现方式中,所述的基于社区自身成员的差异性画像方法包括:
考虑社区成员和与所述社区成员有紧密关系的社区外成员之间的差异来进行社区画像。
在一种可能的实现方式中,所述社区画像的应用场景包括面向精准推荐服务、面向知识发现服务和面向信息传播服务。
根据本公开的一个方面,提供一种画像系统,包括:
获取单元,用于从各类社交网络或数据平台中获取用户数据;
划分单元,用于根据不同的用户数据,划分形成显式社区和隐式社区;
形成单元,用于基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
根据本公开的一个方面,提供一种画像设备,包括:
处理器以及存储器;
所述存储器用于存储计算机程序,所述处理器调用所述存储器存储的计算机程序,以执行上述任一项所述的画像设方法。
根据本公开的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,使得所述处理器能够执行上述任一项所述的画像方法。
本公开的示例性实施例具有以下有益效果:本公开的示例性实施例,对各类社区数据实时、综合建模,构建了全景式动态社区画像;另一方面,基于知识图谱技术进行大规模社区画像,不仅可以充分利用用户数据来挖掘社区的主题网络、传播路径等信息,还可以丰富社区的语义主题,实现社区主题的语义推理与知识发现,为语义搜索、智能问答、推荐系统、数据可视化、大数据分析与决策等应用提供数据支撑;再一方面,通过丰富社区节点语义信息来指导精准社区发现,以及将社区画像在推荐服务中的应用进一步泛化,用于支持更加复杂的辅助决策、寻求潜在合作等知识服务。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书附图变得明显。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的画像方法流程图;
图2是本示例性实施例的画像模型的示意图;
图3是本示例性实施例的一种社区画像方法的流程图;
图4是本示例性实施例的一种画像方法的流程图;
图5是本示例性实施例的一种画像系统的框图;
图6是本示例性实施例的一种画像设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件单元或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
随着社交网络的兴起、用户生成内容的激增以及数据挖掘等技术的发展,社区画像的对象由小群体发展成为用户规模更大、信息更为丰富、应用场景更为广泛的社区,社区画像的本质是用户画像信息的融合,从社区内容和社区交互两方面揭示社区特征,并将社区内容定义为内容画像,社区交互定义为传播画像。
多元交叉数据包括了结构化数据和非结构化数据,结构化数据主要指文本类数据,传统的画像都是基于单个用户的研究,根据不同的需要,通过分析用户的行为特点,提取与用户相关的信息,为用户贴上标签,便于精准服务,定向分析等。
社区画像以用户画像为基础,利用大数据对不同社区居民各方面情况进行数据分析,形成不同组别的数据集合,进而根据得出的数据集合对社区进行精准化管理。另一方面,作为一组信息集合,社区画像蕴含对应社区的社会基础属性,从其中关键节点可以分析出社区人群所具有的部分共性特征。例如现有的数字技术通过对个人身份证信息的管理录入、人像识别、基于基站和主动扫描的手机行程码管理系统等已经完全可以实现对个体的精准画像,社区管理系统在此基础上对信息进行汇总和归纳,并选择共同关注的时间和事件节点进行分析,可以及时了解群众需求,及时妥善处理突发问题。
社区画像是单用户画像的延伸,具有重要研究意义和应用价值。首先,社区画像可以帮助更直观地区分显式社区与隐式社区,分析用户聚合行为和动机,辅助社区发现。其次,社区画像可以更准确地过滤噪音数据,充分利用用户社会关系数据,完善与丰富单用户画像。此外,社区画像还可更全面、精准地支持群体兴趣跟踪、社区知识可视化、社区排名、推荐系统以及网络服务等应用。本发明解决的主要问题是如何利用多元交叉数据实现对社区服务能力等级的画像。本发明所研究的是针对社区的画像,社区作为多个实体成员的集合体,与用户画像有共性,但也有不同之处,某些方面可以当做一个单一用户来进行信息提取,比如对于像社区名称,位置地点等一成不变的固有属性,某些方面则需要融合多种信息和分析内部成员体现的多种特征来实现画像。
图4是本示例性实施例的一种画像方法的流程图,如图4所示,本公开的示例性实施例提供了一种画像方法,包括:
从各类社交网络或数据平台中获取用户数据;
根据不同的用户数据,划分形成显式社区和隐式社区;
基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
本实施例中,从各类社交网络或数据平台中获取用户数据。基于用户订阅等显性信息,利用分类算法划分显式社区;通过分析用户特征等潜在信息,利用社区发现算法生成隐式社区。基于社区用户数据,利用分类、聚类、复杂网络分析、机器学习等数据挖掘技术,结合各类社区画像方法进行社区画像,以揭示社区特征。
具体地,所述的根据不同的用户数据,划分形成显式社区和隐式社区包括:
基于用户数据中的显性信息,利用分类算法划分形成显式社区,所述显性信息包括用户订阅信息;
分析用户数据中的用户特征潜在信息,利用社区发现算法生成隐式社区。
具体地,所述社区画像方法包括基于用户相似性的画像方法和基于社区差异性的画像方法;
所述基于用户相似性的画像方法包括基于单用户画像融合的社区画像方法和基于用户数据的社区画像方法;
所述基于社区差异性的画像方法包括基于完整社交网络的差异性画像方法和基于社区自身成员的差异性画像方法。
具体地,所述的基于单用户画像融合的社区画像方法包括:
基于用户数据形成单用户画像;
计算不同单用户画像间的相似程度;
将相似的单用户画像聚为一类;
将聚为一类的单用户画像进行融合,生成典型用户社区画像。
具体地,所述的基于用户数据的社区画像方法包括:
通过分析用户数据,利用每类用户数据相应的画像技术生成社区画像;所述用户数据包括个人数据、行为数据和社会关系数据。
具体地,所述的基于完整社交网络的差异性画像方法包括:
从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异来进行社区画像。
具体地,所述的基于社区自身成员的差异性画像方法包括:
考虑社区成员和与所述社区成员有紧密关系的社区外成员之间的差异来进行社区画像。
具体地,所述社区画像的应用场景包括面向精准推荐服务、面向知识发现服务和面向信息传播服务。
社区画像内容包括画像概念、画像模型和研究对象;社区画像方法包括基于单用户画像融合的社区画像、基于用户数据的社区画像、基于社区差异性画像;社区画像应用包括面向精准推荐服务、面向知识发现服务和面向信息传播服务。
画像概念:随着社交网络的兴起、用户生成内容的激增以及数据挖掘等技术的发展,社区画像的对象由小群体发展成为用户规模更大、信息更为丰富、应用场景更为广泛的社区,社区画像的本质是用户画像信息的融合,从社区内容和社区交互两方面揭示社区特征,并将社区内容定义为内容画像,社区交互定义为传播画像。
图2是本示例性实施例的画像模型的示意图;如图2所示,社区画像模型可分成4个部分:
收集数据:从各类社交网络或数据平台中获取用户数据。
形成社区:一是基于用户订阅等显性信息,利用分类算法划分显式社区;二是通过分析用户特征等潜在信息,利用社区发现算法生成隐式社区。
社区画像:基于社区用户数据,利用分类、聚类、复杂网络分析、机器学习等数据挖掘技术,结合各类社区画像方法进行社区画像,以揭示社区特征。
画像应用:展示社区画像的应用场景,如群体推荐、寻求合作与辅助决策等。
社区画像主要研究对象包括4部分。社区画像维度可分为社区内容和社区交互两类;社区内容定义了社区的内涵,如社区的兴趣偏好、行为特征、主题特征等;社区交互则描述社区之间信息传播特征,如社区之间的信息传播模式、社区演化等。社区画像的数据来源主要包括社交网络平台和行业应用平台。画像技术包括本体、特征表示学习等知识表示技术,特征提取和特征选择等数据降维技术,以及聚类、复杂网络分析、深度学习等数据挖掘技术。
图3是本示例性实施例的一种社区画像方法的流程图;如图3所示,社区画像方法分为基于用户相似性画像和基于社区差异性画像两大类。用户相似性画像通过分析社区成员共同的兴趣、相近的情感、观点或行为等因素探索社区形成的原因。用户相似性画像,又可分为基于单用户画像融合的社区画像与基于用户数据的社区画像两种。基于社区差异性画像方法是通过分析社区内外成员之间的差异,来刻画社区的特征,又可分为基于完整社交网络的差异性画像和基于社区自身成员的差异性画像两种。
基于单用户画像融合的社区画像方法首先基于用户数据形成单用户画像;然后计算不同用户画像间的相似程度;继而将相似的用户画像聚为一类;最后将聚在一起的单用户画像进行融合,生成有代表性典型用户的社区画像。该方法的核心在于采取合适的聚合策略来对单用户画像进行融合,最终形成社区画像。
基于用户数据的社区画像方法则通过分析社区用户数据,利用相应的画像技术直接生成社区画像。该方法充分利用了用户个人数据、行为数据和社会关系等各类数据,可以有效提高画像精度,是最常用的社区画像方法。其中,个人数据:通过收集与分析用户个人数据,以标签形式刻画用户特征,挖掘这些特征的潜在价值信息,进而抽象出用户的信息全貌。行为数据:包括发布信息、分享观点、关注其他用户等,通过分析这些行为数据可揭示社区共同的行为兴趣特征。社会关系数据:包括成员属性、偏好、社会关系、社区形成原因以及社区资源等数据。综合运用分类、聚类、复杂网络分析、机器学习等数据挖掘技术,挖掘具有相似特征的用户群体,提炼群体的共性特征。
根据画像维度(社区内容和社社区交互两个维度)的不同,该基于用户数据的社区画像方法可分为社区行为画像、社区主题画像和社区传播画像三种。
基于社区差异性画像方法分为基于完整社交网络的差异性画像和基于社区自身成员的差异性画像两种,其中基于完整社交网络的差异性画像从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异,而基于社区自身成员的差异性画像则只考虑社区成员和与其有紧密关系的社区外成员之间的差异。基于完整社交网络的差异性画像,将社区与社区之外的节点分为两类,通过选取在社区内频繁出现,但在社区外很少出现的特征来进行社区画像。基于完整社交网络的差异性画像需要计算整个社交网络的所有特征,其时间复杂度和空间复杂度都很高,效率较低。考虑到社区相对于整个社交网络来说规模较小,提出了基于社区自身成员的差异性画像方法。基于社区自身成员的差异性画像并不逐一计算社区与网络中其他社区的差异性,仅将与该社区有紧密联系的部分社区纳入差异性计算范畴。在社交网络规模较大时,基于社区自身成员的差异性画像和基于完整社交网络的差异性画像,社区画像的效果相近,但基于社区自身成员的差异性画像的效率要高得多。
社区画像应用:
从服务类型的角度来看,社区画像应用场景可分为面向精准推荐服务、面向知识发现服务与面向信息传播服务这三类。
面向精准推荐服务:
丰富用户画像:基于单用户画像的个性化推荐服务,一方面会因为用户数据稀疏而导致推荐结果不可靠,另一方面由于用户惯性思维容易造成信息茧房,难以满足用户个性化推荐服务需求。而社区画像除了使用用户行为数据外,还综合考虑到社区中典型用户的社会关系、用户生成内容等数据,可有效规避单用户画像的信息噪音与数据稀疏风险,打破信息茧房,提供更精准、更全面的个性化推荐服务。同时社区画像可以包容社交网络中的新用户,为其生成有效的推荐,解决冷启动的问题。
支持群体推荐:推荐服务的对象不仅是单个用户,还可以是群体、社区等。社区画像可以有效支持面向群体或社区的精准推荐。如利用社区画像来提高群体推荐服务的满意度,利用社区画像进行影视的群体推荐,利用社区画像进行旅游领域的群体推荐,利用社区画像进行图书领域的群体推荐。
面向知识发现服务:
辅助社区发现:社区发现是社区画像的基础与前提,社区画像则是对社区发现结果的应用与反馈。如社区内容画像从社区主题、兴趣偏好和群体行为等不同角度揭示社区内部结构;社区传播画像描述社区之间信息的交互行为,揭示社区外部结构,这些都是社区发现的重要研究内容。此外,社区画像还可以提供更丰富的社区信息,如社区主题、社区偏好等,可以更好地辅助社区发现。
社区信息可视化:社区画像为社区信息可视化提供了更丰富的数据类型与语义信息,支持更直观地揭示社区内容,可用于帮助分析社区结构、识别重要用户、揭示信息的传播路径等。
寻求合作与辅助决策:社区画像可帮助用户寻求更有效的合作方式和提供更科学的决策。
面向信息传播服务:
网络营销推广:社区画像可揭示社区影响力、社区偏好以及社区之间的信息传播模式。这些信息可支持定向广告投放与品牌推广,对网络营销具有重要的应用价值。
网络舆情监测:社区画像可以识别核心用户与热点主题,通过分析他们之间的关系,挖掘社区信息传播模式,进而预测社区用户的信息传播行为,这对舆情监测与管理至关重要。管理层可依据社区用户行为、兴趣主题及其影响力等社区画像信息。
图5是本示例性实施例的一种画像系统的框图。如图5所示,本公开的示例性实施例提供了一种画像系统,包括:
获取单元,用于从各类社交网络或数据平台中获取用户数据;
划分单元,用于根据不同的用户数据,划分形成显式社区和隐式社区;
形成单元,用于基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
图6是本示例性实施例的一种画像设备的结构示意图。如图6所示,与上述提供的画像方法相对应,本发明还提供一种画像设备。由于该设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的设备仅是示意性的。该设备可以包括:处理器(processor)、存储器(memory)和通信总线(即上述装置总线)以及查找引擎,其中,处理器,存储器通过通信总线完成相互间的通信,通过通信接口与外部进行通信。处理器可以调用存储器中的逻辑指令,以执行画像方法。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的画像方法。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
本公开的示例性实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,使得所述处理器能够执行上述画像方法。
综上,本发明提供了一种全景式动态社区画像:从数据层面来看,社区画像揭示了社区的结构特征、交互模式、行为模式和发展模式,对未来社区结构预测和演化发展具有重要价值。在大型社交网络中,社区结构、社区成员、社区主题、社区行为以及社区信息传播等社区画像要素都是不断变化的,如何及时、全面反映这些信息对社区画像应用来说非常重要。因此,通过对各类社区数据实时、综合建模,构建全景式动态社区画像,是社区画像研究的热点。
本发明提供了一种基于知识图谱的社区画像:知识图谱是一种对多源异构数据进行多维度、细粒度知识挖掘与语义关联的新型知识组织技术,是知识互联的基础。基于知识图谱技术进行大规模社区画像,不仅可以充分利用用户数据来挖掘社区的主题网络、传播路径等信息,还可以丰富社区的语义主题,实现社区主题的语义推理与知识发现,为语义搜索、智能问答、推荐系统、数据可视化、大数据分析与决策等应用提供数据支撑。
本发明的社区画像应用场景泛化:社区画像应用前景进一步泛化。通过丰富社区节点语义信息来指导精准社区发现,以及将社区画像在推荐服务中的应用进一步泛化,用于支持更加复杂的辅助决策、寻求潜在合作等知识服务。
以上仅是本公开的优选实施方式,本公开的保护范围并不仅局限于上述实施例,凡属于本公开思路下的技术方案均属于本公开的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开原理前提下的若干改进和润饰,应视为本公开的保护范围。
Claims (11)
1.一种画像方法,其特征在于,包括:
从各类社交网络或数据平台中获取用户数据;
根据不同的用户数据,划分形成显式社区和隐式社区;
基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
2.根据权利要求1所述的画像方法,其特征在于,所述的根据不同的用户数据,划分形成显式社区和隐式社区包括:
基于用户数据中的显性信息,利用分类算法划分形成显式社区,所述显性信息包括用户订阅信息;
分析用户数据中的用户特征潜在信息,利用社区发现算法生成隐式社区。
3.根据权利要求1所述的画像方法,其特征在于:
所述社区画像方法包括基于用户相似性的画像方法和基于社区差异性的画像方法;
所述基于用户相似性的画像方法包括基于单用户画像融合的社区画像方法和基于用户数据的社区画像方法;
所述基于社区差异性的画像方法包括基于完整社交网络的差异性画像方法和基于社区自身成员的差异性画像方法。
4.根据权利要求3所述的画像方法,其特征在于,所述的基于单用户画像融合的社区画像方法包括:
基于用户数据形成单用户画像;
计算不同单用户画像间的相似程度;
将相似的单用户画像聚为一类;
将聚为一类的单用户画像进行融合,生成典型用户社区画像。
5.根据权利要求3所述的画像方法,其特征在于,所述的基于用户数据的社区画像方法包括:
通过分析用户数据,利用每类用户数据相应的画像技术生成社区画像;所述用户数据包括个人数据、行为数据和社会关系数据。
6.根据权利要求3所述的画像方法,其特征在于,所述的基于完整社交网络的差异性画像方法包括:
从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异来进行社区画像。
7.根据权利要求3所述的画像方法,其特征在于,所述的基于社区自身成员的差异性画像方法包括:
考虑社区成员和与所述社区成员有紧密关系的社区外成员之间的差异来进行社区画像。
8.根据权利要求1-7任意一项所述的画像方法,其特征在于:
所述社区画像的应用场景包括面向精准推荐服务、面向知识发现服务和面向信息传播服务。
9.一种画像系统,其特征在于,包括:
获取单元,用于从各类社交网络或数据平台中获取用户数据;
划分单元,用于根据不同的用户数据,划分形成显式社区和隐式社区;
形成单元,用于基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。
10.一种画像设备,其特征在于,包括:
处理器以及存储器;
所述存储器用于存储计算机程序,所述处理器调用所述存储器存储的计算机程序,以执行权利要求1至8任一项所述的画像方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,使得所述处理器能够执行权利要求1至8任一项所述的画像方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310396098.6A CN116401456A (zh) | 2023-04-10 | 2023-04-10 | 一种画像方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310396098.6A CN116401456A (zh) | 2023-04-10 | 2023-04-10 | 一种画像方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116401456A true CN116401456A (zh) | 2023-07-07 |
Family
ID=87008845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310396098.6A Pending CN116401456A (zh) | 2023-04-10 | 2023-04-10 | 一种画像方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116401456A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076779A (zh) * | 2023-08-31 | 2023-11-17 | 中科融禾(北京)技术有限公司 | 一种基于大数据分析的推广方法、装置、设备及存储介质 |
-
2023
- 2023-04-10 CN CN202310396098.6A patent/CN116401456A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076779A (zh) * | 2023-08-31 | 2023-11-17 | 中科融禾(北京)技术有限公司 | 一种基于大数据分析的推广方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amato et al. | SOS: a multimedia recommender system for online social networks | |
Chakraborty et al. | A survey of sentiment analysis from social media data | |
Sassi et al. | Context-aware recommender systems in mobile environment: On the road of future research | |
Gasparetti et al. | Community detection in social recommender systems: a survey | |
Bobadilla et al. | Recommender systems survey | |
Li et al. | A survey on personalized news recommendation technology | |
Lucas et al. | A hybrid recommendation approach for a tourism system | |
Fang et al. | Relational user attribute inference in social media | |
Yan et al. | A unified video recommendation by cross-network user modeling | |
Guo et al. | Flickr group recommendation using rich social media information | |
Li et al. | A personalized recommendation algorithm based on large-scale real micro-blog data | |
Guo et al. | CrowdTravel: scenic spot profiling by using heterogeneous crowdsourced data | |
Sun et al. | A hybrid approach for article recommendation in research social networks | |
Ravi et al. | An intelligent location recommender system utilising multi-agent induced cognitive behavioural model | |
Shi et al. | Extracting user influence from ratings and trust for rating prediction in recommendations | |
CN116401456A (zh) | 一种画像方法、系统、设备及存储介质 | |
Rawat et al. | A comprehensive study on recommendation systems their issues and future research direction in e-learning domain | |
Xu et al. | Do adjective features from user reviews address sparsity and transparency in recommender systems? | |
Servia-Rodríguez et al. | Inferring contexts from Facebook interactions: A social publicity scenario | |
Xiang et al. | Demographic attribute inference from social multimedia behaviors: a cross-OSN approach | |
Jian et al. | Content-based bipartite user-image correlation for image recommendation | |
Berlanga et al. | Quality indicators for social business intelligence | |
Jaffali et al. | Survey on social networks data analysis | |
Bogers | Recommender systems for social bookmarking | |
Abu Salih | Trustworthiness in social big data incorporating semantic analysis, machine learning and distributed data processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |