CN113672818A - 一种获取社交媒体用户画像的方法及系统 - Google Patents

一种获取社交媒体用户画像的方法及系统 Download PDF

Info

Publication number
CN113672818A
CN113672818A CN202010401788.2A CN202010401788A CN113672818A CN 113672818 A CN113672818 A CN 113672818A CN 202010401788 A CN202010401788 A CN 202010401788A CN 113672818 A CN113672818 A CN 113672818A
Authority
CN
China
Prior art keywords
user
information
social media
preset
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010401788.2A
Other languages
English (en)
Other versions
CN113672818B (zh
Inventor
饶育蕾
郭刚刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010401788.2A priority Critical patent/CN113672818B/zh
Publication of CN113672818A publication Critical patent/CN113672818A/zh
Application granted granted Critical
Publication of CN113672818B publication Critical patent/CN113672818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种获取社交媒体用户画像的方法和系统,其中,所述方法包括:针对预先获取的大数据中的每一条用户信息,确定每一用户信息的特征并生成与所述特征相应的标签;根据具有标签的用户信息,训练预先设定的社交媒体用户画像预测模型获取训练后的社交媒体用户画像预测模型;获取待预测的用户信息;根据所述待预测的用户信息,采用所述训练后的社交媒体用户画像预测模型,获取待预测的用户的画像;其有益效果是,根据社交媒体用户的信息来获取社交媒体用户的画像。

Description

一种获取社交媒体用户画像的方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种获取社交媒体用户画像的方法及系统。
背景技术
随着新浪微博、领英、推特和脸书等社交网路与社交媒体网站的爆发式发展,这些线上虚拟社交平台已经成为人们彼此连接、交流和互动的极其重要场所。越来越多的人正在通过社交媒体接受信息、表达观点、抒发情绪与激发灵感。与此同时,数以亿计的用户生成内容也成为各领域研究者,挖掘用户人口属性状况、社交行为方式、观点态度和心理情感,甚至是疾病与健康等方面的重要素材。
现有的技术中并没有根据社交媒体用户的信息来进行社交媒体用户的信用水平进行预测。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种获取社交媒体用户画像的方法及系统,其解决了目前没有根据社交媒体用户的信息来进行获取用户画像的技术问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
第一方面,本发明实施例提供一种获取社交媒体用户画像的方法,所述方法包括:
S1、针对预先获取的大数据中的每一条用户信息,确定每一用户信息的特征并生成与所述特征相应的标签;
其中,所述预先获取的大数据中包括多条用户信息;
所述每一条用户信息包括用户的:职业信息数据、文本数据、人口属性数据、行为信息、关系网络信息数据;
其中,所述职业信息包括:工作经历信息、职位信息、工作地点信息、行业领域信息、工作年限和登记注册类型信息;
其中,所述文本数据包括:用户在社交媒体上发表的文本;
其中,所述人口属性数据包括:性别、注册时长、用户关注者数量、被关注者数量、用户在社交媒体上所发的文本的数量;
其中,所述行为信息数据包括:用户在社交媒体上所发表的文本的总数量、用户在社交媒体上转发的文本的数量、用户分别使用不同的终端发表文本的数量、用户在预设时间段内发表文本的数量、任一用户所发表的文本被转发的次数、任一用户所发表的文本被赞的次数、任一用户所发表的文本被评论条数;
所述关系网络信息数据:用户关注的账户以及关注所述用户账户的账户;
关系网络信息是一个社交媒体用户关注的账户,以及粉丝账户共同构成的一个社交网络结构;
S2、根据具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型;
S3、获取待预测的用户信息;
S4、根据所述待预测的用户信息,采用所述训练后的社交媒体用户画像预测模型,获取待预测的用户的画像;
所述待预测的用户的画像为所述待预测的用户信息所对应的标签。
优选的,所述步骤S1包括:
针对每一用户信息中的职业信息数据,采用预先设定的第一划分规则,进行划分,确定所述每一用户信息的收入级别特征,并生成与所述收入级别特征对应的收入标签;
所述第一划分规则为根据岗位信息、工作地点信息、行业领域信息和企业性质信息按照预先设定的规则进行划分的规则;
其中,所述收入级别特征包括:第一收入级别特征、第二收入级别特征、第三收入级别特征、第四收入级别特征、第五收入级别特征、第六收入级别特征;
其中,所述收入标签包括:与所述第一收入级别特征对应的第一收入标签,与所述第二收入级别特征对应的第二收入标签,与所述第三收入级别特征对应的第三收入标签,与所述第四收入级别特征对应的第四收入标签,与所述第五收入级别特征对应的第五收入标签,与所述第六收入级别特征对应的第六收入标签。
优选的,所述步骤S1还包括:
针对每一用户信息中的文本数据,进行主题特征提取和情感倾向特征提取,确定每一用户信息的主题特征和情感倾向特征,并生成与所述主题特征对应的主题标签和与所述情感倾向特征对应的情感标签。
优选的,所述步骤S1包括
S11、针对每一用户信息的文本数据,采用预先设定的word2vec词向量模型获取第二文本数据;
其中所述第二文本数据为:采用向量化表示的文本数据;
S12、针对所述每一用户信息的第二文本数据,分别采用预先设定的LAD主题模型和预先设定的情感倾向模型,分别获取所述每一用户信息的主题特征以及与所述主题特征对应的主题标签以及所述每一用户信息的情感特征以及与所述情感特征对应的情感标签;
其中,所述主题特征包括:预先设定的250个主题特征中的至少一个;
其中,所述情感特征包括:积极和喜悦特征、积极和悲伤特征、积极和惊奇特征、积极和厌恶特征、消极和喜悦特征、消极和悲伤特征、消极和惊奇特征、消极和厌恶特征、中立和喜悦特征、中立和悲伤特征、中立和惊奇特征、中立和厌恶特征;
其中,所述LAD主题模型能够根据用户信息的第二文本数据确定所述用户信息的主题特征为预先设定的250个主题特征中的任一主题特征;
其中,所述预先设定的情感倾向模型为基于深度学习的word2vec抽取语料特征构建的模型。
优选的,所述步骤S1包括:
针对每一用户信息中的人口属性数据,确定所述每一用户信息中性别的特征、注册时长的特征、社交媒体影响力的特征,并生成与所述性别的特征对应的性别标签,与所述注册时长的特征对应的注册时长标签,与所述社交媒体影响力的特征对应的社交媒体影响力标签;
所述性别的特征为:所述用户的性别;
所述注册时长的特征为:当前用户的社交媒体注册的天数;
所述社交媒体影响力特征为:所述用户关注者数量、用户的粉丝数量。其中,用户的粉丝数量也就是关注用户的粉丝的数量。
优选的,所述步骤S1包括:
针对每一用户信息中的行为信息数据,确定所述每一用户信息的转发发布特征、发布端使用特征、发布时间特征、文本影响力特征,并生成与所述转发发布特征对应的转发发布标签,与所述发布端使用特征对应的发布端使用标签,与所述发布时间特征对应的发布时间标签,与所述文本响应度特征对应的文本响应度标签;
转发发布特征为用户所发的微博中属于转发微博所占的比例值;
发布终端使用特征为用户使用不同终端,发布动态所占的比例值;
发布时间特征为用户每天预先设定的时间段内发布微博的频率值;
微博相应度为用户所发微博的微博影响力的平均值值;
微博影响力为每条微博被转发的次数、被赞的次数和被评论条数的和然后除以所发微博总数。
优选的,所述步骤S1包括:
针对每一用户信息中的关系网络信息数据,采用预先设定的Node2Vec算法对每一个节点所属的社交网络进行向量化,生成与所述节点相应的向量;
其中,所述节点为用户的社交媒体账户;
根据所述节点与所述预先设定的多个节点的对应关系,采用预先设定的社区发现模型获取所述结点的社区值,并根据所述社区总数构建相应维数的向量,作为用户的社区特征;
其中,所述预先设定的多个节点为用户关注数或被关注数大于预先设定值的用户的社交媒体账户所属的节点。
优选的,所述步骤S2包括:
根据所述大数据中所有具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述大数据中所有具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型;
其中,所述预先设定的多层深度的CNN算法包括:输出层、第一卷积层、第二卷积层、池化层、第一全连接层、第二全连接层、输出层。
优选的,还包括:
S5、判断所述待预测的用户的画像是否符合预先设定的信用用户画像;
若符合,则将所述用户确定为信用用户;
其中,所述信用用户为:具有获取银行贷款资格的用户。
一种获取社交媒体用户画像的系统,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一所述的获取社交媒体用户画像的方法。
(三)有益效果
本发明的有益效果是:本发明的一种获取社交媒体用户画像的方法及系统,由于采用训练好的社交媒体用户预测模型,相对于现有技术而言,训练好的社交媒体用户预测模型提取用户在社交媒体中用户信息的主题特征、情感倾向特征、转发发布特征、发布端使用特征、发布时间特征,使获取的用户画像更为丰富。
附图说明
图1为本发明的一种获取社交媒体用户画像的方法的流程图;
图2为本发明中具体实施例中的获取社交媒体用户画像的示意图;
图3为具有第一收入标签的用户群体中的前10个主题标签分布图;
图4为具有第二收入标签的用户全体中的前10个主题标签分布图;
图5为具有第五收入标签的用户群体中的前10个主题标签分布图;
图6为具有第六收入标签的用户群体中的前10个主题标签分布图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明实施例提出的一种获取社交媒体用户画像的方法可以提取用户在社交媒体中用户信息的主题特征、情感倾向特征、转发发布特征、发布端使用特征、发布时间特征,使获取的用户画像更为丰富。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
参见附图1,本实施例中的大数据以新浪微博数据为例,本实施例中的大数据为随机选取的数万个新浪微博用户信息,这些信息中每一条用户信息包括用户的:职业信息数据、文本数据、人口属性数据、行为信息、关系网络信息数据。本实施例中的一种获取社交媒体用户画像的方法包括:
A1、针对预先获取的大数据中的每一条用户信息,确定每一用户信息的特征并生成与所述特征相应的标签;
其中,所述预先获取的大数据中包括多条用户信息;
其中,所述职业信息包括:工作经历信息、职位信息、工作地点信息、行业领域信息、工作年限和登记注册类型信息;
其中,所述文本数据包括:用户在社交媒体上发表的文本;
其中,所述人口属性数据包括:性别、注册时长、用户关注者数量、被关注者数量、用户在社交媒体上所发的文本的数量;
其中,所述行为信息数据包括:用户在社交媒体上所发表的文本的总数量、用户在社交媒体上转发的文本的数量、用户分别使用不同的终端发表文本的数量、用户在预设时间段内发表文本的数量、任一用户所发表的文本被转发的次数、任一用户所发表的文本被赞的次数、任一用户所发表的文本被评论条数;
所述关系网络信息数据:用户关注者数量、被关注者数量;
S2、根据具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述具有标签的用户信息进行训练,获取训练后的社交媒体用户画像预测模型;
S3、获取待预测的用户信息;
S4、根据所述待预测的用户信息,采用所述训练后的社交媒体用户画像预测模型,获取待预测的用户的画像;
所述待预测的用户的画像为所述待预测的用户信息所对应的标签。
本实施例中,所述步骤S1包括:
针对每一用户信息中的职业信息数据,采用预先设定的第一划分规则,进行划分,确定所述每一用户信息的收入级别特征,并生成与所述收入级别特征对应的收入标签;
所述第一划分规则为根据岗位信息、工作地点信息、行业领域信息和企业性质信息进行划分的规则;
本实施例中,第一划分规则是参考政府公开的统计数据,如参考中国国家统计局公布的《2015年联网直报平台企业不同岗位平均工资情况》中的三张统计表,分别是《2015年分地区分岗位就业人员年平均工资》、《2015年分行业分岗位就业人员年平均工资》和《2015年分登记注册类型分岗位就业人员年平均工资》,这三张表分别依据收入地区差异与岗位高低、岗位高低与行业差异,以及岗位高低与企业性质统计。同时还参考国家统计局颁布的国民经济行业分类(GB/T4754-2011)中行业领域划分标准,以及人力资源和社会保障部国家职业资格管理中的职业划分标准并根据岗位信息、工作地点信息、行业领域信息和企业性质信息进行划分的规则确定的。
其中,2015年分行业分岗位就业人员年平均工资,如下表a所示:
表a 2015年分行业分岗位就业人员年平均工资(节选子表)
单位:元
Figure BDA0002489746170000091
本实施例中采用第一划分规则进行具体的划分流程为:首先,按照较粗粒度标准划分出整体的收入水平等级,如第一收入级别,采用的标准是满足高层管理人员岗位、高收入行业领域、经济发达地区和国有、股份或者外资所有制企业类型;其次,按照细粒度标准,预先设定的用户信息中,进行非重复抽取,需要注意的是,这些用户中,有相当部分用户填写的是无效的岗位信息和公司信息,如“御用闲人”、“那啥”和“......”等。细粒度标注,高管人员岗位如董事长、总经理、总裁、CEO和董事会主席等,高收入行业领域如金融租赁、信息、投资、和软件等,经济发达地区如北京、上海、广州、深圳、天津和江苏等,国有、股份或者外资所有制企业类型如股份、国有、香港等;最后,操作方式的人为确定的依据,如前三类收入等级以岗位与行业领域为主要依据,后三类收入等级以地区发展程度与企业所有制类型为主要依据。本实施例中将收入水平划分为6个级别,每一个级别具有相应的级别特征。如表1所示:
表1
Figure BDA0002489746170000101
其中,参见表1,所述收入级别特征包括:第一收入级别特征、第二收入级别特征、第三收入级别特征、第四收入级别特征、第五收入级别特征、第六收入级别特征。
其中,所述收入标签包括:与所述第一收入级别特征对应的第一收入标签,与所述第二收入级别特征对应的第二收入标签,与所述第三收入级别特征对应的第三收入标签,与所述第四收入级别特征对应的第四收入标签,与所述第五收入级别特征对应的第五收入标签,与所述第六收入级别特征对应的第六收入标签。
本实施例中,所述步骤S1还包括:
针对每一用户信息中的文本数据,进行主题特征提取和情感倾向特征提取,确定每一用户信息的主题特征和情感倾向特征,并生成与所述主题特征对应的主题标签和与所述情感倾向特征对应的情感标签。
本实施例中于,所述步骤S1包括:
S11、针对每一用户信息的文本数据,采用预先设定的word2vec词向量模型获取第二文本数据。
其中所述第二文本数据为:采用向量化表示的文本数据。
本实施例中采用word2vec词向量模型,对每个社交媒体用户发表的全部微博进行向量化表示,其中,同一条微博不同词向量,以及不同时段的微博句子,都采用纵向加和求均值的方式进行处理。本实施例中的word2vec词向量模型,可以快速有效地训练词向量。
S12、针对所述每一用户信息的第二文本数据,分别采用预先设定的LAD主题模型和预先设定的情感倾向模型,分别获取所述每一用户信息的主题特征以及与所述主题特征对应的主题标签以及所述每一用户信息的情感特征以及与所述情感特征对应的情感标签。
本实施例中从不同角度,基于不同的算法模型,从每位用户所发文本中抽取特征。
本实施例中的LDA主题模型是一种常用于机器学习和自然语言处理等领域的语言模型,是一种从一系列文档中发现隐含主题的统计模型,用来进行文本语义挖掘。LDA模型包含词项、主题和文档三层结构,其基本思想是把文档看成其所隐含的主题的混合,而每个主题则由与该主题相关的词项的概率分布表示。本实施例利用预先设定的所有用户的微博内容进行训练,将每位用户所发的全部微博作为一个训练文档,每个文档分词后,词的个数大于7,输出每个文档包含的前250个主题的概率。本实施例中采用graphlab的提供的LDA模型训练API接口,训练后,构建出本实施例250维的向量特征,其中每一维的向量特征为一个主题特征。
其中,所述主题特征包括:预先设定的250个主题特征中的至少一个;其中,所述LAD主题模型能够根据用户信息的第二文本数据确定所述用户信息的主题特征为预先设定的250个主题特征中的任一主题特征。
本实施例中的情感倾向模型,抽取每位用户所发微博组成的文档各类情感所占的比例,倾向性分析方面,将文本意见倾向分为积极、消极和中立三类;情绪分析方面,本实施例采用基于心理学的研究,最新的研究成果显示,将人类基本情感分成四类更准确。本实施例将社交媒体用户发表的文本情感分成四类,分别是喜悦、悲伤、惊奇和厌恶。其中,所述情感特征包括:积极和喜悦特征、积极和悲伤特征、积极和惊奇特征、积极和厌恶特征、消极和喜悦特征、消极和悲伤特征、消极和惊奇特征、消极和厌恶特征、中立和喜悦特征、中立和悲伤特征、中立和惊奇特征、中立和厌恶特征。
其中,所述预先设定的情感倾向模型为基于深度学习的word2vec抽取语料特征构建的模型。
本实施例中,所述步骤S1包括:
针对每一用户信息中的人口属性数据,确定所述每一用户信息中性别的特征、注册时长的特征、社交媒体影响力的特征,并生成与所述性别的特征对应的性别标签,与所述注册时长的特征对应的注册时长标签,与所述社交媒体影响力的特征对应的社交媒体影响力标签。
所述性别的特征为:所述用户的性别。
所述注册时长的特征为:当前用户的社交媒体注册的天数。
所述社交媒体影响力特征为:所述用户关注者数量、用户的粉丝数量。
本实施例中,所述步骤S1包括:
针对每一用户信息中的行为信息数据,确定所述每一用户信息的转发发布特征、发布端使用特征、发布时间特征、文本影响力特征,并生成与所述转发发布特征对应的转发发布标签,与所述发布端使用特征对应的发布端使用标签,与所述发布时间特征对应的发布时间标签,与所述文本响应度特征对应的文本响应度标签。
转发发布特征为用户所发的微博中属于转发微博所占的比例值。
发布终端使用特征为用户使用不同终端,发布动态所占的比例值。
发布时间特征为用户每天预先设定的时间段内发布微博的频率值。
微博相应度为用户所发微博的微博影响力的平均值值。
微博影响力为每条微博被转发的次数、被赞的次数和被评论条数的和然后除以所发微博总数。
本实施例中根据社交媒体用户的一些使用行为习惯,确定三类特征,分别是转发发布习惯、不同发布终端使用习惯、发布时间习惯和用户微博响应度。其中,转发发布习惯是指,该用户所发微博中属于转发微博所占的比例;不同发布终端使用习惯是指,该用户使用不同终端,发布动态所占的比例构成的向量,这里需要说明的是,本发明统计了语料库中所有可能的发布终端,但是,只是选择使用频率最高的前35个终端,因此,用户中每位用户有一个35维的向量,每一维向量均为一个发布终端使用习惯的特征。发布时间习惯是指,用户在每天每个既定时间窗口内发布频率,这里时间窗口为小时,即统计出该用户所有微博在每个时间段内的比例,并构建成一个24维的向量,每一维向量均为一个发布时间特征。相关研究已经证明,微博用户发布时间习惯与信用状况具有相关性。微博影响力是指,该用所发微博平均影响力,该指标首先计算出每条微博被转发次数、被赞的次数和被评论条数,然后加总,并除以该用户所发微博总数,最后,将训练集该维值标准化。用户微博响应度是指,该用所发微博平均影响力,该指标首先计算出每条微博被转发次数、被赞的次数和被评论条数,然后加总,并除以该用户所发微博总数,最后,将训练集该维值标准化。
本实施中,所述步骤S1包括:
针对每一用户信息中的关系网络信息数据,采用预先设定的Node2vec算法对每一个节点所属的社交网络进行向量化,生成与所述节点相应的向量。
其中,所述节点为用户的社交媒体账户。
根据所述节点与所述预先设定的多个节点的对应关系,采用预先设定的社区发现模型获取所述结点的社区值,并根据所述社区总数构建相应维数的向量,作为用户的社区特征。
其中,所述预先设定的多个节点为用户关注数或被关注数大于预先设定值的用户的社交媒体账户所属的节点。
本实施例中Node2Vec算法训练社交网络向量化模型后,可获取该账户的向量,可将向量维数设定为100维。本实施例中在社交网络的节点(也就是账户)向量化后,比如,整个网络共有1万个节点,通过预先训练的社区发现模型,将这1万个节点聚成100个社区,那么,通过one-hot生成一个100维的向量,作为用户的社区特征。
一般来讲,“物以类聚,人以群分”,不同收入水平的社交媒体用户的社交网络朋友圈存在着差异,具体表现为,不同收入水平的用户将分布在不同的若干个社区中。由于训练全量的社交网络用户,由于时空开销的问题,发现社区分布是不明智的。本实施例社交网络的“四度分隔”理论,按照一定标准,比如,用户关注数或者被关注数大于十万,随机抽取661104个用户,并将这些节点作为社区发现模型固定的节点,将训练集中的节点加入,根据节点与相应被关注节点和关注节点的对应关系,采用SLPA(Speaker-listenerLabelPropagationAlgorithm)社区发现模型,得到训练集中各个节点对应的社区值,并根据社区总数构建相应维数的向量作为用户的社区特征。
本实施例中,所述步骤S2包括:
根据所述大数据中所有具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述大数据中所有具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型。
其中,所述预先设定的多层深度的CNN算法包括:输出层、第一卷积层、第二卷积层、池化层、第一全连接层、第二全连接层、输出层。
本实施例中,通过多种机器学习算法来训练本发明的分类模型,然后通过对比,发现由本实施例中的CNN算法训练的模型表现效果最好。好处是多分类的准确率、召回率和精准率相对较高。
本实施例中还通过实验对比分析发现,本实施例中的CNN算法具有输出层、第一卷积层、第二卷积层、池化层、第一全连接层、第二全连接层、输出层时所训练的模型的多分类效果最好。如果,层数再多的话,训练出的模型的拟合度会很高,实际应用效果也不理想。
针对上文抽取训练数据,以及训练数据的属性特征与一般特征,本发明,采用具有输出层、第一卷积层、第二卷积层、池化层、第一全连接层、第二全连接层、输出层深度的CNN算法其中,CNN的核心计算分别包括卷积层与子采样层的卷积计算、残差计算和梯度计算。
本实施例中,还包括:
S5、判断所述待预测的用户的画像是否符合预先设定的信用用户画像。
若符合,则将所述用户确定为信用用户。
其中,所述信用用户为:具有获取银行贷款资格的用户。
本实施例中一种获取社交媒体用户画像的方法,由于采用训练好的社交媒体用户预测模型,提取用户在社交媒体中用户信息的主题特征、情感倾向特征、转发发布特征、发布端使用特征、发布时间特征,使获取的用户画像更为丰富。
另外,在本实施例中,微博用户画像还可以实时动态给出已经贷款获批的用户的偿债能力是否可靠,比如,待预测用户的画像中的发布时间习惯特征标签对应着用户每天晚上发布微博的频率值非常高,则表示客户最近睡得很晚,且画像中还具有消极和厌恶特征所对应的情感标签则说明用户的情感多是负面,那么就需要提前预警,该客户存在不能按时还款的风险。
本实施例中的一种获取社交媒体用户画像的方法还可以解决信贷风控中风险预警与债务催收问题。
如贷前风控:通过用户授权社交媒体数据后,采用本实施例中的一种获取社交媒体用户画像的方法去预测用户的收入水平等画像,与用户提供的尽调报告进行匹配,如果不符,提出风险预警。
如贷中风控:通过用户授权社交媒体数据后,采用本实施例中的一种获取社交媒体用户画像的方法去预测用户的收入水平等画像,了解用户作息、关注主题、最近情绪的变化等,对用户的偿债能力提出动态预警。
如坏账发生后风控:通过用户之前授权的社交媒体数据,采用本实施例中的一种获取社交媒体用户画像的方法去预测用户的收入水平等画像,情绪变化和作息等信息,以使催收人员采用温和方式最佳的时机联系用户挽回信用评价。同时,根据社交媒体数据挖掘的用户特长,可以为用户提供就业信息等,提升用户的偿债能力。
另外,本实施例中的一种获取社交媒体用户画像的方法在其他的一些需要评估用户信息状况与社会阶层与社会经济状况的场景中,也可以使用。
比如,招聘时,通过用户授权获取用户社交媒体数据,采用本实施例中的一种获取社交媒体用户画像的方法去获取用户的社交媒体画像,一方面,判断用户讲述的工作经历是否属实;另一方面,可以挖掘用户的能力潜力,如关注技术讨论话题的用户,可能更具潜力。
本实施例中,基于上文提到的LDA主题模型,采用单条微博组成的语料库训练出模型,针对本发明训练集中每位用户的单条微博进行预测。文本统计250个主题中的33个主题在六类收入水平上的分布,并根据分布状况进行分析说明,如下表2所示:
表2
Figure BDA0002489746170000171
Figure BDA0002489746170000181
参见附图3和附图4,其中附图3和附图4中的纵坐标是比率,就是不同主题的微博内容占全部微博的比率。在本发明的实际应用中,收入水平为第一收入级别和第二收入级别的人,更加倾向于转载具有影响的头条博文,更加关注互联网科技、金融投资、公司治理、高档汽车和房地产等相关的主题。
参见附图5和附图6,其中附图5和附图6中的纵坐标是比率,就是不同主题的微博内容占全部微博的比率。在本发明的实际应用中,收入水平为第五收入级别和第六收入级别人,更加倾向于购物、娱乐、体育赛事,以及涉及网络用语与粤语方言用语的话题等。其中值得注意的是,低收入群体对于政治权利的关注度较为明显。
本实施例依据官方统计资料与经济学理论,综合考虑了现实中影响收入的主要因素,包括地区经济发展程度、行业领域、职位高低和企业所有制属性等四个因素,将用户收入水平划分为六个等级,并通过官方统计数据为每个收入水平赋予一个均值;第二,除了采用深度知识表示的方法,直接从大数据中抽取特征。本发明提出了一个较为全面的抽取框架,包括人口属性特征、行为习惯特征、文本特征和社交网络特征等。这些特征都能够反映用户社会经济状况的特征。其中,在文本特征提出方面,本发明综合以往社交媒体文本特征抽取经验,基于不同的角度,分别构建了LDA主题模型。另外,本发明依据社交网络“四度分隔”研究结论,选择合适的适当数量的抽样节点,构建了一种低时空开销的社区发现模型,最终抽取了用户社区发现特征;第三,本发明采用多层的深度CNN算法,训练了一种社交媒体用户收入水平预测模型。
本实施例中的一种获取社交媒体用户画像的方法是在在社交媒体大数据背景下,设计一种深度CNN算法,并通过从社交媒体用户UGC数据中抽取特征,标注训练数据,构建训练数据集,最终训练一种针对社交媒体用户的收入水平预测模型。基于深度学习的社交媒体用户收入水平预测模型可以预测社交媒体用户的收入水平,而收入水平是刻画社交媒体用户画像的一项重要内容。
首先,预先获取一批社交媒体用户产生的大数据,采用本发明设计的知识表示方法,抽取每位社交媒体用户的特征,同时为社交媒体用户打上收入水平的标签,最终构建用于训练的数据。然后,根据预先设计好的深度CNN算法,训练出一种用来预测社交媒体用户收入水平的预测模型。最后,从待预测社交媒体用户数据中抽取特征,并采用本发明训练好的社交媒体用户收入水平预测模型,预测每位用户画像。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种获取社交媒体用户画像的方法,其特征在于,所述方法包括:
S1、针对预先获取的大数据中的每一条用户信息,确定每一用户信息的特征并生成与所述特征相应的标签;
其中,所述预先获取的大数据中包括多条用户信息;
所述每一条用户信息包括用户的:职业信息数据、文本数据、人口属性数据、行为信息、关系网络信息数据;
其中,所述职业信息包括:工作经历信息、职位信息、工作地点信息、行业领域信息、工作年限和登记注册类型信息;
其中,所述文本数据包括:用户在社交媒体上发表的文本;
其中,所述人口属性数据包括:性别、注册时长、用户关注者数量、被关注者数量、用户在社交媒体上所发的文本的数量;
其中,所述行为信息数据包括:用户在社交媒体上所发表的文本的总数量、用户在社交媒体上转发的文本的数量、用户分别使用不同的终端发表文本的数量、用户在预设时间段内发表文本的数量、任一用户所发表的文本被转发的次数、任一用户所发表的文本被赞的次数、任一用户所发表的文本被评论条数;
所述关系网络信息数据:用户关注的账户以及关注所述用户账户的账户;
S2、根据具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型;
S3、获取待预测的用户信息;
S4、根据所述待预测的用户信息,采用所述训练后的社交媒体用户画像预测模型,获取待预测的用户的画像;
所述待预测的用户的画像为所述待预测的用户信息所对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
针对每一用户信息中的职业信息数据,采用预先设定的第一划分规则,进行划分,确定所述每一用户信息的收入级别特征,并生成与所述收入级别特征对应的收入标签;
所述第一划分规则为根据岗位信息、工作地点信息、行业领域信息和企业性质信息按照预先设定的规则进行划分的规则;
其中,所述收入级别特征包括:第一收入级别特征、第二收入级别特征、第三收入级别特征、第四收入级别特征、第五收入级别特征、第六收入级别特征;
其中,所述收入标签包括:与所述第一收入级别特征对应的第一收入标签,与所述第二收入级别特征对应的第二收入标签,与所述第三收入级别特征对应的第三收入标签,与所述第四收入级别特征对应的第四收入标签,与所述第五收入级别特征对应的第五收入标签,与所述第六收入级别特征对应的第六收入标签。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1还包括:
针对每一用户信息中的文本数据,进行主题特征提取和情感倾向特征提取,确定每一用户信息的主题特征和情感倾向特征,并生成与所述主题特征对应的主题标签和与所述情感倾向特征对应的情感标签。
4.根据权利要求3所述的方法,其特征在于,所述步骤S1包括
S11、针对每一用户信息的文本数据,采用预先设定的word2vec词向量模型获取第二文本数据;
其中所述第二文本数据为:采用向量化表示的文本数据;
S12、针对所述每一用户信息的第二文本数据,分别采用预先设定的LAD主题模型和预先设定的情感倾向模型,分别获取所述每一用户信息的主题特征以及与所述主题特征对应的主题标签以及所述每一用户信息的情感特征以及与所述情感特征对应的情感标签;
其中,所述主题特征包括:预先设定的250个主题特征中的至少一个;
其中,所述情感特征包括:积极和喜悦特征、积极和悲伤特征、积极和惊奇特征、积极和厌恶特征、消极和喜悦特征、消极和悲伤特征、消极和惊奇特征、消极和厌恶特征、中立和喜悦特征、中立和悲伤特征、中立和惊奇特征、中立和厌恶特征;
其中,所述LAD主题模型能够根据用户信息的第二文本数据确定所述用户信息的主题特征为预先设定的250个主题特征中的任一主题特征;
其中,所述预先设定的情感倾向模型为基于深度学习的word2vec抽取语料特征构建的模型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S1包括:
针对每一用户信息中的人口属性数据,确定所述每一用户信息中性别的特征、注册时长的特征、社交媒体影响力的特征,并生成与所述性别的特征对应的性别标签,与所述注册时长的特征对应的注册时长标签,与所述社交媒体影响力的特征对应的社交媒体影响力标签;
所述性别的特征为:所述用户的性别;
所述注册时长的特征为:当前用户的社交媒体注册的天数;
所述社交媒体影响力特征为:所述用户关注者数量、用户的粉丝数量。
6.根据权利要求5所述的方法,其特征在于,所述步骤S1包括:
针对每一用户信息中的行为信息数据,确定所述每一用户信息的转发发布特征、发布端使用特征、发布时间特征、文本影响力特征,并生成与所述转发发布特征对应的转发发布标签,与所述发布端使用特征对应的发布端使用标签,与所述发布时间特征对应的发布时间标签,与所述文本响应度特征对应的文本响应度标签;
转发发布特征为用户所发的微博中属于转发微博所占的比例值;
发布终端使用特征为用户使用不同终端,发布动态所占的比例值;
发布时间特征为用户每天预先设定的时间段内发布微博的频率值;
微博相应度为用户所发微博的微博影响力的平均值值;
微博影响力为每条微博被转发的次数、被赞的次数和被评论条数的和然后除以所发微博总数。
7.根据权利要求6所述的方法,其特征在于,所述步骤S1包括:
针对每一用户信息中的关系网络信息数据,采用预先设定的Node2Vec算法对每一个节点所属的社交网络进行向量化,生成与所述节点相应的向量;
其中,所述节点为用户的社交媒体账户;
根据所述节点与所述预先设定的多个节点的对应关系,采用预先设定的社区发现模型获取所述结点的社区值,并根据所述社区总数构建相应维数的向量,作为用户的社区特征;
其中,所述预先设定的多个节点为用户关注数或被关注数大于预先设定值的用户的社交媒体账户所属的节点。
8.根据权利要求7所述的方法,其特征在于,所述步骤S2包括:
根据所述大数据中所有具有标签的用户信息,采用预先设定的多层深度的CNN算法针对所述大数据中所有具有标签的用户信息进行训练获取用于社交媒体用户画像预测的模型;
其中,所述预先设定的多层深度的CNN算法包括:输出层、第一卷积层、第二卷积层、池化层、第一全连接层、第二全连接层、输出层。
9.根据权利要求8所述的方法,其特征在于,还包括:
S5、判断所述待预测的用户的画像是否符合预先设定的信用用户画像;
若符合,则将所述用户确定为信用用户;
其中,所述信用用户为:具有获取银行贷款资格的用户。
10.一种获取社交媒体用户画像的系统,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至9任一所述的获取社交媒体用户画像的方法。
CN202010401788.2A 2020-05-13 2020-05-13 一种获取社交媒体用户画像的方法及系统 Active CN113672818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401788.2A CN113672818B (zh) 2020-05-13 2020-05-13 一种获取社交媒体用户画像的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401788.2A CN113672818B (zh) 2020-05-13 2020-05-13 一种获取社交媒体用户画像的方法及系统

Publications (2)

Publication Number Publication Date
CN113672818A true CN113672818A (zh) 2021-11-19
CN113672818B CN113672818B (zh) 2023-11-14

Family

ID=78536873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401788.2A Active CN113672818B (zh) 2020-05-13 2020-05-13 一种获取社交媒体用户画像的方法及系统

Country Status (1)

Country Link
CN (1) CN113672818B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216419A (zh) * 2023-11-08 2023-12-12 江西为易科技有限公司 基于ai技术的数据分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824912A (zh) * 2016-03-15 2016-08-03 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法和装置
CN108647834A (zh) * 2018-05-24 2018-10-12 浙江工业大学 一种基于卷积神经网络结构的交通流预测方法
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN109086351A (zh) * 2018-07-17 2018-12-25 北京光年无限科技有限公司 一种获取用户标签的方法及用户标签系统
CN110196849A (zh) * 2019-06-05 2019-09-03 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110489660A (zh) * 2019-07-22 2019-11-22 武汉大学 一种社交媒体公开数据的用户经济状况画像方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824912A (zh) * 2016-03-15 2016-08-03 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法和装置
CN108647834A (zh) * 2018-05-24 2018-10-12 浙江工业大学 一种基于卷积神经网络结构的交通流预测方法
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN109086351A (zh) * 2018-07-17 2018-12-25 北京光年无限科技有限公司 一种获取用户标签的方法及用户标签系统
CN110196849A (zh) * 2019-06-05 2019-09-03 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110489660A (zh) * 2019-07-22 2019-11-22 武汉大学 一种社交媒体公开数据的用户经济状况画像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIKIHIL PATTISAPU 等: "Medical persona classification in social media", 《2017 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING》, pages 1 - 2 *
田娟 等: "基于大数据平台的企业画像研究综述", 《计算机科学》, vol. 42, no. 2, pages 52 - 68 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216419A (zh) * 2023-11-08 2023-12-12 江西为易科技有限公司 基于ai技术的数据分析方法
CN117216419B (zh) * 2023-11-08 2024-02-09 江西为易科技有限公司 基于ai技术的数据分析方法

Also Published As

Publication number Publication date
CN113672818B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
Karami et al. Twitter and research: A systematic literature review through text mining
CN107633044B (zh) 一种基于热点事件的舆情知识图谱构建方法
CN108073569B (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US9317594B2 (en) Social community identification for automatic document classification
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
Thelwall et al. Damping sentiment analysis in online communication: discussions, monologs and dialogs
CN111309936A (zh) 一种电影用户画像的构建方法
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN106294744A (zh) 兴趣识别方法及系统
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Zhang et al. A multiclassification model of sentiment for E-commerce reviews
CN109766452A (zh) 一种基于社交数据的人物性格分析方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN106055657B (zh) 用于特定人群的观影指数评价系统
Arviv et al. It’sa thin line between love and hate: Using the echo in modeling dynamics of racist online communities
CN113672818B (zh) 一种获取社交媒体用户画像的方法及系统
CN106095839A (zh) 特定观影群体数据的提取及其处理方法
Erni et al. Wild hopes: sourcing the political vocabulary of digital citizenship from the LIHKG forum
Gao et al. Rumor detection model based on multimodal machine learning
KR20210117038A (ko) 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법
Suzuki et al. Grasping Users' Awareness for Environments from their SNS Posts
Najafi et al. Comparing analysis of social media content with traditional survey methods of predicting opening night box-office revenues for motion pictures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant