CN108804701A

CN108804701A - 基于社交网络大数据的人物画像模型构建方法

Info

Publication number: CN108804701A
Application number: CN201810628230.0A
Authority: CN
Inventors: 韩月辉; 周逸鸣; 赵雷
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2018-11-13

Abstract

本发明公开了一种基于社交网络大数据的人物画像模型构建方法，作用于人物社交网络信息，所述人物社交网络信息包括人物的基础信息、推文信息、朋友信息，包括以下步骤：步骤1：数据预处理，对采集的人物社交网络信息进行清洗、筛选或替换；步骤2：人物的隐性属性的挖掘，基于人物社交网络信息，对人物的隐性属性进行挖掘，步骤3：人物社交关系网的构建，根据社交网络人物的关系信息，构建社交关系网；步骤4：导出人物画像结果，根据人物社交关系网优化所述人物的隐性属性的计算结果，并将人物的基础信息、人物的隐性属性和人物的关系信息导出形成人物画像。本发明至少具有以下优点：能够准确全面地对用户进行画像。

Description

基于社交网络大数据的人物画像模型构建方法

技术领域

本发明涉及人物画像模型构建技术领域，尤其涉及一种基于社交网络大数据的人物画像模型构建方法。

背景技术

社交网络以及以社交网络为基础的互联网应用的迅猛发展带来数据的爆炸式增长，每个人都可以在互联网上发布数据，人们越来越依赖网络进行信息的交流与共享。然而，海量的网络数据使得人物信息表现为零乱、碎片化，用户迫切希望能够方便快捷地获取人物的全方位信息，而人物画像的提取是全方位获取用户信息的关键。目前，人物画像技术取得了非常广泛的应用，例如：精准营销、分析产品的潜在用户；用户数据统计；数据挖掘、构建智能推荐系统；进行效果评估、完善产品运营、提升服务质量；对服务或产品进行私人定值，即个性化的服务某类群体甚至每一位用户；业务经营分析以及竞争分析、影响企业发展战略。

目前，常用的人物画像模型构建方法主要包括基于本体/概念的画像方法、基于主题/话题的画像方法、基于兴趣/偏好的画像方法以及基于行为习惯的画像方法等，以上方法大多是针对某特定的属性对人物进行画像，例如人物的行为习惯、兴趣爱好等，并不能全方位刻画人物，画像结果不够准确全面。另外，现有的算法大多没有考虑人物在社交关系网中的作用，忽略了社交网络中该用户与其它人的相互作用。

发明内容

本发明要解决的技术问题是提供一种基于社交网络大数据的人物画像模型构建方法，能够准确全面地对用户进行画像。

为了解决上述技术问题，本发明提供了一种社交网络大数据的人物画像模型构建方法，作用于人物社交网络信息，所述人物社交网络信息包括人物的基础信息、推文信息、朋友信息，还包括以下步骤：步骤1：数据预处理，用于对采集的人物社交网络信息进行清洗、筛选或替换；步骤2：人物的隐性属性的挖掘，基于所述人物社交网络信息，对人物的隐性属性进行挖掘，所述人物的隐性属性包括职业领域、兴趣爱好、心理状态变化、活跃度、社交网络影响力；步骤3：人物社交关系网的构建，根据社交网络人物的关系信息，构建社交关系网；步骤4：导出人物画像结果，根据所述人物社交关系网优化所述人物的隐性属性的计算结果，并将所述人物的基础信息、人物的隐性属性和人物的关系信息导出形成人物画像。

进一步地，所述数据预处理依次包括大小写转换、分词、词性打标、停用词的删除、俚语的删除或替换、链接的删除、表情词的删除或替换；所述大小写转换包括：统一将所述社交网络信息转换成小写；所述分词包括：将转换成小写的所述社交网络信息分隔成多个单词；所述词性打标包括：对每个所述单词进行词性标注；所述停用词包括：没有实际含义的词；所述俚语包括：非正式、较口语的语句。

进一步地，计算所述人物的隐性属性时：当所述人物的隐性属性为职业领域时，所述数据预处理中直接将所述俚语和表情词进行删除，当所述人物的隐性属性为心理状态时，所述数据预处理中将所述俚语和表情词进行替换成相应的单词或词组。

进一步地，所述职业领域包括政治、宗教、军事、经济、科技、教育、农业、娱乐、体育；所述职业领域的挖掘包括：根据已采集的人物社交网络信息通过分类方法分析确定所述职业领域标签，所述分类方法包括集成学习，所述集成学习的基分类器包括多项式叶贝斯分类器，具体包括以下步骤：

步骤301：整体数据集的确定：所述整体数据集包括所述人物社交网络信息和训练集，所述训练集包括：基于BCC、CNN、维基词条文章，对所述人物社交网络信息的关键词进行搜索获得的不同类别的文本数据；

步骤302：抽样形成数据集：利用bootstrap方法从所述训练集中采取有放回抽样得到N个数据集；

步骤303：分类器的确定和导出：计算每个所述数据集的TF-IDF特征矩阵，在每个所述训练集上根据特征矩阵训练得到一个分类器；将得到的N个所述分类器作为结果分类器导出形成pickle文件；

步骤304：分类器打分并确定职业领域分类标签：读入所述人物社交网络信息并计算所述人物社交网络信息的TF-IDF特征矩阵；将所述人物社交网络信息的TF-IDF特征矩阵导入所述结果分类器计算出所述职业领域包括的各分类的得分；将得分最高的分类作为职业领域标签。

进一步地，所述兴趣爱好的挖掘包括：根据已采集的人物社交网络信息导出人物的兴趣爱好标签，具体包括以下步骤：

步骤311：候选标签列表的确定：通过数据预处理，将所述单词中包括的名词、Twitter话题标签和包含所述名词的词组作为候选标签形成候选标签列表；

步骤312：候选标签TF值的确定：依次读入每个所述候选标签并统计相同候选标签出现的次数，作为该候选标签的TF值；

步骤313：候选标签IDF值的确定：读入语料库，设语料库中有n篇文档，对于每个候选标签w，语料库中有m篇文档包含候选标签w，则候选标签w的IDF值为：IDF＝log(n/m+1)；候选标签w的TFIDF值为：TFIDF＝TF×IDF；

步骤314：候选标签之间的权值计算：将所述候选标签集作为一张无向有权图，每个所述候选标签看做图中的一个节点，若两个候选标签出现在同一条tweet中，则在两个候选标签代表的节点之间建立边，边上的权值为两个候选标签同时出现的tweet的条数；

步骤315：候选标签的得分计算：候选标签的得分计算：初始化每个所述候选标签w的得分S(w)为1，根据以下公式迭代计算每个候选标签的得分，直至收敛，

O(j)＝∑_e(j,k)∈Ew(j,k)

其中，表示w(i,j)候选标签i和j之间的权值，O(j)表示以节点j为端点的边的权值和；λ为阻尼系数，一般取值0.85；e(i,j)表示以节点i和节点j为端点的边；E为边集；TFIDF(i)表示节点i代表的候选标签的TFIDF值；

步骤316：兴趣标签的获取：对每个所述候选标签的S(i)进行降序排列，导出S(i)最高的h个候选标签标签，则将该h个候选标签作为最终的兴趣标签(h为需提取的兴趣标签的数量)。

进一步地，所述心理状态变化的挖掘包括：根据情感字典中的情感词和数据预处理后的人物社交网络数据包含的情感词之间的映射、以及人物社交网络数据中包含的否定、希望、转折、强调关系进行打分，以获得人物的正面、负面或中性的心理状态得分。

进一步地，所述活跃度的挖掘包括：按照由近至远的时间梯度依次对所述推文信息进行读入，并统计原创推文数、转发推文数、最近和最早发布的推文之间的时间跨度，带入下述公式获得数值：

x＝0.65*log(x₁*rate+1)+0.35*log(x₂*rate+1)

其中，x表示活跃度；x1表示原创推文数；x2表示转发推文数；t表示时间跨度。

进一步地，所述社交网络影响力的挖掘包括：通过推文影响力、活跃度和粉丝影响力通过以下公式计算得到

y＝0.5y₁+0.2x+0.3y₂

其中y表示社交网络影响力；y₁表示推文影响力；x表示活跃度；y₂表示粉丝影响力。

进一步地，所述人物社交关系网的构建具体包括，采集社交网络人物列表，并从人物列表中任取两个人物A和B，读入A和B的friends列表，如果A在B的friends列表中，则Bfollow A，B为A的粉丝；如果B在A的friends列表中，则A follow B，A为B的粉丝；将人物A和B的follow关系存入Neo4j中构建社交关系网。

进一步地，所述基础信息包括账号名、账号创建日期、人物描述；所述朋友信息包括该社交网络人物关注的其他用户。

借由上述技术方案，本发明至少具有以下优点：本发明直接从社交网络中采集人物社交网络信息，并对所述人物社交网络信息进行处理；通过人物的隐性属性的计算，结合人物社交关系网，能够提高人物画像的准确率，同时能更加全面地反应人物的社会属性。

附图说明

图1是本发明的整体方法流程图；

图2是本发明中职业领域的挖掘流程图；

图3是本发明中兴趣爱好的挖掘流程图；

图4是本发明中心理状态变化的挖掘流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

结合图1至图X所示，本发明公开了一种基于社交网络大数据的人物画像模型构建方法，作用于人物社交网络关系，本发明中优选地所述人物社交网络信息人物的基础信息、推文信息、朋友信息；其中，所述基础信息包括账号ID、账号名、头像、账号创建日期、人物描述、地点、语言、时区、官方认证、隐私保护、粉丝数、朋友数、发表的推文数、喜欢的推文数；所述朋友信息包括该社交网络人物关注的其他用户。

本发明的人物画像模型构建方法还包括以下步骤：

步骤1：数据预处理，用于对采集的人物社交网络信息进行清洗、筛选或替换。所述数据预处理依次包括大小写转换、分词、词性打标、停用词的删除、俚语的删除或替换、链接的删除、表情词的删除或替换及转发标识的删除(以Twitter为例，如RT@screen_name:)。所述大小写转换包括：统一将所述社交网络信息转换成小写；所述分词包括：将转换成小写的所述社交网络信息分隔成多个单词；所述词性打标包括：对每个所述单词进行词性标注；所述停用词包括：没有实际含义的词；所述俚语包括：非正式、较口语的语句。其中，计算所述人物的隐性属性时：当所述人物的隐性属性为职业领域时，所述数据预处理中直接将所述俚语和表情词进行删除，当所述人物的隐性属性为心理状态时，所述数据预处理中将所述俚语和表情词进行替换成相应的单词或词组，例如“^_^”需要被替换成“happy”。

步骤2：人物的隐性属性的挖掘，基于所述人物社交网络信息，对人物的隐性属性进行挖掘，所述人物的隐性属性包括职业领域、兴趣爱好、心理状态变化、活跃度、社交网络影响力。本发明中，优选地所述职业领域包括政治、宗教、军事、经济、科技、教育、农业、娱乐、体育。

本发明中，所述职业领域的挖掘包括：根据已采集的人物社交网络信息通过分类方法分析确定所述职业领域标签，所述分类方法包括集成学习，所述集成学习的基分类器包括多项式叶贝斯分类器，具体包括以下步骤：

本发明中，所述兴趣爱好的挖掘包括根据已采集的人物社交网络信息导出人物的兴趣爱好标签，具体包括以下步骤：

步骤311：候选标签列表的确定：通过数据预处理，将所述单词中包括的相应单词、Twitter话题标签(Twitter中以#开头的词为话题标签)和包含所述名词的词组作为候选标签形成候选标签列表；

步骤312：候选标签TF值的确定：依次读入每个所述候选标签并统计相同候选标签出现的次数，作为该候选标签的TF值；；

O(j)＝∑_e(j,k)∈Ew(j,k)

通过上述的计算步骤，本发明的计算方法融合了传统的TFIDF和TextRank算法，既考虑了兴趣标签在语料库中的频率，又考虑了文档结构对兴趣标签的影响。

本发明中，所述心理状态变化的挖掘包括：根据情感字典中的情感词和数据预处理后的人物社交网络数据包含的情感词之间的映射、以及人物社交网络数据中包含的否定、希望、转折、强调关系进行打分，以获得人物的正面、负面或中性的心理状态得分，具体包括以下步骤：

步骤321：对数据预处理后的表情词和俚语进行替换，例如“^_^”需要被替换成“happy”；

步骤322：对词性打标后的单词进行提取情感词形成候选情感词集合，优选地所述候选情感词包括名词、副词、动词和形容词；

步骤323：根据所述候选情感词集合内的单词与情感字典中的单词之间的映射获得候选情感词的得分，并结合句子关系判断所述情感词是否被关系词修饰，被关系词修饰的情感词得分发生变化，累加得分以获得心理状态的最终得分。

本发明中，所述情感字典中的词分为正面词汇和负面词汇，得分在-5分至+5分之间；所述句子关系包括转折关系、希望关系、否定关系、强调关系。其中转折关系对应的单词包括：but、however；希望关系对应的单词包括：hope、wish；否定关系对应的单词包括：not、n't、no、never、none、hardly、isnt；强调关系对应的单词包括：fairly、pretty、quite、very、much、too、greatly、highly、really、extremely、so。其中被转折关系修饰的单词(转折词之间的情感词)得分×0.1，例如:Good day,but I’m sick；被否定关系修饰的单词，第一种得分：仅被否定关系修饰，则得分×(-0.8)，例如：notbad；第二种得分：如果同时被强调关系修饰，则得分在第一种得分的基础上×(-0.3)，例如：nottoo bad；第三种得分：如果同时被希望关系修饰，则得分在第一种得分的基础上×(-0.4)，例如：hope you didn’tget sick；其中被强调关系修饰的单词得分×1.8，例如veryhappy。

本发明中，所述活跃度的挖掘包括：按照由近至远的时间梯度依次对所述推文信息进行读入，并统计原创推文数、转发推文数、最近和最远推文之间的时间跨度，带入下述公式获得数值：

x＝0.65*log(x₁*rate+1)+0.35*log(x₂*rate+1)

本发明中，所述社交网络影响力的挖掘包括：通过推文影响力、活跃度和粉丝影响力通过以下公式计算得到社交网络影响力分数，具体为：y＝0.5y₁+0.2x+0.3y₂，其中y表示社交网络影响力；y₁表示推文影响力；x表示活跃度；y₂表示粉丝影响力。

其中：所述y₁＝y₁₁*0.6+y₁₂*0.4，其中y₁₁表示转发比率，y₁₂表示喜欢比率；

其中：所述y₁₁＝0.45*log(y₁₁₁+1)+0.35*log(y₁₁₂+1)+0.2*log(y₁₁₃+1)，其中y₁₁₁表示原创推文转发总数，y₁₁₂表示原创推文转发平均数，y₁₁₃表示原创推文转发最大数；

其中：所述y₁₂＝0.45*log(y₁₂₁+1)+0.35*log(y₁₂₂+1)+0.2*log(y₁₂₃+1)，其中y₁₂₁表示原创推文喜欢总数，y₁₂₂表示原创推文喜欢平均数，y₁₂₃表示原创推文喜欢最大数；

其中：所述y₂＝log(y₂₁+1)，其中y₂₁表示粉丝数。

步骤4：人物社交关系网的构建，根据社交网络人物的关系信息，构建社交关系网。所述人物社交关系网的构建具体包括，采集社交网络人物列表，并从人物列表中任取两个人物A和B，读入A和B的friends列表，如果A在B的friends列表中，则B followA，B为A的粉丝；如果B在A的friends列表中，则AfollowB，A为B的粉丝；将人物A和B的follow关系存入Neo4j中构建社交关系网。

步骤5：导出人物画像结果，根据所述人物社交关系网优化所述人物的隐性属性的计算结果，即职业领域分类和影响力分数，并将所述人物的基础信息、隐性属性和关系信息导出形成人物画像的得分。具体包括如下：

对于职业领域：步骤501：任取一人物，假设为A，记A职业领域最高的得分为S1，第二高的得分为S2，最低的得分为S3；

步骤502：若满足S1＞2*S2，或S1＞S2+50，则保持步骤304中A的所述职业领域各分类的得分；若不满足，则对A的所述职业领域各分类的得分进行优化；

步骤503：基于所述人物社交关系网，分别对A的粉丝和朋友的职业领域标签和各所述职业领域标签所占整体的比例ri进行统计；

步骤504：将所述职业领域各分类的得分带入S＝S+ri*(2*S1-S2-S3)/2进行优化，以确定所述职业领域各分类的最终得分。

对于所述社交网络影响力：步骤511：记A的社交网络影响力分数为i，基于社交关系网的构建，根据已采集的A的全部粉丝的影响力来优化A的影响力分数。本发明中，所述社交关系网的构建过程中优选的社交网络人物数量为1000，并统计所述社交网络人物中A的所有粉丝的社交网络影响力；

步骤512：基于A的粉丝基础上创建集合S，所述集合S用于保存A的影响力较大的粉丝。设每个粉丝的社交网络影响力分数为f，分别对每个所述f进行判断，若f≤90，则忽略该粉丝；若f＞90，则将该粉丝加入集合S。遍历A的所有粉丝，直至所有影响力大于90的粉丝都加入到集合S中。

步骤513：对集合S中的每个粉丝，计算其影响力的平均值fa。设集合S中粉丝数量为n，如果n<10，则将A的社交网络影响力分数带入更新公式：i_x＝i+n*3％*f_a；如果n≥10，则将A的社交网络影响力分数带入更新公式：i_x＝i+10*3％*f_a，其中ix表示更新后的A的社交网络影响力分数，更新后的影响力分数为最终A的社交网络影响力分数。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于社交网络大数据的人物画像模型构建方法，作用于人物社交网络信息，所述人物社交网络信息包括人物的基础信息、推文信息、朋友信息，其特征在于，还包括以下步骤：

-步骤1：数据预处理，用于对采集的人物社交网络信息进行清洗、筛选或替换；

-步骤2：人物的隐性属性的挖掘，基于所述人物社交网络信息，对人物的隐性属性进行挖掘，所述人物的隐性属性包括职业领域、兴趣爱好、心理状态变化、活跃度、社交网络影响力；

-步骤3：人物社交关系网的构建，根据社交网络人物的关系信息，构建社交关系网；

-步骤4：导出人物画像结果，根据所述人物社交关系网优化所述人物的隐性属性的计算结果，并将所述人物的基础信息、隐性属性和关系信息导出形成人物画像。

2.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述数据预处理依次包括大小写转换、分词、词性打标、停用词的删除、俚语的删除或替换、链接的删除、表情词的删除或替换；所述大小写转换包括：统一将所述社交网络信息转换成小写；所述分词包括：将转换成小写的所述社交网络信息分隔成多个单词；所述词性打标包括：对每个所述单词进行词性标注；所述停用词包括：没有实际含义的词；所述俚语包括：非正式、较口语的语句。

3.如权利要求2所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，计算所述人物的隐性属性时：当所述人物的隐性属性为职业领域时，所述数据预处理中直接将所述俚语和表情词进行删除，当所述人物的隐性属性为心理状态时，所述数据预处理中将所述俚语和表情词进行替换成相应的单词或词组。

4.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述职业领域包括政治、宗教、军事、经济、科技、教育、农业、娱乐、体育；所述职业领域的挖掘包括：根据已采集的人物社交网络信息通过分类方法分析确定所述职业领域标签，所述分类方法包括集成学习，所述集成学习的基分类器包括多项式叶贝斯分类器，具体包括以下步骤：

5.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述兴趣爱好的挖掘包括：根据已采集的人物社交网络信息导出人物的兴趣爱好标签，具体包括以下步骤：

O(j)＝∑_e(j,k)∈Ew(j,k)

6.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述心理状态变化的挖掘包括：根据情感字典中的情感词和数据预处理后的人物社交网络数据包含的情感词之间的映射、以及人物社交网络数据中包含的否定、希望、转折、强调关系进行打分，以获得人物的正面、负面或中性的心理状态得分。

7.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述活跃度的挖掘包括：按照由近至远的时间梯度依次对所述推文信息进行读入，并统计原创推文数、转发推文数、最近和最早发布的推文之间的时间跨度，带入下述公式获得数值：

x＝0.65*log(x₁*rate+1)+0.35*log(x₂*rate+1)

8.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述社交网络影响力的挖掘包括：根据推文影响力、活跃度和粉丝影响力通过以下公式计算得到

y＝0.5y₁+0.2x+0.3y₂

9.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述人物社交关系网的构建具体包括，采集社交网络人物列表，并从人物列表中任取两个人物A和B，读入A和B的friends列表，如果A在B的friends列表中，则B followA，B为A的粉丝；如果B在A的friends列表中，则AfollowB，A为B的粉丝；将人物A和B的follow关系存入Neo4j中构建社交关系网。

10.如权利要求1所述的基于社交网络大数据的人物画像模型构建方法，其特征在于，所述基础信息包括账号名、账号创建日期、人物描述；所述朋友信息包括该社交网络人物关注的其他用户。