CN112084333B - 一种基于情感倾向分析的社交用户生成方法 - Google Patents

一种基于情感倾向分析的社交用户生成方法 Download PDF

Info

Publication number
CN112084333B
CN112084333B CN202010895038.5A CN202010895038A CN112084333B CN 112084333 B CN112084333 B CN 112084333B CN 202010895038 A CN202010895038 A CN 202010895038A CN 112084333 B CN112084333 B CN 112084333B
Authority
CN
China
Prior art keywords
microblog
user
label
word
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895038.5A
Other languages
English (en)
Other versions
CN112084333A (zh
Inventor
徐向华
胡杰
王然
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010895038.5A priority Critical patent/CN112084333B/zh
Publication of CN112084333A publication Critical patent/CN112084333A/zh
Application granted granted Critical
Publication of CN112084333B publication Critical patent/CN112084333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种基于情感倾向分析的社交用户生成方法。现有用户标签生成方法没有考虑用户对主题的情感倾向。本发明方法首先以微博内容为基础,采用聚类算法构建语义本体,获取用户的微博内容进行情感分类,将带有情感倾向标记的微博信息处理,得到词袋模型,提取词袋模型的词,利用语义本体获取类别信息,统计带有情感标记的类别信息,添加二级标签,得到最终标签,将人口统计信息映射到相应的标签中,构造网络图,根据网络图节点间的边权值大小半监督地生成用户。本发明方法解决了目前社交网络用户不能自动生成用户以及生成的用户标签不准确的问题,能够生成符合某一主题的社交用户,为后续的社会工程研究打下基础。

Description

一种基于情感倾向分析的社交用户生成方法
技术领域
本发明涉及计算机应用与互联网技术领域,特别是涉及一种基于社交网络文本情感倾向分析的用户生成方法。
背景技术
二十一世纪互联网技术得到飞速的发展,用户通过社交平台发布信息的方式变得多种多样,可以使用短信、邮件、实时软件以及网页来发布自己编辑的信息,使得社交平台上聚集了大量与个人隐私相关联的数据。通过研究和分析这些数据,可以挖掘出与用户相关的兴趣标签和对应的情感倾向。
社交媒体近年来的崛起已经改变了人们的生活方式。人们热衷在社交网络上关注自己的兴趣,分享自己的喜好,评论流行的趋势,这也给数据挖掘技术带来了很大价值,可以被挖掘很多的即时的、潜在的、有价值的知识与模式,这些信息可以被用于网络热点事件发现、网络民意调查、舆情监督、特定市场分析、销售策划等领域。社交用户行为模式近似于社区网站,其蕴含的结构化与半结构化数据中包含了很多可发现的内容。社交用户生成方法是为了抽象地表示特定的一组具有相似行为、属性或特征的消费者,每一个角色为了更接近真实,都有各自详细的描述,包括:用户名,年龄,性别,擅长领域等细节。在社交网络中存在大量的虚假用户和僵尸用户,一些网络黑客利用它们进行社会工程攻击和舆论控制,我们分析了虚假用户的生成以及它们如何进行社交活动,这些对于制定针对性防御计划有重大意义。
目前的社交用户生成方法较少,更多的是聚焦于用户标签的生成,并未将用户属性映射至构建好的标签库中,标签独立于用户而存在,没有对其进一步地研究利用。在标签构建方面,传统的方法将用户的推文构建词袋模型,映射到语义本体的类别上,收集标签信息,但是此类方法只能通过关键词数量来判断,并没有考虑用户对主题的情感倾向性。由于消极情绪的存在,会对一些主题爱好产生影响,因此干扰了生成用户的完整性,对后面用户分析形成很大的误导。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于情感倾向分析的社交用户生成方法,利用大数据时代获取数据的便利性,通过提取用户基本资料、用户关系数据和用户微博,基于情感倾向分析不同用户群体的行为模式和兴趣爱好并建立用户标签,利用人口统计学分析用户群体的基本特征(年龄,性别,所在地),半监督式地生成社交用户。
为实现上述目标,本发明采用如下方案:
步骤(1).以微博内容为基础,采用聚类算法构建语义本体;
步骤(2).获取用户的微博内容并进行预处理,进行情感分类,得到带有情感倾向标记的微博信息;
步骤(3).将带有情感倾向标记的微博信息进一步处理,得到词袋模型;
步骤(4).提取词袋模型的词,利用语义本体获取类别信息;
步骤(5).采用投票策略统计带有情感标记的类别信息,添加二级标签,得到最终标签;
步骤(6).将人口统计信息映射到相应的标签中,构造网络图;
步骤(7).根据网络图节点间的边权值大小半监督地生成用户。
进一步,步骤(1)具体是:
(1.1).爬取用户微博T、用户关系R和用户信息U到数据库中;
(1.2).对用户微博T使用正则表达式过滤特殊字符和字段,以及活跃度低的用户,将英文统一为小写;
(1.3).使用Word2Vec向量化微博T内容,得到以键值对形式表示的语料库文件;语料库文件中每一个词对应一个向量W=[w1,w2,...,wJ];其中,J是词向量的维数,wj表示第j维分量,j=1,2,...,J;
(1.4).遍历并提取语料库中的向量,得到I×J的关键词矩阵M,I表示关键词个数;
(1.5).利用聚类算法聚类关键词矩阵,得到聚类中心和类成员;
(1.6).采用方差分析判断类中心之间差异显著性,确定簇中心,构建语义本体;
(1.7).定义语义本体的存储结构,包括两层:第一层类别存储对应本体名称和语义本体列表,其中本体列表存储子类本体名称和对应的子类本体列表;第二层本体存储对应本体列表中存储自身的描述,采用关键词方式表示;
(1.8).筛选语义本体的子类中不符合或模糊界限的关键词,精炼语义本体。
进一步,步骤(2)具体是:
(2.1).获取用户微博和关系数据,使用正则化匹配去除标点符号;
(2.2).构建N×P的用户数据矩阵DM,N为用户的数量,P为用户的属性个数,数据矩阵DM的行向量是un=(unb1,unb2,...,unbP),数据矩阵DM的列向量是bp=(u1bp,u2bp,...,unbP),unbp表示第n行第p个微博推文属性,n=1,2,...,N,p=1,2,...,P;
(2.3).将微博推文属性unbp利用情感分析工具进行情感分析,得到情感分数δ;
(2.4).在每条微博后加上情感标志位E,E=-1,0,1,分别表示消极、无感和积极;δ<δ1时E=-1,δ1≤δ<δ2时E=0,δ≥δ2时E=1;δ1和δ2为两个划分点,δ2>δ1
进一步,步骤(3)具体是:
(3.1).获取用户数据矩阵DM,包括具有情感标志位的推文属性;
(3.2).在(2.1)的基础上过滤掉特殊字符,对文本进行统一化大小写处理;
(3.3).使用中文文本分词工具对微博推文进行分词,得到词袋,标注词性;
(3.4).依照中英文停用词表过滤词袋中的停用词;
(3.5).按照词性过滤非动词和非名词,得到词袋模型BM(T)=[bm1,bm2,...,bmK];其中,K为词袋模型中词的个数,bmk表示词袋模型中第k个词,k=1,2,...,K。
进一步,步骤(4)具体是:
(4.1).在语义本体中查找与bm等价的语义本体bo,bm∈BM(T);若查找到,则词bm即为bo;
(4.2).如果在语义本体bo的语义本体描述中存在词bm,则将词bm替换为语义本体bo的名称;
(4.3).如果词bm多次出现,则是多义词,结合关键词矩阵M和上下文语境消除歧义性;
(4.4).将消歧后的词bm按照(4.2)进行替换;
(4.5).如果没有在语义本体bo中找到词bm,在词袋中删除;
(4.6).重复执行(4.1)~(4.5),遍历词袋模型,得到子类别集合O(T)=[bo1,bo2,...,boL],其中L是微博中语义本体bo的名称个数,bol表示第l个语义本体,l=1,2,...,L;
(4.7).将用户数据矩阵DM的微博推文属性unbp替换为子类别集合O(T)和情感标志位E,表示如下:unbp=[O1(T)E1,O2(T)E2,...,OR(T)ER],R为微博个数。
进一步,步骤(5)具体是:
(5.1).对于语义本体bol,如果存在于其父类的语义列表中,将其父类语义名称以键的形式存入标签字典,初始化值为1;如果键已存在,值自增1;
(5.2).重复执行(5.1),遍历第r个微博子类别集合Or(T),r=1,2,...,R,得到微博标签字典Dictr[Tag];
(5.3).将微博标签字典的值排序,取排名靠前的标签集合sortTag={Tag1,Tag2,...,TagS};S为自定义标签个数,Tags表示第s个标签本体,s=1,2,...,S;
(5.4).将sortTag在微博标签字典Dictr[Tag]中的值与对应的情感标志位E相乘,与属于相同语义本体的值相加,得到某一领域最终的情感倾向权值
Figure GDA0002717108290000041
(5.5).将情感倾向权值作为二级标签,与sortTag结合得到用户的标签集合H(h1,h2,...,hS);其中,hs=TagsWeights,s=1,2,...,S;
(5.6).将数据矩阵DM的属性unbp替换为集合H。
进一步,步骤(6)具体是:
(6.1).根据用户数据矩阵DM的行向量un,将用户的基本资料映射到标签信息上;
(6.2).对于每一个省、市和地区,构建情感网络图和标签网络图,以不同性别下年龄段和类别为情感网络图和标签网络图的图节点,图节点间的边代表该年龄段和性别属于该类别;
(6.3).将该省、市和地区对应的人口统计信息映射到微博属性unbp的集合H中;
如果情感网络图中对应的图节点间未有边相连,把该用户的标签情感权值Weightem作为边的权值,否则将权值Weightem与边的权值相加,更新为新的权值;
如果标签网络图中对应的图节点间未有边相连,把图节点连接,初始化边的权值Weighttag=1,否则边的权值自增1,更新为新的权值;
(6.4).遍历用户数据矩阵DM,得到最终的基于城市的情感网络图
Figure GDA0002717108290000042
和标签网络图
Figure GDA0002717108290000043
进一步,步骤(7)具体是:
(7.1).将标签网络图
Figure GDA0002717108290000051
利用深度优先遍历,找到权值最大的边以及相应的顶点对Node(node1,node2);
(7.2).在情感网络图
Figure GDA0002717108290000052
利用深度优先遍历搜寻连结Node(node1,node2)的边权值,记为Emotion;
(7.3).将Node中的信息映射到姓名、性别和年龄字典,得到对应的姓名,当作用户名UName;
(7.4).将顶点对中的信息和用户名结合,顶点对的权值作为情感标志位,生成以地区为标准的虚拟用户:U(UName,Age,Area,Gender,Tag,Emotion);其中,Age表示年龄,Area表示地区,Gender表示性别,Tag表示标签,Emotion表示情感标志位。
至此,得到带有情感标志位的用户,完成整个系统的用户生成。
本发明方法是从大量的社交用户中分析兴趣爱好相关性大的部分人群的特性,据此生成需要的社交用户。本发明的数据集采用大量微博数据,分析结果更可信。在选择语料库方面,使用了微博推文作为语料库用来建立语义本体。在标签构建方面,传统方法将用户的推文构建词袋模型,映射到语义本体的类别上,收集标签信息,此类方法只能通过关键词数量来判断,并没有考虑用户对主题的情感倾向性。由于消极情绪的存在,会对一些主题爱好产生影响,干扰了生成用户的完整性,对后面用户分析形成很大的误导。本发明方法添加了情感倾向的二级标签,弥补了传统标签分类的不足,结合用户的情感,使产生的用户更具代表性。
本发明方法解决了目前社交网络用户不能自动生成用户以及生成的用户标签不准确的问题,能够生成符合某一主题的社交用户,为后续的社会工程研究打下基础。
附图说明
图1本发明方法流程图;
图2为图1中以微博内容和聚类算法构建语义本体流程图;
图3为图1中微博信息预处理以及情感分类流程图;
图4为图1中将微博信息进行消歧过滤得到词袋模型流程图;
图5为图1中利用语义本体获取词袋模型中词的类别信息流程图;
图6为图1中采用投票策略统计情感标记类别并得到最终标签流程图;
图7为图1中构建情感网络图和标签网络图流程图;
图8为图1中利用网络图节点间的边权值大小半监督地生成用户流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,基于情感倾向分析的社交用户生成方法,以微博文本为基础,采用聚类算法生成语料库,构建语义本体,将微博推文情感分析,添加情感标志位,利用分词工具建立微博内容的词袋模型,定位词语在语义本体的类别,对词进行消歧处理得到标签,利用图搜索算法生成用户。具体步骤是:
步骤(1).以微博内容为基础,采用聚类算法构建语义本体;
步骤(2).获取用户的微博内容并进行预处理,进行情感分类,得到带有情感倾向标记的微博信息;
步骤(3).将微博信息进一步处理,得到词袋模型;
步骤(4).提取词袋模型的词,利用语义本体获取类别信息;
步骤(5).采用投票策略统计带有情感标记的类别信息,添加二级标签,得到最终标签;
步骤(6).将人口统计信息映射到相应的标签中,构造网络图;
步骤(7).根据网络图节点间的边权值大小半监督地生成用户。
如图2所示,步骤(1)具体是:
(1.1).爬取用户微博T、用户关系R和用户信息U到数据库中;
(1.2).对用户微博T使用正则表达式过滤特殊字符和字段,以及活跃度低的用户,将英文统一为小写;
特殊的字符和字段,包括:“@XXX”、“[表情符号]”、超链接;其中“@XXX”表示微博正文或评论中提到某一用户或对用户说的话,以引起该用户注意;“[表情符号]”是指微博中特有的表情,代表发帖人内心的想法,可以是开心,难受,惊恐等;超链接一般指http和https协议下的链接,通过点击链接可以转到第三方页面,如:https://weibo.com/;
一些用户注册后很少使用微博,这些数据不具有代表性,不便于分析,将其剔除,这里使用活跃度指标来判断用户数据有效性。活跃度
Figure GDA0002717108290000061
NT表示用户最近一年内发布、转发和评论微博总数,NMonth表示一年中活跃的月份数,指用户在一年中最早、最晚发布、转发和评论微博的时间间隔;如活跃度Active小于等于设定的阈值σActive,则为活跃度低的用户,根据需要设定σActive=5~50;
(1.3).使用Word2Vec向量化微博T内容,得到以键值对形式表示的语料库文件;语料库文件中每一个词对应一个向量W=[w1,w2,...,wJ];其中,J是词向量的维数,wj表示第j维分量,j=1,2,...,J;
(1.4).遍历并提取语料库中的向量,得到I×J的关键词矩阵M,I表示关键词个数;
(1.5).利用K-means聚类关键词矩阵M,分类数量按照微博的热门分类初步划定类中心个数列表,得到簇中心和类成员,类成员代表领域内的关键词;
(1.6).采用方差分析判断类中心之间差异显著性,差异较大的类中心个数为最佳,在此基础上分析各类成员的分布数量,分布均匀的类中心个数为最佳,从两方面确定类中心个数,用于构建语义本体;
(1.7).定义语义本体的存储结构,包括两层:第一层类别存储对应本体名称和语义本体列表,其中本体列表存储子类本体名称和对应的子类本体列表;第二层本体存储对应本体列表中存储自身的描述,采用关键词方式表示;
(1.8).筛选语义本体的子类中不符合或模糊界限的关键词,精炼语义本体。
如图3所示,步骤(2)具体是:
(2.1).获取用户微博和关系数据,使用正则化匹配去除标点符号;
(2.2).构建N×P的用户数据矩阵DM,N为用户的数量,P为用户的属性个数,数据矩阵DM的行向量是un=(unb1,unb2,...,unbP),数据矩阵DM的列向量是bp=(u1bp,u2bp,...,unbP),unbp表示第n行第p个微博推文属性,n=1,2,...,N,p=1,2,...,P;
(2.3).将微博推文属性unbp利用情感分析工具进行情感分析,得到情感分数δ;
(2.4).在每条微博后加上情感标志位E,E=-1,0,1,分别表示消极、无感和积极;δ<δ1时E=-1,δ1≤δ<δ2时E=0,δ≥δ2时E=1;δ1和δ2为两个划分点,δ2>δ1
如图4所示,步骤(3)具体是:
(3.1).获取用户数据矩阵DM,包括具有情感标志位的推文属性;
(3.2).在(2.1)的基础上过滤掉特殊字符,对文本进行统一化大小写处理;
(3.3).使用中文文本分词工具对微博推文进行分词,得到词袋,词袋内包含若干关键词标注词性,标注词性;
(3.4).依照中英文停用词表过滤词袋中的停用词;
(3.5).按照词性过滤非动词和非名词,得到词袋模型BM(T)=[bm1,bm2,...,bmK];其中,K为词袋模型中词的个数,bmk表示词袋模型中第k个词,k=1,2,...,K。
如图5所示,步骤(4)具体是:
(4.1).在语义本体中查找与bm等价的语义本体bo,bm∈BM(T);若查找到,则词bm即为词bo;
(4.2).如果在语义本体bo的语义本体描述中存在词bm,则将词bm替换为语义本体bo的名称;
(4.3).如果词bm多次出现,说明该词在不同语境下有不同含义,需要结合关键词矩阵M和上下文语境消除歧义性;word2vec工具生成的词向量与上下文相关,判断歧义性的标准利用向量空间的余弦相似度:
Figure GDA0002717108290000081
ε表示目标词w1和w2的上下词利用关键词矩阵M得到向量大小,最终求得的误差值,如果误差较小说明含义类似,否则替换为相应词bo;
则是多义词,结合关键词矩阵M和上下文语境消除歧义性;
(4.4).将消歧后的词bm按照(4.2)进行替换;
(4.5).如果没有在语义本体bo中找到词bm,说明语义不明显,不能明确代表兴趣,需在词袋中删除;
(4.6).重复执行(4.1)~(4.5),遍历词袋模型,得到子类别集合O(T)=[bo1,bo2,...,boL],其中L是微博中语义本体bo的名称个数,bol表示第l个语义本体,l=1,2,...,L;
(4.7).将用户数据矩阵DM的微博推文属性unbp替换为子类别集合O(T)和情感标志位E,表示如下:unbp=[O1(T)E1,O2(T)E2,...,OR(T)ER],R为微博个数。
如图6所示,步骤(5)具体是:
(5.1).对于语义本体bol,如果存在于其父类的语义列表中,将其父类语义名称以键的形式存入标签字典,初始化值为1;如果键已存在,值自增1;
(5.2).重复执行(5.1),遍历第r个微博子类别集合Or(T),r=1,2,...,R,得到微博标签字典Dictr[Tag];
(5.3).将微博标签字典的值排序,取排名靠前的标签集合sortTag={Tag1,Tag2,...,TagS};S为自定义标签个数,Tags表示第s个标签本体,s=1,2,...,S;
(5.4).将sortTag在微博标签字典Dictr[Tag]中的值与对应的情感标志位E相乘,与属于相同语义本体的值相加,得到某一领域最终的情感倾向权值
Figure GDA0002717108290000091
(5.5).将情感倾向权值作为二级标签,与sortTag结合得到用户的标签集合H(h1,h2,...,hS);其中,hs=TagsWeights,s=1,2,...,S;
(5.6).将数据矩阵DM的属性unbp替换为集合H。
如图7所示,步骤(6)具体是:
(6.1).根据用户数据矩阵DM的行向量un,将用户的基本资料映射到标签信息上;
(6.2).对于每一个省、市和地区,构建情感网络图和标签网络图,以不同性别下年龄段和类别为情感网络图和标签网络图的图节点,图节点间的边代表该年龄段和性别属于该类别;年龄段根据先验知识可以分为八组青少儿,少年,青少年,青年,中青年,中年,中老年和老年;
(6.3).将该省、市和地区对应的人口统计信息映射到微博属性unbp的集合H中;
如果情感网络图中对应的图节点间未有边相连,把该用户的标签情感权值Weightem作为边的权值,否则将权值Weightem与边的权值相加,更新为新的权值;
如果标签网络图中对应的图节点间未有边相连,把图节点连接,初始化边的权值Weighttag=1,否则边的权值自增1,更新为新的权值;
(6.4).遍历用户数据矩阵DM,得到最终的基于城市的情感网络图
Figure GDA0002717108290000092
和标签网络图
Figure GDA0002717108290000093
如图8所示,步骤(7)具体是:
(7.1).将标签网络图
Figure GDA0002717108290000094
利用深度优先遍历(DFS),找到权值最大的边以及相应的顶点对Node(node1,node2);
(7.2).在情感网络图
Figure GDA0002717108290000101
利用深度优先遍历(DFS)搜寻连结Node(node1,node2)的边权值,记为Emotion;
(7.3).将Node中的信息映射到姓名、性别和年龄字典,得到对应的姓名,当作用户名UName;
(7.4).将顶点对中的信息和用户名结合,顶点对的权值作为情感标志位,生成以地区为标准的虚拟用户:U(UName,Age,Area,Gender,Tag,Emotion);其中,Age表示年龄,Area表示地区,Gender表示性别,Tag表示标签,Emotion表示情感标志位。
至此,得到带有情感标志位的用户,完成整个系统的用户生成。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (2)

1.一种基于情感倾向分析的社交用户生成方法,其特征在于,该方法具体是:
步骤(1).以微博内容为基础,采用聚类算法构建语义本体;
步骤(2).获取用户的微博内容并进行预处理,进行情感分类,得到带有情感倾向标记的微博信息;具体是:
(2.1).获取用户微博和关系数据,使用正则化匹配去除标点符号;
(2.2).构建N×P的用户数据矩阵DM,N为用户的数量,P为用户的属性个数,数据矩阵DM的行向量是un=(unb1,unb2,...,unbP),数据矩阵DM的列向量是bp=(u1bp,u2bp,...,unbP),unbp表示第n行第p个微博推文属性,n=1,2,...,N,p=1,2,...,P;
(2.3).将微博推文属性unbp利用情感分析工具进行情感分析,得到情感分数δ;
(2.4).在每条微博后加上情感标志位E,E=-1,0,1,分别表示消极、无感和积极;δ<δ1时E=-1,δ1≤δ<δ2时E=0,δ≥δ2时E=1;δ1和δ2为两个划分点,δ2>δ1
步骤(3).将带有情感倾向标记的微博信息进一步处理,得到词袋模型;具体是:
(3.1).获取用户数据矩阵DM,包括具有情感标志位的推文属性;
(3.2).在(2.1)的基础上过滤掉特殊字符,对文本进行统一化大小写处理;
(3.3).使用中文文本分词工具对微博推文进行分词,得到词袋,标注词性;
(3.4).依照中英文停用词表过滤词袋中的停用词;
(3.5).按照词性过滤非动词和非名词,得到词袋模型BM(T)=[bm1,bm2,...,bmK];其中,K为词袋模型中词的个数,bmk表示词袋模型中第k个词,k=1,2,...,K;
步骤(4).提取词袋模型的词,利用语义本体获取类别信息;具体是:
(4.1).在语义本体中查找与bm等价的语义本体bo,bm∈BM(T);若查找到,则词bm即为bo;
(4.2).如果在语义本体bo的语义本体描述中存在词bm,则将词bm替换为语义本体bo的名称;
(4.3).如果词bm多次出现,则是多义词,结合关键词矩阵M和上下文语境消除歧义性;
(4.4).将消歧后的词bm按照(4.2)进行替换;
(4.5).如果没有在语义本体bo中找到词bm,在词袋中删除;
(4.6).重复执行(4.1)~(4.5),遍历词袋模型,得到子类别集合O(T)=[bo1,bo2,...,boL],其中L是微博中语义本体bo的名称个数,bol表示第l个语义本体,l=1,2,...,L;
(4.7).将用户数据矩阵DM的微博推文属性unbp替换为子类别集合O(T)和情感标志位E,表示如下:unbp=[O1(T)E1,O2(T)E2,...,OR(T)ER],R为微博个数;
步骤(5).采用投票策略统计带有情感标记的类别信息,添加二级标签,得到最终标签;具体是:
(5.1).对于语义本体bol,如果存在于其父类的语义列表中,将其父类语义名称以键的形式存入标签字典,初始化值为1;如果键已存在,值自增1;
(5.2).重复执行(5.1),遍历第r个微博子类别集合Or(T),r=1,2,...,R,得到微博标签字典Dictr[Tag];
(5.3).将微博标签字典的值排序,取排名靠前的标签集合sortTag={Tag1,Tag2,...,TagS};S为自定义标签个数,Tags表示第s个标签本体,s=1,2,...,S;
(5.4).将sortTag在微博标签字典Dictr[Tag]中的值与对应的情感标志位E相乘,与属于相同语义本体的值相加,得到某一领域最终的情感倾向权值
Figure FDA0003547294790000021
(5.5).将情感倾向权值作为二级标签,与sortTag结合得到用户的标签集合H(h1,h2,...,hS);其中,hs=TagsWeights,s=1,2,...,S;
(5.6).将数据矩阵DM的属性unbp替换为集合H;
步骤(6).将人口统计信息映射到相应的标签中,构造网络图;具体是:
(6.1).根据用户数据矩阵DM的行向量un,将用户的基本资料映射到标签信息上;
(6.2).对于每一个省、市和地区,构建情感网络图和标签网络图,以不同性别下年龄段和类别为情感网络图和标签网络图的图节点,图节点间的边代表该年龄段和性别属于该类别;
(6.3).将该省、市和地区对应的人口统计信息映射到微博属性unbp的集合H中;
如果情感网络图中对应的图节点间未有边相连,把该用户的标签情感权值Weightem作为边的权值,否则将权值Weightem与边的权值相加,更新为新的权值;
如果标签网络图中对应的图节点间未有边相连,把图节点连接,初始化边的权值Weighttag=1,否则边的权值自增1,更新为新的权值;
(6.4).遍历用户数据矩阵DM,得到最终的基于城市的情感网络图
Figure FDA0003547294790000031
和标签网络图
Figure FDA0003547294790000032
步骤(7).根据网络图节点间的边权值大小生成用户;具体是:
(7.1).将标签网络图
Figure FDA0003547294790000033
利用深度优先遍历,找到权值最大的边以及相应的顶点对Node(node1,node2);
(7.2).在情感网络图
Figure FDA0003547294790000034
利用深度优先遍历搜寻连结Node(node1,node2)的边权值,记为Emotion;
(7.3).将Node中的信息映射到姓名、性别和年龄字典,得到对应的姓名,当作用户名UName;
(7.4).将顶点对中的信息和用户名结合,顶点对的权值作为情感标志位,生成以地区为标准的虚拟用户:U(UName,Age,Area,Gender,Tag,Emotion);其中,Age表示年龄,Area表示地区,Gender表示性别,Tag表示标签,Emotion表示情感标志位。
2.如权利要求1所述的一种基于情感倾向分析的社交用户生成方法,其特征在于,步骤(1)具体是:
(1.1).爬取用户微博T、用户关系R和用户信息U到数据库中;
(1.2).对用户微博T使用正则表达式过滤特殊字符和字段,以及活跃度低的用户,将英文统一为小写;
(1.3).使用Word2Vec向量化微博T内容,得到以键值对形式表示的语料库文件;语料库文件中每一个词对应一个向量W=[w1,w2,...,wJ];其中,J是词向量的维数,wj表示第j维分量,j=1,2,...,J;
(1.4).遍历并提取语料库中的向量,得到I×J的关键词矩阵M,I表示关键词个数;
(1.5).利用聚类算法聚类关键词矩阵,得到聚类中心和类成员;
(1.6).采用方差分析判断类中心之间差异显著性,确定簇中心,构建语义本体;
(1.7).定义语义本体的存储结构,包括两层:第一层类别存储对应本体名称和语义本体列表,其中本体列表存储子类本体名称和对应的子类本体列表;第二层本体存储对应本体列表中存储自身的描述,采用关键词方式表示;
(1.8).筛选语义本体的子类中不符合或模糊界限的关键词,精炼语义本体。
CN202010895038.5A 2020-08-31 2020-08-31 一种基于情感倾向分析的社交用户生成方法 Active CN112084333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895038.5A CN112084333B (zh) 2020-08-31 2020-08-31 一种基于情感倾向分析的社交用户生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895038.5A CN112084333B (zh) 2020-08-31 2020-08-31 一种基于情感倾向分析的社交用户生成方法

Publications (2)

Publication Number Publication Date
CN112084333A CN112084333A (zh) 2020-12-15
CN112084333B true CN112084333B (zh) 2022-04-22

Family

ID=73731253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895038.5A Active CN112084333B (zh) 2020-08-31 2020-08-31 一种基于情感倾向分析的社交用户生成方法

Country Status (1)

Country Link
CN (1) CN112084333B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780360B (zh) * 2021-08-16 2024-03-29 杭州电子科技大学 一种面向社会工程学攻击的用户脆弱性分析方法
CN114662157B (zh) * 2022-05-25 2022-08-26 湖南工商大学 社交文本数据流的块压缩感知不可区分性保护方法及装置
CN116882414B (zh) * 2023-09-05 2023-11-07 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN109145301A (zh) * 2018-08-29 2019-01-04 上海汽车集团股份有限公司 信息分类方法及装置、计算机可读存储介质
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN109145301A (zh) * 2018-08-29 2019-01-04 上海汽车集团股份有限公司 信息分类方法及装置、计算机可读存储介质
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于NWD集成算法的多粒度微博用户兴趣画像构建;张舒等;《广东工业大学学报》;20200714(第04期);全文 *

Also Published As

Publication number Publication date
CN112084333A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
Zhai et al. Measuring the diffusion of an innovation: A citation analysis
CN112084333B (zh) 一种基于情感倾向分析的社交用户生成方法
Li et al. Learning multi-faceted representations of individuals from heterogeneous evidence using neural networks
Wang et al. A hybrid model of sentimental entity recognition on mobile social media
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
Bahamonde et al. Power structure in Chilean news media
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Ahmed et al. Short text clustering algorithms, application and challenges: A survey
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
Alabdullatif et al. Classification of Arabic Twitter users: a study based on user behaviour and interests
Shao et al. AsyLink: user identity linkage from text to geo-location via sparse labeled data
Lin et al. Deep-profiling: a deep neural network model for scholarly web user profiling
Gao et al. UGCLink: user identity linkage by modeling user generated contents with knowledge distillation
Chen et al. SINE: Side information network embedding
Fabian et al. Privacy on Reddit? Towards Large-scale User Classification.
CN111737594B (zh) 基于无监督标签生成的虚拟网络角色行为塑造方法
Oner et al. Social platform based interval valued intuitionistic fuzzy location recommendation system
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
Altinel et al. Identifying topic-based opinion leaders in social networks by content and user information
Chaki et al. Pattern mining approaches used in social media data
Yu et al. Friend recommendation mechanism for social media based on content matching
Tiwary et al. Determination Of Category–Wise Influential Users Using Information Retrieval Technique from Twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant