CN110990530A - 一种基于深度学习的微博博主性格分析方法 - Google Patents

一种基于深度学习的微博博主性格分析方法 Download PDF

Info

Publication number
CN110990530A
CN110990530A CN201911190558.XA CN201911190558A CN110990530A CN 110990530 A CN110990530 A CN 110990530A CN 201911190558 A CN201911190558 A CN 201911190558A CN 110990530 A CN110990530 A CN 110990530A
Authority
CN
China
Prior art keywords
blogger
character
vec
microblog
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911190558.XA
Other languages
English (en)
Inventor
刘磊
郑瑶
潘佳煜
孙应红
侯良文
管天浡
原润和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911190558.XA priority Critical patent/CN110990530A/zh
Publication of CN110990530A publication Critical patent/CN110990530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Machine Translation (AREA)

Abstract

本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性格分析模型,用模型输出的大五人格权重表示博主性格,给出人物性格对应的大五人格雷达图。通过实施步骤的实验分析,证明了方法的有效性。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。

Description

一种基于深度学习的微博博主性格分析方法
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于深度学习的微博博主性 格分析方法。
背景技术
在高度发达的信息时代,网络社交平台逐渐成为人们生活中不可缺少的一部 分。随着微博、微信等社交平台的更新,用户在网络平台的社交逐渐替代了传统 的面对面交流。
在社交平台的用户规模很大,所以提取一些用户在社交平台上的互动信息可 以有效的衡量用户的个人特征,包括用户的兴趣爱好、生活水平、性格特征等等。
一般采用调查问卷的方式来衡量人们的性格特征,但是基于社交数据,可以 采用数据挖掘的方法,构造人物性格分析模型。这样可以节省问卷调查的时间, 大批量的获取人物性格。
本发明采用大五人格的性格分类。其五种性格分别为外倾型、宜人型、尽职 型、神经质和开放型。五种性格的人物特征如下:
外倾性(Extraversion):高外倾的人喜欢和他人沟通,生活态度较为积极乐观。低外倾的更倾向于独处,不喜欢过多的和他人交流。
宜人性(Agreeableness):具有高宜人型性格的人更加温暖、善良,善于发现 生活中的美好,更愿意去帮助别人。而低宜人型性格的人更加关注自己的想法, 对于身边的人没有过多的关注。
尽责性(Conscientiousness):高尽职型的人会更关注工作,对事情较为认真负责。而低尽职型的人会更加随意,不会太过于关注自己负责的事情。
神经质(Neuroticism):高神经质的人会更加情绪化,会经常因为外界而感到 焦躁不安、抱怨等等。低神经质的人遇事比较平静淡定,不会有过多的波动。
开放性(Openness):高开放型的人比较有艺术感,喜欢创造、想象。而低开 放型的人更关注现实中的事物,对于艺术或者创造性强的事物并不感兴趣。
大五人格分类标准只是给出了判断人物性格的定性标准,并没有给出合理的 量化标准。因此需要建立社交数据到大五性格分类的判定模型。
发明内容
本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分 析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格 预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性 格分析模型,用模型输出的五大人格权重表示博主性格。通过实施步骤的实验分 析,证明了方法的有效性。
为实现上述目的,本发明采用如下的技术方案
一种基于深度学习的微博博主性格分析方法,包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息; Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中 (Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性 格上的得分。
步骤(2)采集微博博主和博文数据,进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
条件包括:
条件1:博主为个人账号。
条件2:近1年内发表原创微博条数大于等于50条。
将采集的博主相关信息记入集合Userdata,记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数, Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示 博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量。
(2.2)采集博主的博文数据,并进行预处理
对每条博文做如下预处理:
(1)删除微博博文中微博主题类别标签,如“@用户名”,“//@用户名”,“超 链接”等内容。
(2)博文文本繁体转简体。
(3)博文进行分词处理,删除博文中的停用词和无用字符。
(2.3)存储博主数据和预处理的博文数据,博主数据存入Userdata,博文数 据存入Textdata。
步骤(3)对微博博主进行性格预标记,构建微博博主性格语料库G
对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条 博文,记为B={b1,b2,…,bi,…,bN},1≤i≤h,其中bi表示所抽取的第i条博文。
利用采集的微博语料,经过专家分析,人工构建性格词典Dic,性格词典Dic 分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。利用 性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型 五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO。将五个数值按 降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格 被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分 标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
步骤(4)基于深度学习的性格分析Char-LSTM模型构建
所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM 网络、四个全连层FC1、FC2、FC3、FC4。
通过深度学习技术提取博主Userdata的属性特征和博主所发博文Textdata的 博文特征,并将两者映射到同一向量空间,并用于博主的性格类别判定模型的训 练,其Char-LSTM模型结构如图2所示,模型具体工作过程如下:
步骤(4.1)对语料库G中每个博主blogger的Userdata进行特征提取。首先 将Userdata中的Uname和UIntro转化为向量表示:
将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1<i<m,其 中nwi表示分词后的第i个词语,m表示分词后的词语个数。用中文语料库训练的 词向量表示name中的每个词语,记为name2vec=[vec(nw1),vec(nw2),…,vec(nwi),…,vec(nwa)],将name2vec输入到Char-LSTM 模型中的第一LSTM模块中,得到博主昵称的向量表示,即vec(Uname)= LSTM(name2vec)。
将博主个性签名UIntro分词表示为Intro=[Iw1,Iw2,…,Iwi,…,Iwe],1<i<k, 其中Iwi表示分词后的第i个词语,k表示分词后的词语个数,用中文语料库训练 的词向量表示Intro中的每个词语,记为Intro2vec= [vec(Iw1),vec(Iw2),…,vec(Iwi),…,vec(Iwg)],将Intro2vec输入到Char-LSTM模 型的第二LSTM模块中,得到博主个性签名的向量表示,即vec(UIntro)= LSTM(Intro2vec)。
将已处理的vec(Uname)、vec(UIntro)和数值向量Uorigin,Uforward拼接为 Vec(Userdata)={vec(Uname),vec(UIntro),Ufans,Ufollow,Ufreq,Uorigin,Uforward}, 输入到Char-LSTM模型的全连接层FC1中,获取到Userdata的特征表示Fuser= [u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为 神经元个数,激活函数使用ReLu。
步骤(4.2)对微博博主性格语料库中的每个博主的博文进行特征提取
博主blogger的n条原创微博表示为Textdata= [Text1,Text2,…,Texti,…,Textn],限定每条博文的长度为textsize。若博文长度大 于textsize,则截断该博文,若博文长度小于textsize,则用“</>”补齐。
对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s,其 中twij表示博文Texti中的第j个词语,s表示博文Texti的分词数。用中文语料库训 练的词向量来表示Texti中的每个词语,记为Texti2vec= [vec(twi1),vec(twi2),…,vec(twij),…,vec(twis)],将Texti2vec输入到Char-LSTM 模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec),其 中BiLSTM表示双向LSTM网络。
然后将每条博文的向量表示线性拼接为 [vec(Text1),vec(Text2),…,vec(Texti),…,vec(Textn)],然后输入到全连接层FC2 中,得到Textdata的向量表示,记作Ftext=[u1,u2,…,ui,…,um],1<i<m,其 中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使用ReLu。
步骤(4.3)Char-LSTM模型的输出
将博主blogger的Userdata和Textdata的特征向量Fuser和Ftext进行线性拼接, 然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向量表 示,记作Fplogger=[u1,u2,…,ui,…,up],1<i<p,其中ui表示全连接层第i个神 经元输出值,p为神经元个数,激活函数使用ReLu。
将从相同特征空间得到的向量Fplogger输入到全连接层FC4,得到最终的模型 输出向量y,激活函数选用softmax。全连接层FC4神经元个数为5,分别表示微 博博主五种性格类别的概率。
步骤(5)Char-LSTM模型的训练
将训练数据输入到Char-LSTM模型,利用交叉熵损失函数和反向传播算法 更新模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数。 交叉熵损失函数的公式为
Figure RE-GDA0002359049450000051
通过最小化L来更新参数。其中
Figure RE-GDA0002359049450000052
为 预测值,yi为真实标签。
步骤(6)基于Char-LSTM模型的博主性格分析
对于任意一个需要判定性格的博主blogger,记该博主1年内发布原创微博Textdata条数为N,随机将N条微博分为
Figure BDA0002293453590000053
组,n为步骤(4.2)中模型的 输入微博条数。将博主信息Userdata和每组博文输入到Char-LSTM模型,得到m 组微博博主五种性格类别的概率表示,取m组性格类别概率的平均值为博主 blogger的大五性格表示。
有益效果
本发明充分的优势主要体现在以下3个方面:
1)给出了可供参考的性格词典,经过人工筛查,较为准确。
2)充分考虑到微博博文的文本內容和博主特征对博主性格的影响。
3)性格模型可以对博主的大量博文进行并行分析,用神经网络训练,效率 和准确率较高。
本发明按照大五人格对社交用户的性格进行分析,对社交平台中用户的个人 信息和发表的文本信息,给出人物性格对应的大五人格雷达图。本发明可以帮助 相关公司、企业及政府部门有效地分析社交用户的性格特点。
附图说明
图1本发明基于深度学习的微博博主性格分析方法的流程图;
图2基于深度学习的性格分析Char-LSTM模型
图3博主性格的五维雷达图示例。
具体实施方式
下面结合图表和实施例,对本发明的具体实施方式作进一步的详细描述。以 下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提出的方法是依次按以下步骤实现的:
步骤(1)微博数据形式化定义
步骤(2)采集微博博主和博文数据,进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
条件包括:
条件1:博主为个人账号
条件2:近1年内发表原创微博条数大于等于50条。
将采集的博主相关信息记入集合Userdata,记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数, Ufollow:表示博主的关注数,Ufreq表示博主30天内的发博频率,Uorigin表示博 主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量。
博主信息的具体示例如下:Userdata=(“我是高兴的分割线”,/,65758521, 215,12,9,3])
(2.2)采集博主一年内的原创博文数据,并进行预处理
对所采集的每条博文做如下预处理:
(1)删除微博博文中微博主题类别标签,如“@用户名”,“//@用户名”,“超 链接”等内容。
(2)博文文本繁体转简体。
(3)博文进行分词处理,删除博文中的停用词和无用字符。
采集博主50条微博,博文数据存入Textdata。
步骤(3)对微博博主进行性格预标记,构建微博博主性格语料库G
性格词典是基于专家经验人工建立的,词典分别给出了五种性格的性格词列 表,以下为专家人工建立的性格词典Dic示例。
表1性格词典示例
Figure BDA0002293453590000071
对于每个微博博主blogger,随机从该博主b的Textdata中抽取其一年内的 50条博文,记为B,利用性格词典Dic,统计B中博文出现的外倾型、宜人型、 尽职型、神经质和开放型五种性格词的次数,分别记为 NumE,NumA,NumC,NumN,NumO。经过计算,NumE=48,NumA=74,NumC=23, Num N=4,NumO=54。将五个数值按降序排列,取前两个数值,分别记作S1,S2, 因为S2/S1<β,β=0.8,博主性格被标记为S1值所对应的性格,y=[Se,Sa,Sc,Sn,So]中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微 博性格语料库G。对于博主K,S1=74,S2=48,S2/S1=0.61<0.8,y=(0,1,0,0,0).
步骤(4)基于深度学习的性格分析Char-LSTM模型构建
通过深度学习技术提取博主自身的属性特征Userdata和博主所发的博文特 征Textdata,并将两者映射到同一向量空间,并用于博主的性格类别判定模型 的训练,其Char-LSTM模型结构如图2所示,模型分别对Userdata和Textdata 做如下操作。
步骤(4.1)对语料库G中每个博主blogger的Userdata进行特征提取。首 先将Userdata中的Uname和UIntro的文字转化为向量表示:
将Uname进行分词,记为name=[我|是|高兴|的|分割线]。用中文语料库训练的 词向量表示name中的每个词语,记为name2vec= [nw1vec,nw2vec,…,nwivec,…,nwlvec],其中l取128,将nmae2vec输入到 Char-LSTM模型中的LSTM模块中,得到博主昵称的向量表示,即vec(Uname)= LSTM(name2vec),其中LSTM隐藏层的神经元个数取16,LSTM层数为1。
将博主个性签名UIntro分词表示为Intro=[/],用中文语料库训练的词向量表 示Intro中的每个词语,记为Intro2vec=[Iw1vec,Iw2vec,…,Iwivec,…,Iwkvec], 其中k取50,将Intro2vec输入到Char-LSTM模型的LSTM模块中,得到博主 个性签名的向量表示,即vec(UIntro)=LSTM(Intro2vec),其中LSTM隐藏层 的神经元个数取16,LSTM层数为1。
将已处理的vec(Uname)、vec(UIntro)和数值向量等拼接为 Vec(Userdata)=[vec(Uname),vec(Uintro),65758521,215,12,9,3],输入到 Char-LSTM模型的全连接神经网络FC1中,获取到Userdata的特征表示Fuser= [u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为 神经元个数,激活函数使用ReLu,其中m取64。
步骤(4.2)对微博博主性格语料库中的每个博主的博文Textdata进行特征 提取
博主blogger的50条原创微博表示为Textdata= [Text1,Text2,…,Texti,…,Text100],限定每条博文的长度为textsize=100。若博 文长度大于textsize,则截断该博文,若博文长度小于textsize,则用“</>”补齐。
对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s, 其中twij表示博文Texti中的第j个词语,s=100表示博文Texti的长度。用中文语 料库训练的词向量表示Texti中的每个词语,记Texti2vec= [twi1vec,twi2vec,…,twijvec,…,twisvec],s=100,将Texti2vec输入到Char-LSTM 模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec), 其中BiLSTM表示双向LSTM网络,其中LSTM隐藏层的神经元个数取64, BiLSTM层数为1。
然后将每条博文的向量表示线性拼接为 [vec(Text1),vec(Text2),…,vec(Texti),…,vec(Text50)],然后输入到全连接层 FC2中,得到博主的Textdata的向量表示,记作Ftext=[u1,u2,…ui,…ua],1< i<m,其中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使 用ReLu,其中m取128。
步骤(4.3)Char-LSTM模型的输出
将博主blogger的Userdata和Textdata的特征向量Fuser和Ftext进行线性拼 接,然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向 量表示,记作Fblogger=[u1,u2,…ui,…up],1<i<p,其中ui表示全连接层第i 个神经元输出值,p为神经元个数,激活函数使用ReLu,其中p取64。
将从相同特征空间得到的向量F2logger输入到全连接层FC4,得到最终的模型 输出向量y,激活函数为softmax。全连接层FC4神经元个数为5,分别表示微博 博主五种性格类别[Se,Sa,Sc,Sn,So]的概率。
步骤(5)Char-LSTM模型的训练
根据步骤1-步骤3,得到微博博主性格语料库规模10000条,选取其中的80% 作为训练数据输入到Char-LSTM模型,其中
Figure RE-GDA0002359049450000093
表示模型预测的向量,y表示步骤 2.3中利用性格词典标记的性格向量,利用交叉熵损失函数和反向传播算法更新 模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数。交 叉熵损失函数的公式为
Figure RE-GDA0002359049450000091
通过最小化L来更新参数。其中
Figure RE-GDA0002359049450000092
为 预测值,yi为真实标签。
步骤(6)模型的运用
在模型运用阶段,将测试数据的博主的Userdata和Textdata信息输入到已经 训练好的模型,输出维度为5的向量,分别代表该博主属于[Se,Sa,Sc,Sn,So]的概 率的作为该博主最终的性格得分,对应博主性格的五维雷达图见图3。

Claims (7)

1.一种基于深度学习的微博博主性格分析方法,其特征在于包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息;Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中(Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性格上的得分;
步骤(2)采集微博博主数据和博文数据,并对博文数据进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
所述的条件包括:
条件1:博主为个人账号;
条件2:近1年内发表原创微博条数大于等于100条;
所述的博主数据记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数,Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量;
(2.2)采集博主一年内的原创博文数据,预处理后记为Textdata;
步骤(3)利用性格词典Dic对微博博主进行性格预标记,构建微博博主性格语料库G;
步骤(4)基于Char-LSTM模型进行博主性格分析:对于任意一个需要判定性格的博主blogger,记该博主1年内发布原创微博Textdata条数为N,随机将N条微博分为
Figure FDA0002293453580000011
组,将博主信息Userdata和每组博文输入到Char-LSTM模型,得到m组微博博主五种性格类别的概率表示,取m组性格类别概率的平均值为博主blogger的大五性格表示。
2.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤2中所述的博文数据预处理具体包括:
(1)删除微博博文中微博主题类别标签;
(2)博文文本繁体转简体;
(3)博文进行分词处理,删除博文中的停用词和无用字符。
3.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述的性格词典Dic是经过专家分析,人工构建获得,性格词典Dic分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。
4.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤3具体包括以下内容:
(1)对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条博文,记为B={b1,b2,…,bi,…,bh},1≤i≤h,其中bi表示所抽取的第i条博文;
(2)利用性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO;
(3)将五个数值按降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
5.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM网络、四个全连层FC1、FC2、FC3、FC4。
6.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的采用Char-LSTM模型分析博主性格具体包括四部分:
第一部分:对待分析博主blogger的Userdata进行特征提取,得到Userdata的特征表示Fusen,具体为:
(1)将Userdata中的Uname转化为向量表示vec(Uname):将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1<i<m,其中nwi表示分词后的第i个词语,m表示分词后的词语个数;用中文语料库训练的词向量表示name中的每个词语,记为name2vec=[vec(nw1),vec(nw2),…,vec(nwi),…,vec(nwm)],将name2vec输入到Char-LSTM模型中的第一LSTM模块中,得到博主昵称的向量表示,即vec(Uname)=LSTM(name2vec);
(2)将Userdata中的UIntro转化为向量表示vec(UIntro):将博主简介UIntro分词表示为Intro=[Iw1,Iw2,…,Iwi,…,Iwk],1<i<k,其中Iwi表示分词后的第i个词语,k表示分词后的词语个数,用中文语料库训练的词向量表示Intro中的每个词语,记为Intro2vec=[vec(Iw1),vec(Iw2),…,vec(Iwi),…,vec(Iwk)],将Intro2vec输入到Char-LSTM模型的第二LSTM模块中,得到博主个性签名的向量表示,即vec(UIntro)=LSTM(Intro2vec);
(3)将已处理的vec(Uname)、vec(UIntro)和Userdata中的数值向量拼接为Vec(Userdata)={vec(Uname),vec(UIntro),Ufans,Ufollow,Ufreq,Uorigin,Uforward},输入到Char-LSTM模型的全连接层FC1中,获取到Userdata的特征表示Fuser=[u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使用ReLu;
第二部分:对待分析博主blogger的每组博文Textdata进行特征提取,得到Textdata的特征表示Ftext,具体为:
(1)博主blogger的n条原创微博表示为Textdata=[Text1,Text2,…,Texti,…,Textn],限定每条博文的长度为textsize;
(2)对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s,其中twij表示博文Texti中的第j个词语,s表示博文Texti的分词数;用中文语料库训练的词向量来表示Texti中的每个词语,记为Texti2vec=[vec(twi1),vec(twi2),…,vec(twij),…,vec(twis)],将Texti2vec输入到Char-LSTM模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec),其中BiLSTM表示双向LSTM网络;
(3)然后将每条博文的向量表示线性拼接为[vec(Text1),vec(Text2),…,vec(Texti),…,vec(Textn)],然后输入到全连接层FC2中,得到Textdata的向量表示,记作Ftext=[u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层FC2第i个神经元输出值,m为神经元个数,激活函数使用ReLu;
第三部分:将博主blogger的Userdata和Textdata的特征向量Fusen和Ftext进行线性拼接,然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向量表示,记作Fbloggen=[u1,u2,…ui,…up],1<i<p,其中ui表示全连接层FC3第i个神经元输出值,p为神经元个数,激活函数使用ReLu,其中p取64;
第四部分:将从相同特征空间得到的向量Fbloggen输入到全连接层FC4,得到最终的模型输出向量y,激活函数为softmax,全连接层FC4神经元个数为5,分别表示微博博主五种性格类别[Se,Sa,Sc,Sn,So]的概率。
7.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述Char-LSTM模型的训练具体包括:
训练数据为微博性格语料库G中的数据,利用交叉熵损失函数和反向传播算法更新模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数,所述交叉熵损失函数的公式为
Figure RE-FDA0002359049440000041
通过最小化L来更新参数,
Figure RE-FDA0002359049440000042
为预测值,yi为真实标签。
CN201911190558.XA 2019-11-28 2019-11-28 一种基于深度学习的微博博主性格分析方法 Pending CN110990530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911190558.XA CN110990530A (zh) 2019-11-28 2019-11-28 一种基于深度学习的微博博主性格分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911190558.XA CN110990530A (zh) 2019-11-28 2019-11-28 一种基于深度学习的微博博主性格分析方法

Publications (1)

Publication Number Publication Date
CN110990530A true CN110990530A (zh) 2020-04-10

Family

ID=70087784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911190558.XA Pending CN110990530A (zh) 2019-11-28 2019-11-28 一种基于深度学习的微博博主性格分析方法

Country Status (1)

Country Link
CN (1) CN110990530A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN116898441A (zh) * 2022-08-25 2023-10-20 北京聆心智能科技有限公司 基于人机对话的性格测试方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113222772B (zh) * 2021-04-08 2023-10-31 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN116898441A (zh) * 2022-08-25 2023-10-20 北京聆心智能科技有限公司 基于人机对话的性格测试方法、装置及电子设备
CN116898441B (zh) * 2022-08-25 2024-03-22 北京聆心智能科技有限公司 基于人机对话的性格测试方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111914096B (zh) 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
CN107368468B (zh) 一种运维知识图谱的生成方法及系统
Alaparthi et al. Bidirectional Encoder Representations from Transformers (BERT): A sentiment analysis odyssey
CN105740228B (zh) 一种互联网舆情分析方法及系统
CN108415953B (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN110096575B (zh) 面向微博用户的心理画像方法
JP2022511619A (ja) 自動化電子メールアシスタント
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN105138577B (zh) 一种基于大数据的事件演化分析方法
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN110807091A (zh) 一种酒店智能问答推荐与决策支持分析方法及系统
JP2015121897A (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN109344187B (zh) 一种司法判决书案情信息结构化处理系统
CN110119849B (zh) 一种基于网络行为的人格特质预测方法及系统
CN111353044B (zh) 一种基于评论的情感分析方法及系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN109409433A (zh) 一种社交网络用户的人格识别系统和方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN109726253A (zh) 人才图谱及人才画像的构建方法、装置、设备及介质
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN110990530A (zh) 一种基于深度学习的微博博主性格分析方法
CN116383395A (zh) 一种水文模型领域知识图谱的构建方法
CN106202299B (zh) 一种基于残疾人特征的残疾人权威用户推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200410