CN110990530A - 一种基于深度学习的微博博主性格分析方法 - Google Patents
一种基于深度学习的微博博主性格分析方法 Download PDFInfo
- Publication number
- CN110990530A CN110990530A CN201911190558.XA CN201911190558A CN110990530A CN 110990530 A CN110990530 A CN 110990530A CN 201911190558 A CN201911190558 A CN 201911190558A CN 110990530 A CN110990530 A CN 110990530A
- Authority
- CN
- China
- Prior art keywords
- blogger
- character
- vec
- microblog
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Animal Behavior & Ethology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Machine Translation (AREA)
Abstract
本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性格分析模型,用模型输出的大五人格权重表示博主性格,给出人物性格对应的大五人格雷达图。通过实施步骤的实验分析,证明了方法的有效性。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。
Description
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于深度学习的微博博主性 格分析方法。
背景技术
在高度发达的信息时代,网络社交平台逐渐成为人们生活中不可缺少的一部 分。随着微博、微信等社交平台的更新,用户在网络平台的社交逐渐替代了传统 的面对面交流。
在社交平台的用户规模很大,所以提取一些用户在社交平台上的互动信息可 以有效的衡量用户的个人特征,包括用户的兴趣爱好、生活水平、性格特征等等。
一般采用调查问卷的方式来衡量人们的性格特征,但是基于社交数据,可以 采用数据挖掘的方法,构造人物性格分析模型。这样可以节省问卷调查的时间, 大批量的获取人物性格。
本发明采用大五人格的性格分类。其五种性格分别为外倾型、宜人型、尽职 型、神经质和开放型。五种性格的人物特征如下:
外倾性(Extraversion):高外倾的人喜欢和他人沟通,生活态度较为积极乐观。低外倾的更倾向于独处,不喜欢过多的和他人交流。
宜人性(Agreeableness):具有高宜人型性格的人更加温暖、善良,善于发现 生活中的美好,更愿意去帮助别人。而低宜人型性格的人更加关注自己的想法, 对于身边的人没有过多的关注。
尽责性(Conscientiousness):高尽职型的人会更关注工作,对事情较为认真负责。而低尽职型的人会更加随意,不会太过于关注自己负责的事情。
神经质(Neuroticism):高神经质的人会更加情绪化,会经常因为外界而感到 焦躁不安、抱怨等等。低神经质的人遇事比较平静淡定,不会有过多的波动。
开放性(Openness):高开放型的人比较有艺术感,喜欢创造、想象。而低开 放型的人更关注现实中的事物,对于艺术或者创造性强的事物并不感兴趣。
大五人格分类标准只是给出了判断人物性格的定性标准,并没有给出合理的 量化标准。因此需要建立社交数据到大五性格分类的判定模型。
发明内容
本发明针对人物性格分析问题,提出了一种基于深度学习的微博博主性格分 析方法。主要内容包括:采集微博博主和博文数据,进行数据预处理;通过性格 预标注策略,构建微博博主性格语料库;以深度学习技术为基础,训练和构建性 格分析模型,用模型输出的五大人格权重表示博主性格。通过实施步骤的实验分 析,证明了方法的有效性。
为实现上述目的,本发明采用如下的技术方案
一种基于深度学习的微博博主性格分析方法,包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息; Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中 (Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性 格上的得分。
步骤(2)采集微博博主和博文数据,进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
条件包括:
条件1:博主为个人账号。
条件2:近1年内发表原创微博条数大于等于50条。
将采集的博主相关信息记入集合Userdata,记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数, Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示 博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量。
(2.2)采集博主的博文数据,并进行预处理
对每条博文做如下预处理:
(1)删除微博博文中微博主题类别标签,如“@用户名”,“//@用户名”,“超 链接”等内容。
(2)博文文本繁体转简体。
(3)博文进行分词处理,删除博文中的停用词和无用字符。
(2.3)存储博主数据和预处理的博文数据,博主数据存入Userdata,博文数 据存入Textdata。
步骤(3)对微博博主进行性格预标记,构建微博博主性格语料库G
对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条 博文,记为B={b1,b2,…,bi,…,bN},1≤i≤h,其中bi表示所抽取的第i条博文。
利用采集的微博语料,经过专家分析,人工构建性格词典Dic,性格词典Dic 分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。利用 性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型 五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO。将五个数值按 降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格 被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分 标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
步骤(4)基于深度学习的性格分析Char-LSTM模型构建
所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM 网络、四个全连层FC1、FC2、FC3、FC4。
通过深度学习技术提取博主Userdata的属性特征和博主所发博文Textdata的 博文特征,并将两者映射到同一向量空间,并用于博主的性格类别判定模型的训 练,其Char-LSTM模型结构如图2所示,模型具体工作过程如下:
步骤(4.1)对语料库G中每个博主blogger的Userdata进行特征提取。首先 将Userdata中的Uname和UIntro转化为向量表示:
将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1<i<m,其 中nwi表示分词后的第i个词语,m表示分词后的词语个数。用中文语料库训练的 词向量表示name中的每个词语,记为name2vec=[vec(nw1),vec(nw2),…,vec(nwi),…,vec(nwa)],将name2vec输入到Char-LSTM 模型中的第一LSTM模块中,得到博主昵称的向量表示,即vec(Uname)= LSTM(name2vec)。
将博主个性签名UIntro分词表示为Intro=[Iw1,Iw2,…,Iwi,…,Iwe],1<i<k, 其中Iwi表示分词后的第i个词语,k表示分词后的词语个数,用中文语料库训练 的词向量表示Intro中的每个词语,记为Intro2vec= [vec(Iw1),vec(Iw2),…,vec(Iwi),…,vec(Iwg)],将Intro2vec输入到Char-LSTM模 型的第二LSTM模块中,得到博主个性签名的向量表示,即vec(UIntro)= LSTM(Intro2vec)。
将已处理的vec(Uname)、vec(UIntro)和数值向量Uorigin,Uforward拼接为 Vec(Userdata)={vec(Uname),vec(UIntro),Ufans,Ufollow,Ufreq,Uorigin,Uforward}, 输入到Char-LSTM模型的全连接层FC1中,获取到Userdata的特征表示Fuser= [u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为 神经元个数,激活函数使用ReLu。
步骤(4.2)对微博博主性格语料库中的每个博主的博文进行特征提取
博主blogger的n条原创微博表示为Textdata= [Text1,Text2,…,Texti,…,Textn],限定每条博文的长度为textsize。若博文长度大 于textsize,则截断该博文,若博文长度小于textsize,则用“</>”补齐。
对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s,其 中twij表示博文Texti中的第j个词语,s表示博文Texti的分词数。用中文语料库训 练的词向量来表示Texti中的每个词语,记为Texti2vec= [vec(twi1),vec(twi2),…,vec(twij),…,vec(twis)],将Texti2vec输入到Char-LSTM 模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec),其 中BiLSTM表示双向LSTM网络。
然后将每条博文的向量表示线性拼接为 [vec(Text1),vec(Text2),…,vec(Texti),…,vec(Textn)],然后输入到全连接层FC2 中,得到Textdata的向量表示,记作Ftext=[u1,u2,…,ui,…,um],1<i<m,其 中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使用ReLu。
步骤(4.3)Char-LSTM模型的输出
将博主blogger的Userdata和Textdata的特征向量Fuser和Ftext进行线性拼接, 然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向量表 示,记作Fplogger=[u1,u2,…,ui,…,up],1<i<p,其中ui表示全连接层第i个神 经元输出值,p为神经元个数,激活函数使用ReLu。
将从相同特征空间得到的向量Fplogger输入到全连接层FC4,得到最终的模型 输出向量y,激活函数选用softmax。全连接层FC4神经元个数为5,分别表示微 博博主五种性格类别的概率。
步骤(5)Char-LSTM模型的训练
将训练数据输入到Char-LSTM模型,利用交叉熵损失函数和反向传播算法 更新模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数。 交叉熵损失函数的公式为通过最小化L来更新参数。其中为 预测值,yi为真实标签。
步骤(6)基于Char-LSTM模型的博主性格分析
对于任意一个需要判定性格的博主blogger,记该博主1年内发布原创微博Textdata条数为N,随机将N条微博分为组,n为步骤(4.2)中模型的 输入微博条数。将博主信息Userdata和每组博文输入到Char-LSTM模型,得到m 组微博博主五种性格类别的概率表示,取m组性格类别概率的平均值为博主 blogger的大五性格表示。
有益效果
本发明充分的优势主要体现在以下3个方面:
1)给出了可供参考的性格词典,经过人工筛查,较为准确。
2)充分考虑到微博博文的文本內容和博主特征对博主性格的影响。
3)性格模型可以对博主的大量博文进行并行分析,用神经网络训练,效率 和准确率较高。
本发明按照大五人格对社交用户的性格进行分析,对社交平台中用户的个人 信息和发表的文本信息,给出人物性格对应的大五人格雷达图。本发明可以帮助 相关公司、企业及政府部门有效地分析社交用户的性格特点。
附图说明
图1本发明基于深度学习的微博博主性格分析方法的流程图;
图2基于深度学习的性格分析Char-LSTM模型
图3博主性格的五维雷达图示例。
具体实施方式
下面结合图表和实施例,对本发明的具体实施方式作进一步的详细描述。以 下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提出的方法是依次按以下步骤实现的:
步骤(1)微博数据形式化定义
步骤(2)采集微博博主和博文数据,进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
条件包括:
条件1:博主为个人账号
条件2:近1年内发表原创微博条数大于等于50条。
将采集的博主相关信息记入集合Userdata,记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数, Ufollow:表示博主的关注数,Ufreq表示博主30天内的发博频率,Uorigin表示博 主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量。
博主信息的具体示例如下:Userdata=(“我是高兴的分割线”,/,65758521, 215,12,9,3])
(2.2)采集博主一年内的原创博文数据,并进行预处理
对所采集的每条博文做如下预处理:
(1)删除微博博文中微博主题类别标签,如“@用户名”,“//@用户名”,“超 链接”等内容。
(2)博文文本繁体转简体。
(3)博文进行分词处理,删除博文中的停用词和无用字符。
采集博主50条微博,博文数据存入Textdata。
步骤(3)对微博博主进行性格预标记,构建微博博主性格语料库G
性格词典是基于专家经验人工建立的,词典分别给出了五种性格的性格词列 表,以下为专家人工建立的性格词典Dic示例。
表1性格词典示例
对于每个微博博主blogger,随机从该博主b的Textdata中抽取其一年内的 50条博文,记为B,利用性格词典Dic,统计B中博文出现的外倾型、宜人型、 尽职型、神经质和开放型五种性格词的次数,分别记为 NumE,NumA,NumC,NumN,NumO。经过计算,NumE=48,NumA=74,NumC=23, Num N=4,NumO=54。将五个数值按降序排列,取前两个数值,分别记作S1,S2, 因为S2/S1<β,β=0.8,博主性格被标记为S1值所对应的性格,y=[Se,Sa,Sc,Sn,So]中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微 博性格语料库G。对于博主K,S1=74,S2=48,S2/S1=0.61<0.8,y=(0,1,0,0,0).
步骤(4)基于深度学习的性格分析Char-LSTM模型构建
通过深度学习技术提取博主自身的属性特征Userdata和博主所发的博文特 征Textdata,并将两者映射到同一向量空间,并用于博主的性格类别判定模型 的训练,其Char-LSTM模型结构如图2所示,模型分别对Userdata和Textdata 做如下操作。
步骤(4.1)对语料库G中每个博主blogger的Userdata进行特征提取。首 先将Userdata中的Uname和UIntro的文字转化为向量表示:
将Uname进行分词,记为name=[我|是|高兴|的|分割线]。用中文语料库训练的 词向量表示name中的每个词语,记为name2vec= [nw1vec,nw2vec,…,nwivec,…,nwlvec],其中l取128,将nmae2vec输入到 Char-LSTM模型中的LSTM模块中,得到博主昵称的向量表示,即vec(Uname)= LSTM(name2vec),其中LSTM隐藏层的神经元个数取16,LSTM层数为1。
将博主个性签名UIntro分词表示为Intro=[/],用中文语料库训练的词向量表 示Intro中的每个词语,记为Intro2vec=[Iw1vec,Iw2vec,…,Iwivec,…,Iwkvec], 其中k取50,将Intro2vec输入到Char-LSTM模型的LSTM模块中,得到博主 个性签名的向量表示,即vec(UIntro)=LSTM(Intro2vec),其中LSTM隐藏层 的神经元个数取16,LSTM层数为1。
将已处理的vec(Uname)、vec(UIntro)和数值向量等拼接为 Vec(Userdata)=[vec(Uname),vec(Uintro),65758521,215,12,9,3],输入到 Char-LSTM模型的全连接神经网络FC1中,获取到Userdata的特征表示Fuser= [u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为 神经元个数,激活函数使用ReLu,其中m取64。
步骤(4.2)对微博博主性格语料库中的每个博主的博文Textdata进行特征 提取
博主blogger的50条原创微博表示为Textdata= [Text1,Text2,…,Texti,…,Text100],限定每条博文的长度为textsize=100。若博 文长度大于textsize,则截断该博文,若博文长度小于textsize,则用“</>”补齐。
对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s, 其中twij表示博文Texti中的第j个词语,s=100表示博文Texti的长度。用中文语 料库训练的词向量表示Texti中的每个词语,记Texti2vec= [twi1vec,twi2vec,…,twijvec,…,twisvec],s=100,将Texti2vec输入到Char-LSTM 模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec), 其中BiLSTM表示双向LSTM网络,其中LSTM隐藏层的神经元个数取64, BiLSTM层数为1。
然后将每条博文的向量表示线性拼接为 [vec(Text1),vec(Text2),…,vec(Texti),…,vec(Text50)],然后输入到全连接层 FC2中,得到博主的Textdata的向量表示,记作Ftext=[u1,u2,…ui,…ua],1< i<m,其中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使 用ReLu,其中m取128。
步骤(4.3)Char-LSTM模型的输出
将博主blogger的Userdata和Textdata的特征向量Fuser和Ftext进行线性拼 接,然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向 量表示,记作Fblogger=[u1,u2,…ui,…up],1<i<p,其中ui表示全连接层第i 个神经元输出值,p为神经元个数,激活函数使用ReLu,其中p取64。
将从相同特征空间得到的向量F2logger输入到全连接层FC4,得到最终的模型 输出向量y,激活函数为softmax。全连接层FC4神经元个数为5,分别表示微博 博主五种性格类别[Se,Sa,Sc,Sn,So]的概率。
步骤(5)Char-LSTM模型的训练
根据步骤1-步骤3,得到微博博主性格语料库规模10000条,选取其中的80% 作为训练数据输入到Char-LSTM模型,其中表示模型预测的向量,y表示步骤 2.3中利用性格词典标记的性格向量,利用交叉熵损失函数和反向传播算法更新 模型的参数,直到模型的准确率不再改变或者达到预先设置的最大迭代次数。交 叉熵损失函数的公式为通过最小化L来更新参数。其中为 预测值,yi为真实标签。
步骤(6)模型的运用
在模型运用阶段,将测试数据的博主的Userdata和Textdata信息输入到已经 训练好的模型,输出维度为5的向量,分别代表该博主属于[Se,Sa,Sc,Sn,So]的概 率的作为该博主最终的性格得分,对应博主性格的五维雷达图见图3。
Claims (7)
1.一种基于深度学习的微博博主性格分析方法,其特征在于包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息;Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中(Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性格上的得分;
步骤(2)采集微博博主数据和博文数据,并对博文数据进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
所述的条件包括:
条件1:博主为个人账号;
条件2:近1年内发表原创微博条数大于等于100条;
所述的博主数据记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数,Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量;
(2.2)采集博主一年内的原创博文数据,预处理后记为Textdata;
步骤(3)利用性格词典Dic对微博博主进行性格预标记,构建微博博主性格语料库G;
2.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤2中所述的博文数据预处理具体包括:
(1)删除微博博文中微博主题类别标签;
(2)博文文本繁体转简体;
(3)博文进行分词处理,删除博文中的停用词和无用字符。
3.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述的性格词典Dic是经过专家分析,人工构建获得,性格词典Dic分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。
4.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤3具体包括以下内容:
(1)对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条博文,记为B={b1,b2,…,bi,…,bh},1≤i≤h,其中bi表示所抽取的第i条博文;
(2)利用性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO;
(3)将五个数值按降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
5.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM网络、四个全连层FC1、FC2、FC3、FC4。
6.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的采用Char-LSTM模型分析博主性格具体包括四部分:
第一部分:对待分析博主blogger的Userdata进行特征提取,得到Userdata的特征表示Fusen,具体为:
(1)将Userdata中的Uname转化为向量表示vec(Uname):将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1<i<m,其中nwi表示分词后的第i个词语,m表示分词后的词语个数;用中文语料库训练的词向量表示name中的每个词语,记为name2vec=[vec(nw1),vec(nw2),…,vec(nwi),…,vec(nwm)],将name2vec输入到Char-LSTM模型中的第一LSTM模块中,得到博主昵称的向量表示,即vec(Uname)=LSTM(name2vec);
(2)将Userdata中的UIntro转化为向量表示vec(UIntro):将博主简介UIntro分词表示为Intro=[Iw1,Iw2,…,Iwi,…,Iwk],1<i<k,其中Iwi表示分词后的第i个词语,k表示分词后的词语个数,用中文语料库训练的词向量表示Intro中的每个词语,记为Intro2vec=[vec(Iw1),vec(Iw2),…,vec(Iwi),…,vec(Iwk)],将Intro2vec输入到Char-LSTM模型的第二LSTM模块中,得到博主个性签名的向量表示,即vec(UIntro)=LSTM(Intro2vec);
(3)将已处理的vec(Uname)、vec(UIntro)和Userdata中的数值向量拼接为Vec(Userdata)={vec(Uname),vec(UIntro),Ufans,Ufollow,Ufreq,Uorigin,Uforward},输入到Char-LSTM模型的全连接层FC1中,获取到Userdata的特征表示Fuser=[u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层第i个神经元输出值,m为神经元个数,激活函数使用ReLu;
第二部分:对待分析博主blogger的每组博文Textdata进行特征提取,得到Textdata的特征表示Ftext,具体为:
(1)博主blogger的n条原创微博表示为Textdata=[Text1,Text2,…,Texti,…,Textn],限定每条博文的长度为textsize;
(2)对于Textdata中的每条博文Texti=[twi1,twi2,…,twij,…,twis],1<j<s,其中twij表示博文Texti中的第j个词语,s表示博文Texti的分词数;用中文语料库训练的词向量来表示Texti中的每个词语,记为Texti2vec=[vec(twi1),vec(twi2),…,vec(twij),…,vec(twis)],将Texti2vec输入到Char-LSTM模型中的BiLSTM模块中,得到其向量表示vec(Texti)=BiLSTM(Texti2vec),其中BiLSTM表示双向LSTM网络;
(3)然后将每条博文的向量表示线性拼接为[vec(Text1),vec(Text2),…,vec(Texti),…,vec(Textn)],然后输入到全连接层FC2中,得到Textdata的向量表示,记作Ftext=[u1,u2,…,ui,…,um],1<i<m,其中ui表示全连接层FC2第i个神经元输出值,m为神经元个数,激活函数使用ReLu;
第三部分:将博主blogger的Userdata和Textdata的特征向量Fusen和Ftext进行线性拼接,然后利用全连接层FC3,将拼接映射到维度为p的特征空间,得到博主的向量表示,记作Fbloggen=[u1,u2,…ui,…up],1<i<p,其中ui表示全连接层FC3第i个神经元输出值,p为神经元个数,激活函数使用ReLu,其中p取64;
第四部分:将从相同特征空间得到的向量Fbloggen输入到全连接层FC4,得到最终的模型输出向量y,激活函数为softmax,全连接层FC4神经元个数为5,分别表示微博博主五种性格类别[Se,Sa,Sc,Sn,So]的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190558.XA CN110990530A (zh) | 2019-11-28 | 2019-11-28 | 一种基于深度学习的微博博主性格分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190558.XA CN110990530A (zh) | 2019-11-28 | 2019-11-28 | 一种基于深度学习的微博博主性格分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990530A true CN110990530A (zh) | 2020-04-10 |
Family
ID=70087784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911190558.XA Pending CN110990530A (zh) | 2019-11-28 | 2019-11-28 | 一种基于深度学习的微博博主性格分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990530A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN116898441A (zh) * | 2022-08-25 | 2023-10-20 | 北京聆心智能科技有限公司 | 基于人机对话的性格测试方法、装置及电子设备 |
-
2019
- 2019-11-28 CN CN201911190558.XA patent/CN110990530A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113222772B (zh) * | 2021-04-08 | 2023-10-31 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN116898441A (zh) * | 2022-08-25 | 2023-10-20 | 北京聆心智能科技有限公司 | 基于人机对话的性格测试方法、装置及电子设备 |
CN116898441B (zh) * | 2022-08-25 | 2024-03-22 | 北京聆心智能科技有限公司 | 基于人机对话的性格测试方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914096B (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN107368468B (zh) | 一种运维知识图谱的生成方法及系统 | |
Alaparthi et al. | Bidirectional Encoder Representations from Transformers (BERT): A sentiment analysis odyssey | |
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
JP2022511619A (ja) | 自動化電子メールアシスタント | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN105138577B (zh) | 一种基于大数据的事件演化分析方法 | |
WO2015093540A1 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN110807091A (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
JP2015121897A (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN110119849B (zh) | 一种基于网络行为的人格特质预测方法及系统 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及系统 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN109409433A (zh) | 一种社交网络用户的人格识别系统和方法 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN109726253A (zh) | 人才图谱及人才画像的构建方法、装置、设备及介质 | |
CN110851593A (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN110990530A (zh) | 一种基于深度学习的微博博主性格分析方法 | |
CN116383395A (zh) | 一种水文模型领域知识图谱的构建方法 | |
CN106202299B (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200410 |