CN108363699A - 一种基于百度贴吧的网民学业情绪分析方法 - Google Patents

一种基于百度贴吧的网民学业情绪分析方法 Download PDF

Info

Publication number
CN108363699A
CN108363699A CN201810233206.7A CN201810233206A CN108363699A CN 108363699 A CN108363699 A CN 108363699A CN 201810233206 A CN201810233206 A CN 201810233206A CN 108363699 A CN108363699 A CN 108363699A
Authority
CN
China
Prior art keywords
mood
school work
mhkc
model
baidu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810233206.7A
Other languages
English (en)
Inventor
金苍宏
方格格
赵品通
吴明晖
刘泽民
朱凡微
袁伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN201810233206.7A priority Critical patent/CN108363699A/zh
Publication of CN108363699A publication Critical patent/CN108363699A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于百度贴吧的网民学业情绪分析方法,包括:数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;数据预处理;首先,去除数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,学业情绪标注包括人工标注机器学习和机器标注;对学业情绪分类结果进行相关性与差异性分析。本发明运用学业情绪人工分类和采用机器学习方法对数据集进行情绪分类,判断整体情绪,并统计各情绪强度和占比,最后根据时间序列、情绪拐点和关键事件、学业情绪的群体特征等多个方面,对高考事件中网民的学业情绪的时间发展特征和群体特征进行多角度分析。

Description

一种基于百度贴吧的网民学业情绪分析方法
技术领域
本发明属于数据分析领域,具体涉及一种基于百度贴吧的网民学业情绪分析方法。
背景技术
目前关于学业情绪的研究采用的大多都是问卷调查的方法,其他研究方法比较缺失,教育心理学本身的复杂性和不可操控性造成了其研究方法的单一性的缺点;其二、由于人力、物力的局限,目前研究学业情绪,大多集中在某些区域学生或某类学生群体,样本范围有限;其三、学业情绪研究对象为具体自然人学生,对于这些学生在网络上的匿名行为特征没有研究。其四、对高考这一个特殊事件的学业情绪研究较少。
大数据分析技术的兴起为解决以上问题创造了条件。高考吧作为当前网民(以高中生和其家长为主)常用的网络社交平台之一,集合了历年高考相关事件的信息帖,因而直观展现了以高中生为主体的学业相关的各类信息,其中包括反映学生学业情绪的情绪信息。在高考考试、成绩出分、志愿填报、录取查询等相关时间段,高考吧中的话题量和活跃人数显著上升。通过对高考吧中的帖子内容和发帖人的观察,反映出网民对不同高考事件的看法和心理状态,从而表现出不同的学业情绪。同时,网民的性别和注册时长等属性也可能诱发相应的学业情绪。
发明内容
本发明的目的是提供一种基于百度贴吧的网民学业情绪分析方法。因此,本发明采用以下技术方案。
一种基于百度贴吧的网民学业情绪分析方法,所述分析方法包括以下步骤:
步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;
步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;
步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;
步骤4、对学业情绪分类结果进行相关性与差异性分析。
优选的,数据预处理后的数据集分为训练集和测试集,对所述训练集进行人工标注机器学习,对所述测试集进行机器标注。
优选的,所述人工标注机器学习包括:
(1)收集和整理情绪关键词,形成情绪关键词库;
(2)人工对测试集中的帖子进行选择和情绪标注;
(3)TF-IDF自然语言处理,提取出相关的情绪关键词,更新情绪关键词库;
(4)对每个帖子的情绪关键词词频x做了归一化处理,去除异常值,通过线性转化函数进行处理,得到最终的归一化词频y:
其中,minvalue和maxvalue是人工定义的帖子的上限和下限;超过上限的词频,调整为上限值,最终y为0到5之间的一个值,并向上取整;
(5)使用多元回归算法,计算出某种学业情绪分类下的情绪强度,其具体公式如下:
Z=W1×y1+w2×y2+…+wn×yn
其中,Z是某种学业情绪分类下的情绪强度,假设有n个情绪关键词,yi表示情绪关键词的词频,wi表示情绪关键词在学业情绪分类下的权重。
优选的,所述机器标注包括,通过人工标注机器学习训练的每个情绪关键词在每种学业情绪分类下的权重,计算出帖子在学业情绪分类下的情绪强度,具体的计算公式为:
Z′=w1×y1+w2×y2+…+wn×yn
其中,Z′为帖子在学业情绪分类下的情绪强度。
优选的,所述13类学业情绪包括:高兴、自豪、希望、满足、平静、放松、焦虑、羞愧、生气、无助、厌倦、沮丧、疲乏心烦。
优选的,所述13类学业情绪分为积极高唤醒、积极低唤醒、消极高唤醒和消极低唤醒四个维度。
本发明的有益效果是:本发明运用学业情绪人工分类和采用机器学习方法对数据集进行情绪分类,判断整体情绪,并统计各情绪强度和占比,最后根据时间序列、情绪拐点和关键事件、学业情绪的群体特征等多个方面,对高考事件中网民的学业情绪的时间发展特征和群体特征进行多角度分析。本发明采用互联网信息采集技术和自然语言处理技术等大数据研究方法进行学业情绪研究,研究的新范式和经验对于今后运用大数据技术进行情绪心理学研究具有借鉴意义。
附图说明
图1是本发明中学业情绪分析方法步骤示意图。
图2是本发明中人工标注机器学习和机器标注框架图。
图3是本发明中四类维度情绪-时间走势图。
图4是本发明中四类维度学业情绪在高考事件中的估算边际均值。
图5是本发明中男女积极低唤醒情绪在高考事件中的估算边际均值。
图6是本发明中男女放松情绪在高考事件中的估算边际均值。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于百度贴吧的网民学业情绪分析方法包括以下步骤。
第一步:百度高考吧数据提取与数据预处理。
百度贴吧是一种基于关键词的主题交流社区,它与搜索紧密结合,准确把握用户需求,为兴趣而生。高考吧目前共有超过230万的关注用户,主题帖数量超过6000万。每个主题帖子包含了楼主的发帖内容和成百上千个回帖。同时,每个用户的信息中也包含了年龄、性别等基本信息。
高考吧是百度贴吧中高考线管话题热度最高的贴吧,因此选用高考吧最为研究对象。高考吧的界面包含帖子标题,发帖人,时间,回复等信息。
本发明抓取高考吧主题帖子,并对每个帖子的回复抓取最多2000楼,形成最终数据集。采集信息包括内容信息如:标题,发帖用户名,内容(包括,回帖),发帖时间,回贴数量等,和用户信息如性别,贴吧吧龄,发帖数等。
通过对2015年全年数据进行统计可得,在6,7月份高考季节,贴吧的活跃度和发帖量都是出现了井喷的状态,其数量远远高于其它月份。本发明重点关注6,7月份的高考吧数据,共提取相关吧贴119873条。
第二步:数据预处理。
由于百度高考帖吧的内容主要由中文表述,同时其中包含了大量的图片、表情包、动画等内容,在进行统计分析之前,我们需要对其进行清洗和处理。
首先,我们去除了帖子内容中的非文本信息,包括链接引用、图片、表情包等等不需要的内容。
然后需要对其进行中文分词。对于文本中的词汇进行词性分析,去除相关的停用词如助词、介词等。
句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,主要考虑两个问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。
我们把S表示句子;NP、VP、PP是名词、动词、介词短语(短语级别);N、V、P分别是名词、动词、介词。并且生成句子的语法树,定义如下的一套上下文无关语法。
1)N表示一组非叶子节点的标注,例如{S、NP、VP、N...}
2)Σ表示一组叶子结点的标注。
3)R表示一组规则,每条规则可以表示为X->Y1Y2...Yn,X∈N,Yi∈(N∪Σ)
4)S表示语法树开始的标注
例如,句子the man sleeps就可以表示为(S(NP(DT the)(NN man))(VPsleeps))。
本发明使用举例:
原始帖子标题为“【军校国防生】军校苦吗?平时自由不?学长进来指点下哈,迷茫了”,经过中文分词工具处理与去掉停用词之后,得到结果为“NN军校NN国防生NN军校VP苦NN自由NN学长V指点NN迷茫”。
第三步:学业情绪分类。
按照大数据和数据分析的相关研究思路,把整体数据集分成训练集(trainingdataset)和测试集(test dataset)两个部分,其中训练集,我们随机提取了约10%的数据,1w条数据进行训练模型或确定其参数,余下的109873条数据用于测试,来验证分类模型的有效性。对帖子内容的标注分为人工标注机器学习和机器标注两个步骤,其中虚线表示人工处理,实线表示机器处理,如图2所示。
(1)人工标注和机器学习
本发明以俞国良&董妍(2007)青少年学业情绪量表中四个维度和13类情绪为依据,具体为:积极高唤醒(高兴、自豪、希望),积极低唤醒(满足、平静、放松),消极高唤醒(焦虑、羞愧、生气),消极低唤醒(无助、厌倦、沮丧、疲乏-心烦)。
1.由心理学研究生对情绪种子词进行整理,提取包括心境量表POMS-1(Pepe&Bollen,2008),《汉语情绪词表》(左衍涛,王登峰,1997)、《中文情绪形容词检测表》(钟杰,钱铭怡,2005)中相关情绪词92个。接着在WordNet,《现代汉语词典》和《现代汉语实词搭配词典》中找到上述词汇的近义词,并且按13类学业情绪分类整理,得到初步的情绪种子词,形成最初始的关键词库,如表1所示。
表1情绪分类及情绪种子词
为了确保人工整理的情绪种子词的有效性,需要在高考吧实际数据中进行验证。找到心理学、计算机科学专业研究生等10人,通过培训后,以两组双盲的形式,对测试集合中的1w条帖子按照13类学业情绪进行标注。如果认为帖子中有多类学业情绪,则标注为多类学业情绪。然后把两组数据结果进行比较,选出结论基本一致的帖子数4823条,这些帖子具有较明显的某一类或多类学业情绪,其它的5177条帖子要么学业情绪表现的不明显,要么情绪分类比较模糊。再通过心理学专家的再次判定,最终确定4500条有效帖子进入训练模块。同时,对这4500条帖子里每个帖子中的13类情绪进行强度标注,其值为Z,如果某一个类学业情绪没有出现,则用0表示,最高5分,保存形式为<帖子ID,学业情绪,情绪分数值>
2.对分为13类的4500条训练帖子,通过机器学习做进一步处理。对每个分类进行TF-IDF的自然语言处理,提取出相关的情绪关键词。把相关度较高的词通过人工筛选后,并入关键词库中;并根据处理结果对关键词库中之前已存在的情绪种子词进行调整。至此,我们就形成了本发明所需要学业情绪关键词库。
3.对每次帖子的学业情绪关键词进行词频统计。由于帖子中有回帖,在百度高考贴吧回帖中存在盖楼的现象,使得同一个内容会多次重复出现,这会影响情绪的最终判定。我们使用SimHash方法对每个回帖进行相似度判断,去掉重复的盖楼内容。对处理后的内容进行关键词词频统计,并保存<帖子ID,关键词,词频>(一条记录)的形式,其中一个帖子可以对应多个关键词。我们对每个帖子的词频x做了归一化处理,去除特别高的异常值,通过线性转化函数进行处理,得到最终的归一化词频y:
其中,minvalue和maxvalue是我们人工定义的帖子的上限和下限。超过上限的词频,调整为上限值,最终y为0到5之间的一个值,并向上取整。
4.使用统计和计算机科学中的多元回归算法,根据帖子ID关联不同的情绪关键词词频和学业情绪强度,计算出每个关键词在不同情绪分类下的权重,其具体公式如下
Z=W1×y1+w2×y2+…+wn×yn
其中Z是某分类下的情绪强度,假设有n个关键词,yi表示某个关键词的词频,wi表示该关键词在该分类下的权重。wi通过机器学习训练得到。
(2)机器标注
本发明采用机器学习的方法对文本进行自动分类和强度标注,通过机器学习的方法弥补人工标注标准不统一、费时费力的缺陷。对于高考吧中的每个帖子,对其情绪进行分类的方法有很多包括支持向量机(SVM),随机森林(RF),决策树(DT)等。本发明中,我们采用了多元回归算法进行分析,主要理由是:首先,通过人工标注和机器学习,我们已经获得了不同关键词在各个情绪分类中的权重;其次,多元回归算法可以充分考虑关键词出现的频率因素;再次,通过多元回归模型可以支持对同一个输入计算出不同类型下的Z值,也就是对于同一条帖子可以同时具有多个类别的学业情绪,并且具有不同的情绪强度。
通过训练好的每个情绪分类下的w1权重,计算出每个帖子在该分类下的情绪强度Z’。
Z′=w1×y1+w2×y2+…+wn×yn
第四步:根据所得数据进行相关情绪分析。
(1)情绪-事件模型,此模型主要考察学业情绪与时间、事件的关系。
高考整个过程在6、7高考月中主要的阶段包括考试、出分、志愿填报和录取四个大的阶段。
通过对整个测试数据集进行算法运算后,所有吧贴13种情绪分类上都有一个得分。为了在同一水平上比较各种情绪表达的相对强度,对每种情绪在各个时间区间的平均分用“所有吧贴在该情绪上得分的总和/总吧贴数”表示,并以周为一个时间单位,画出四类维度情绪–时间走势图,如图3所示。
由情绪变化走势图可知,四类维度学业情绪水平从高到低是:积极高唤醒、消极高唤醒、积极低唤醒、消极低唤醒。积极高唤醒学业情绪一直最多,说明高考月中体验到更多的积极学业情绪。积极高唤醒学业情绪与消极高唤醒学业情绪的变化方向基本相反。另外,情绪走势图中出现许多“拐点”,经查高考月的时间轴后,发现这些“拐点”分别对应高考月中不同的事件,即不同性质的事件主要诱发的学业情绪不同。对图3分析发现:四种维度学业情绪呈现一定的规律性,并且情绪走势图中出现的许多拐点与高考月中的关键事件发生的时间相吻合。为了进一步探讨不同学业情绪“拐点”与不同事件的关系,需要进一步对数据进行分析。
本发明选择高考的关键事件时须同时考虑以下两个条件:
其一,该事件发生的时间全国基本一致;
其二,该事件发生的所在时间区间内,无其他主要高考事件同时发生。
所以最终本发明按照事件发生的先后顺序共选取如下2个高考关键事件作为研究点。它们分别是:高考考试(事件1,6月7日~6月9日)和高考出分(事件2,6月22日~6月26日)。而其他几个事件由于各省份差异过大或事件之间存在较大的时间重叠的缘故,未被纳入研究。
进而对两个事件的时间区间定义如下:
事件1:高考考试事件
高考前:6月4日至6月6日
高考后:6月10日至6月12日
事件2:高考出分事件
出分前:6月19日至6月21日
出分后:6月27日至6月29日
提取的事件1前后各6852、4444条,事件2前后各540、804条帖子内容数据进行分析。注:此处用来做分析的具体数值为经过不同时间事件的筛选的每条帖子记录上的各个情绪强度值。
结果分析举例(此处列出事件1的结果):
P值:用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P值(P-Value,Probability,Pr),P值是进行检验决策的另一个依据。统计学根据显著性检验方法所得到的P值,一般以P<0.05为有统计学差异,P<0.01为有显著统计学差异,P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05、0.01、0.001。
T值:是数理统计中的一种统计量,用来判断统计上是否显著的指标,T越大代表差异越大。
事件1(高考)前后相比,独立样本T检验结果表明,四类维度学业情绪均有显著差异。积极高唤醒和消极低唤醒学业情绪强度显著升高。积极低唤醒和消极高唤醒学业情绪强度显著降低。进一步研究事件1前后具体学业情绪的情况,独立样本T检验结果表明,高兴、希望、生气、无助、沮丧情绪显著升高,平静、放松、焦虑情绪显著降低。下表为高考前后学业情绪的差异分析。
表2高考前后学业情绪的差异分析
注:*p<0.05,**p<0.01,***p<0.001(小于0.05有差异,小于0.01显著差异)
事件1(高考)前后和四类维度情绪类型在情绪强度上的交互作用显著,p<0.01。结合图表分析,在高考考试前,积极高唤醒的强度最高,如图4所示。方差分析的结果发现,积极高唤醒情绪和其它三类维度情绪的比较与时间段的交互作用均显著:与积极低唤醒比较时,p<0.000;与消极高唤醒比较时,p<0.046;与消极低唤醒p<0.001。
表3情绪与时间的两两交互作用(以积极高唤醒为对照)
这表明高考前后积极高唤醒情绪随着时间的变化量与其它三个维度的情绪随时间的变化量存在显著差异,且积极高唤醒情绪的增量高于其它三个维度情绪。
(2)情绪-群体模型,此模型考察不同群体与学业情绪的关系。
当我们按照群体特征进行深入的探究时,发现不同人群对同一个事件会表现出一定的差异性。例如,在高考前期,女性更容易发布“紧张的睡不着”,“怎么办”之类的表现焦虑的帖子。俞国良等人的研究也认为,女性的消极情绪多于男性,男性的积极情绪多于女性。而主体间共识理论认为,个人对群体中其他人的观念认知,可以形象表述为“我眼中他人对我的看法”或者“我认为他人对我的观点”。这种知觉到群体规范,即群体间共享价值观对人们的行为预测有较大的意义。根据该理论男性、女性、新网民或老网民,只要人们存在着中对性别的刻板印象,共享的社会规范就会驱使男女在学业情绪表达上会有的差异。
因此,为了研究学业情绪是否存在规律性的群体差异,将探讨不同性别群体及不同注册时长用户在高考月以及高考和出分事件前后的学业情绪表达倾向差异和情绪强度差异。
对提出的百度高考贴吧用户数据,包括22867条高考贴对应的性别、4208条高考贴对应的注册时长等个人信息以及这些帖子的情绪评分进行分析。
结果分析举例(此处用男女用户来做说明):
1、男性和女性的学业情绪表达倾向差异:
对男性和女性在高考月、高考事件、出分事件中的情绪倾向性进行分析。此处举例高考月的分析。
将高考月期间的数据(0为女性,1为男性)放入spss做回归分析可得下表数据。由下表结果可知,在高考月中的四类学业情绪表达上,男性和女性表现出学业情绪都是负向的(看回归系数),男性情绪表达倾向低于女性(前者是后者的0.8-0.9倍,看Odds ratio),如表4所示。
表4男性和女性高考月的情绪表达倾向差异
对13种学业情绪进行进一步分析,如表5所示,男性和女性在表达高兴、希望、满足、放松、焦虑、羞愧、无助、沮丧、厌倦和疲乏-心烦情绪的倾向性上都是负向的,而在自豪、平静、生气情绪的倾向性上是正向的。同时,男性较女性在自豪、平静、生气情绪的表达倾向性上都显著高于女性(前者是后者的1.128倍、1.011倍和1.125倍),其他情绪上则是女性的表达倾向更强。
表5男性和女性高考月的13类情绪表达倾向差异
2、男性和女性的学业情绪强度差异:
对男女在6、7月中的四类维度学业情绪强度做差异性检验,结果发现四类维度情绪均存在显著差异,如表6所示。女性在积极高唤醒、积极低唤醒、消极高唤醒、消极低唤醒学业情绪强度上均显著高于男性。说明女性相比男性不仅容易体验消极情绪,也容易体验到积极情绪。进一步研究男女性别在具体学业情绪上的表达差异。通过差异性检验结果发现,女性在高兴、希望、满足、平静、放松、焦虑、羞愧、无助、厌倦、沮丧、疲乏-心烦情绪强度上均显著高于男性(由于表格过长,此处列出部分数据)。
表6高考月男女学业情绪的差异分析
注:*p<0.05,**p<0.01,***p<0.001(小于0.05有差异,小于0.01显著差异)
其次,对男女性别在事件1(高考)和事件2(出分)前后的情绪强度差异,以情绪强度为因变量,对性别、事件前后做2×2两因素方差分析。结果表明,高考前后三天,在积极低唤醒情绪上时间段与性别的交互作用显著(p=0.009)。具体表现为:高考前后,女生积极低唤醒情绪的变化幅度(降低幅度)比男生更大(M女前=0.949,M女后=0.542,M男前=0.620,M男后=0.482,如图5所示),而在其它维度情绪上未发现显著的交互作用。这说明,在高考前后,女生的积极低唤醒情绪比男生下降的幅度更多,而在其他维度情绪上男女生变化的幅度基本一致。
出分前后三天,在四类维度情绪上均未发现时间段与性别的交互作用(p>0.442)。这说明,在出分前后,男女生在四类维度情绪上的变化趋势基本一致。
因女生在高考前后积极低唤醒学业情绪的变化幅度比男生大,为了弄明白究竟是在哪种具体学业情绪上女生变化幅度大,需要对积极低唤醒的3类情绪(满足、平静、放松)进一步研究。以满足、平静、放松3类情绪强度为因变量,对性别、事件1(高考)前后做2×2两因素方差分析,如图6所示。结果表明,高考前后,在放松情绪上时间段与性别的交互作用显著(p=0.0493)。具体表现为:高考前后,女生在放松情绪上的降低幅度比男生大(M女前=0423,M女后=0.236,M男前=0.268,M男后=0.212)。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述分析方法包括以下步骤:
步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;
步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;
步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;
步骤4、对学业情绪分类结果进行相关性与差异性分析。
2.根据权利要求1所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,数据预处理后的数据集分为训练集和测试集,对所述训练集进行人工标注机器学习,对所述测试集进行机器标注。
3.根据权利要求2所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述人工标注机器学习包括:
(1)收集和整理情绪关键词,形成情绪关键词库;
(2)人工对测试集中的帖子进行选择和情绪标注;
(3)TF-IDF自然语言处理,提取出相关的情绪关键词,更新情绪关键词库;
(4)对每个帖子的情绪关键词词频x做了归一化处理,去除异常值,通过线性转化函数进行处理,得到最终的归一化词频y:
其中,minvalue和maxvalue是人工定义的帖子的上限和下限;超过上限的词频,调整为上限值,最终y为0到5之间的一个值,并向上取整;
(5)使用多元回归算法,计算出某种学业情绪分类下的情绪强度,其具体公式如下:
Z=w1×y1+w2×y2+…+wn×yn
其中,Z是某种学业情绪分类下的情绪强度,假设有n个情绪关键词,yi表示情绪关键词的词频,wi表示情绪关键词在学业情绪分类下的权重。
4.根据权利要求2所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述机器标注包括,通过人工标注机器学习训练的每个情绪关键词在每种学业情绪分类下的权重,计算出帖子在学业情绪分类下的情绪强度,具体的计算公式为:
Z′=w1×y1+w2×y2+…+wn×yn
其中,Z′为帖子在学业情绪分类下的情绪强度。
5.根据权利要求1所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述13类学业情绪包括:高兴、自豪、希望、满足、平静、放松、焦虑、羞愧、生气、无助、厌倦、沮丧、疲乏心烦。
6.根据权利要求5所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述13类学业情绪分为积极高唤醒、积极低唤醒、消极高唤醒和消极低唤醒四个维度。
CN201810233206.7A 2018-03-21 2018-03-21 一种基于百度贴吧的网民学业情绪分析方法 Pending CN108363699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233206.7A CN108363699A (zh) 2018-03-21 2018-03-21 一种基于百度贴吧的网民学业情绪分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233206.7A CN108363699A (zh) 2018-03-21 2018-03-21 一种基于百度贴吧的网民学业情绪分析方法

Publications (1)

Publication Number Publication Date
CN108363699A true CN108363699A (zh) 2018-08-03

Family

ID=63000622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233206.7A Pending CN108363699A (zh) 2018-03-21 2018-03-21 一种基于百度贴吧的网民学业情绪分析方法

Country Status (1)

Country Link
CN (1) CN108363699A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726938A (zh) * 2019-01-28 2019-05-07 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN110025323A (zh) * 2019-04-19 2019-07-19 西安科技大学 一种婴幼儿情绪识别方法
CN110245236A (zh) * 2019-06-25 2019-09-17 北京向上一心科技有限公司 信息呈现方法、装置和电子设备
CN112989760A (zh) * 2019-12-17 2021-06-18 北京一起教育信息咨询有限责任公司 为题目打标签的方法、装置、存储介质及电子设备
CN113361807A (zh) * 2021-06-30 2021-09-07 中国电信股份有限公司 号码识别模型优化方法及装置、电子设备
CN113782188A (zh) * 2021-09-16 2021-12-10 深圳大学 Sjt情境式儿童心理测评系统的多维度测验数据处理方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN106407449A (zh) * 2016-09-30 2017-02-15 四川长虹电器股份有限公司 一种基于支持向量机的情感分类方法
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN106919673A (zh) * 2017-02-21 2017-07-04 浙江工商大学 基于深度学习的文本情绪分析系统
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN106407449A (zh) * 2016-09-30 2017-02-15 四川长虹电器股份有限公司 一种基于支持向量机的情感分类方法
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN106919673A (zh) * 2017-02-21 2017-07-04 浙江工商大学 基于深度学习的文本情绪分析系统
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALLANXL: "NLP | 自然语言处理 - 语法解析(Parsing, and Context-Free Grammars)", 《HTTPS://BLOG.CSDN.NET/LANXU_YY/ARTICLE/DETAILS/37700841》 *
叶勇豪 等: "网民对"人祸"事件的道德情绪特点——基于微博大数据研究", 《心理学报》 *
彭蔚喆: "面向中文微博文本的情感识别与分类技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
董妍 等: "青少年学业情绪问卷的编制及应用", 《心理学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726938A (zh) * 2019-01-28 2019-05-07 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN109726938B (zh) * 2019-01-28 2023-09-12 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN110025323A (zh) * 2019-04-19 2019-07-19 西安科技大学 一种婴幼儿情绪识别方法
CN110025323B (zh) * 2019-04-19 2021-07-27 西安科技大学 一种婴幼儿情绪识别方法
CN110245236A (zh) * 2019-06-25 2019-09-17 北京向上一心科技有限公司 信息呈现方法、装置和电子设备
CN110245236B (zh) * 2019-06-25 2021-07-20 北京向上一心科技有限公司 信息呈现方法、装置和电子设备
CN112989760A (zh) * 2019-12-17 2021-06-18 北京一起教育信息咨询有限责任公司 为题目打标签的方法、装置、存储介质及电子设备
CN113361807A (zh) * 2021-06-30 2021-09-07 中国电信股份有限公司 号码识别模型优化方法及装置、电子设备
CN113782188A (zh) * 2021-09-16 2021-12-10 深圳大学 Sjt情境式儿童心理测评系统的多维度测验数据处理方法
CN113782188B (zh) * 2021-09-16 2023-11-28 深圳大学 Sjt情境式儿童心理测评系统的多维度测验数据处理方法

Similar Documents

Publication Publication Date Title
CN108363699A (zh) 一种基于百度贴吧的网民学业情绪分析方法
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
US9105008B2 (en) Detecting controversial events
US20160357854A1 (en) Scenario generating apparatus and computer program therefor
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
EP3086237A1 (en) Phrase pair gathering device and computer program therefor
CN113672698B (zh) 一种基于表达分析的智能面试方法、系统、设备和存储介质
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
WO2023124837A1 (zh) 问诊处理方法、装置、设备及存储介质
CN113782123A (zh) 一种基于网络数据的在线医疗患者满意度测量方法
Li et al. Contrasting semantic and sentimental features between Chinese and American economic news discourse in the epidemic era: A corpus-based critical discourse analysis
CN106055875A (zh) 一种基于大数据的皮纹分析处理装置
Nikadon et al. BERTAgent: The development of a novel tool to quantify agency in textual data
CN104933097B (zh) 一种用于检索的数据处理方法和装置
Dayter et al. Talking about women
CN111444347A (zh) 事件演化关系分析方法及装置
Akintunde et al. A Sentiment-Aware Statistical Evaluation of Vawulence Tweets for Cyberbullying Analytics
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
Rachmad et al. Sentiment Analysis of Government Policy Management on the Handling of Covid-19 Using Naive Bayes with Feature Selection
Pietraszkiewicz et al. Verbs are associated with agency
CN105975792A (zh) 一种基于大数据的皮纹分析处理装置、方法
Mutiah et al. Topic modeling on covid-19 vaccination in indonesia using lda model
CN117077632B (zh) 一种用于资讯主题的自动生成方法
CN117973946B (zh) 一种面向教学的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180803