CN110825842B - 基于不同人格特征的文本观点挖掘方法 - Google Patents

基于不同人格特征的文本观点挖掘方法 Download PDF

Info

Publication number
CN110825842B
CN110825842B CN201910959523.1A CN201910959523A CN110825842B CN 110825842 B CN110825842 B CN 110825842B CN 201910959523 A CN201910959523 A CN 201910959523A CN 110825842 B CN110825842 B CN 110825842B
Authority
CN
China
Prior art keywords
word
viewpoint
words
distribution
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910959523.1A
Other languages
English (en)
Other versions
CN110825842A (zh
Inventor
左源
吴俊杰
李文娟
刘冠男
袁石
林浩
张志豪
李丰志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910959523.1A priority Critical patent/CN110825842B/zh
Publication of CN110825842A publication Critical patent/CN110825842A/zh
Application granted granted Critical
Publication of CN110825842B publication Critical patent/CN110825842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不同人格特征的文本观点挖掘方法,包括以下步骤:S1、构建最大熵模型;S2、针对某个事件,将全语料依据人格特征分成多个集合语料c,并通过耦合的狄利克雷过程DP构建跨人格特征主题模型;S3、每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数。本发明具有自动、准确地发现事件的主要主题,并区分不同人格特征对每个主题的客观方面(属性词)和主观观点(观点词)的有益效果。

Description

基于不同人格特征的文本观点挖掘方法
技术领域
本发明涉及文本观点挖掘技术领域。更具体地说,本发明涉及一种基于不同人格特征的文本观点挖掘方法。
背景技术
随着Web 2.0技术的快速发展,互联网用户生成了大量内容,尤其是各大社交网站、论坛等产生了大量用户生成的针对热点事件的评论,这些评论对公共事件的舆情发展产生了重要影响,也为在线社会舆情分析提供了丰富的数据来源。其中,互联网文本信息根据其阐述的内容特征,大致可以分为两类:一类是描述事件事实、实体属性的客观信息(属性词),另一类是表现人们对客观信息喜好、厌恶、支持、反对等的不同态度和评价的主观信息(观点词);
20世纪80年代以来,人格研究者们在人格描述模式上达成了比较一致的共识,提出了人格五因素模式,包括:(1)外倾性:热情、乐群性、独断性、活动性、寻求刺激、积极情绪。(2)神经质或情绪稳定性:焦虑、愤怒、沮丧、自我意识、冲动性、脆弱性。(3)开放性:幻想、价值、爱美、观念、情感丰富、行动。(4)宜人性:信赖、直率、利他、顺从、谦逊、慈善。(5)尽责性:能力、条理性、尽责、追求成就、自律、严谨。申请号为2016110763662,名称为一种通过文本主题挖掘推测用户大五人格的方法及系统;申请号为2018115534141,名称为一种基于中文文本分析的社交网络用户人格预测方法,等专利中均公开了对用户人格进行预测的方法,依据用户人格进而可反推判断该用户的用户评论对应人格特征;
不同人格特征的网民,对暴恐、社会安全事件、社会不公等现象表现出的态度也大不相同。上级部门需要及时了解到针对网络事件的不满情绪和网民心理。如何利用机器学习建模和计算心理学技术从用户评论的短文本中实现对不同人格特征的网民的不同观点的准确刻画和识别,提早发现社会不稳定的潜在因素,站在网络信息空间安全角度确保国家的社会稳定安全,是目前急需解决的问题。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于不同人格特征的文本观点挖掘方法,其基于不同人格特征用户评论,挖掘隐藏在文本中的事件主题,为不同人格特征对同一事件的观点及态度分析提供了准确客观的属性词以及情感鲜明的观点词,并对观点词进行了极性分析,实现了全面而深入的基于不同人格特征的观点挖掘。
为了实现根据本发明的这些目的和其它优点,提供了一种基于不同人格特征的文本观点挖掘方法,包括以下步骤:
S1、获取训练语料,并对训练语料的词进行词向量特征表示,获得词的词向量特征,对进行词向量特征表示完的训练语料,结合观点词集合,使用词的词向量特征为特征,构建最大熵模型;
S2、针对某个事件,收集全语料,将全语料依据人格特征分成多个集合语料c,针对多个集合语料c,通过耦合的狄利克雷过程DP构建跨人格特征主题模型,其中,跨人格特征主题模型参数包括:
Figure BDA0002228457960000021
其表示第z个共享主题的属性词分布;
Figure BDA0002228457960000022
其表示集合语料c所属的第z个共享主题的观点词分布
Figure BDA0002228457960000023
Figure BDA0002228457960000024
其表示第z个独享主题的属性词分布;
Figure BDA0002228457960000025
其表示第z个独享主题的观点词分布,每一个集合语料c的独享主题的属性词分布
Figure BDA0002228457960000026
分别对应一个观点词分布
Figure BDA0002228457960000027
共享主题由不同集合语料c共享的全局DP生成,独享主题由每个特征人格特征对应集合语料的DP生成;
S3、针对每个集合语料中的每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;
S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数。
优选的是,步骤S1中获得词的词向量特征具体为:
S1a、获取用户评论,其中,用户评论包括多条文档,每条文档包括至少一个句子;
S1b、利用中文分词工具对每个句子进行分词处理,根据观点词词典分别统计每个句子中观点词的词频,并依据观点词词频由大至小对全部句子进行排名,选取排名在前且词频至少等于1的句子构成训练语料;
S1c、对构成训练语料的全部句子的词进行筛选后获得词集合,使用词向量模型获得词集合中的每个词的词向量wt,并同步输出与每个词最相似的N个词wn,按照下式对每个词进行词向量特征表示,获得词的词向量特征w2vFeature(wt):
Figure BDA0002228457960000031
Figure BDA0002228457960000032
优选的是,步骤S2中耦合的狄利克雷过程表示为D~DP(α,B),是随机概率测量D在基础空间Ω上的分布,其中,α是密度参数,B是基于Ω的基本分布;
集合语料c中文档dj的第i个句子sji的生成过程表示为:sji~G(Fc),其中,Fc=∈cD0+(1-∈c)Dc;D0~DP(α0,B0),表示D0为所有集合语料c共享的成分生成自一个全局的DP;Dc~DP(αc,Bc),表示Dc为特定集合语料c的成分生成自特定的DP;∈c~Beta(α0c),∈c为服从Beta分布的参数,表示来自共享主题概率,则来自独享主题的概率为(1-∈c);α0及所有的αc均设置为0.2,基本分布B0及所有的Bc服从超参为0.05的狄利克雷先验分布。
优选的是,每一个集合语料c中文档dj的第i个句子sji对应一个潜在标签zji,以及一组存储着在文档dj与原子k相关的数据样本的数量的计数器{mjk};
步骤S4的一次迭代具体包括:
步骤4a、确定zji是来自全局DP或是特定DP,具体为:使用rji表示zji的源DP,如果rji=0,源DP为全局DP,如果rji=c,则源DP为文档dj所在的集合语料c的特定DP,计算方程如下;
p(rji=c)∝p(rji=c|vj)p(sji|rji=c,zji)=vjcp(sji|rji=c,zji)
其中,vj=(vj0,vjc)为源DP的群体特征,反映了全局DP和特定DP对文档dj的相对贡献,p(sji|rji=c,zji)为句子sji的似然,计算公式如下;
Figure BDA0002228457960000033
其中,k表示主题,
Figure BDA0002228457960000041
为除了句子sji之外,所有文档中分配给k的样本总数;φk表示原子,即主题-词的多项式分布;Ic为包含Dc中所有原子指数的集合;f(sji;φk)为句子sji在φk上的概率密度函数;f(sji;B)=∫θf(sji;θ)B(θ)dθ;
步骤4052、根据确定好的源DP,确定zji,并生成一个特定的原子,该过程类似于中餐馆过程,具体如下:
根据与
Figure BDA0002228457960000048
成比例的原则,设置zji=k,根据与αcf(sji;B)成比例的原则,从B(·|si)中生成一个新的原子;
同时,更新组合系数vj=(vj0,vjc),根据Fc的生成过程,vj遵循一个Beta分布,给定zj
Figure BDA0002228457960000042
其中,
Figure BDA0002228457960000043
是文档dj中与Dc相关联的样本总数;
步骤4053、对于句子sji中某个输入分词sjin,根据最大熵模型计算该分词sjin属于观点词或属性词的指示变量yjin值,具体为:
根据最大熵模型得到分词sjin属于属性词的概率,若分词属于属性词的概率大于属于观点词的概率,则分词被判定为属性词,用指示变量yjin=0表示;否则分词属于观点词的概率大于属于属性词的概率,则该分词判定为观点词,用yjin=1表示;
步骤4054、根据源DP指示变量rji、属性观点指示变量yjin和主题下标指示变量zji,根据主题-词分布确定输入文档dj中的分词sjin
若rji=0,yjin=0,生成词
Figure BDA0002228457960000044
表示分词sjin由第zji个共享主题生成,该分词是属性词,词分布是共享主题的属性词分布;
若rji=0,yjin=1,生成词
Figure BDA0002228457960000045
表示分词sjin由第zji个共享主题中第c个语料的观点词分布生成,该词是观点词,词分布是共享主题的观点词分布;
若rji=c,yjin=0,生成词
Figure BDA0002228457960000046
表示分词sjin由第zji个独享主题中第c个语料的属性词分布生成,该词是属性词,词分布是独享主题的属性词分布;
若rji=c,yjin=1,生成词
Figure BDA0002228457960000047
表示分词sjin由第zji个独享主题中第c个语料的观点词分布生成,该词是观点词,词分布是独享主题的观点词分布。
优选的是,还包括:S5、针对某个具体共享主题的所有观点词或者某个具体独享主题中的所有观点词,利用情感分类器进行极性分析。
本发明至少包括以下有益效果:
第一、采用词向量特征表示,以无监督的方式学习词之间的语义和句法关系,避免了人工标注训练数据,提供一种自动构建词向量嵌入的最大熵分类器训练数据的算法,提高了模型的可用性。
第二、提供了一种贝叶斯非参数学习方法,可以通过不同人格特征的微博语料的互补和差异性,自动、准确地发现事件的主要主题,并区分不同人格特征对每个主题的客观方面(属性词)和主观观点(观点词),适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的其中一种技术方案所述最大熵模型构建流程图;
图2为本发明的其中一种技术方案所述基于不同人格特征的文本观点挖掘方法的流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1-2所示,本发明提供一种基于不同人格特征的文本观点挖掘方法,包括:
S1、获取训练语料,并对训练语料的词进行词向量特征表示,获得词的词向量特征,对进行词向量特征表示完的训练语料,结合观点词集合,使用词的词向量特征作为特征,构建最大熵模型;其中,观点词集合最大熵模型用以对新的文本所包含词进行属性词和观点词的自动分类,获取语料中每个词属于属性词或者观点词的先验概率;
S2、针对某个事件,收集全语料,将全语料依据人格特征分成多个集合语料c,其中,一个集合语料c中的每条评论文档对应的人格特征相同,不同集合语料c中的评论文档对应的人格特征不同;人格按照①外倾性;②神经质或情绪稳定性;③开放性;④宜人性(随和性);⑤尽责性(严谨性)分为五种,具体分析方法可为现有分析方法中的任一种;
针对多个集合语料c,通过耦合的狄利克雷过程DP构建跨人格特征主题模型,其中,跨人格特征主题模型参数包括:
Figure BDA0002228457960000061
其表示第z个共享主题的属性词分布,即每个共享主题对于不同的人格特征对应的语料而言具有近似相同的属性词分布;
Figure BDA0002228457960000062
其表示集合语料c所属的第z个共享主题的观点词分布
Figure BDA0002228457960000063
即每个共享主题对于不用的人格特征对应的语料而言具有不同的观点词分布;
Figure BDA0002228457960000064
其表示第z个独享主题的属性词分布,即每个独享主题为对应的人格特征语料特有的属性词分布;
Figure BDA0002228457960000065
其表示第z个独享主题的观点词分布,每一个集合语料c的独享主题的属性词分布
Figure BDA0002228457960000066
分别对应一个观点词分布
Figure BDA0002228457960000067
共享主题是指与事件相关的不同人格特征的微博语料的共同属性,由不同集合语料c共享的全局DP生成,独享主题是指与事件相关的某一具体人格特征的微博语料中的多个不同事件属性,由每个特征人格特征对应集合语料的DP生成,跨人格特征语料主题模型用来计算事件中的某个分词归属为共享主题的具体主题概率,或者归属于某一具体人格特征独享主题中的具体主题概率;
S3、针对每个集合语料中的每条文档使用哈工大社会计算与信息检索研究中心研发的LTP-cloud分词系统进行分词处理,对于构成一个集合语料的全部分词进行筛选后将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;
S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数。
在上述技术方案中,步骤S1中,观点词集合可以为观点词词典本身,为提高速度,也可以依据观点词词典及训练语料重新构建观点词集合,即指从观点词词典中选取的观点词组成的集合,具体为:首先从一个通用的观点词词典中选取M个观点词,组成观点词集合,选取时需要满足两个条件,其一是选取词的过程是随机选取,其二是选取的词要做筛选以保证在训练语料中频繁出现,其中,选取的个数M、频繁出现的概率依据实际需求设定。构建跨人格特征主题模型就是,针对某个事件的不同人格特征的微博语料组成的集合语料,将集合语料中每个词的生成过程模拟出来,目标是分析得出集合语料中的共享属性、独享属性以及各自的属性词和观点词。
跨人格特征主题模型假定事件隐含了若干主题,将事件主题即主题细分共享主题和独享主题,共享主题为不同人格特征的语料共享的事件属性,独享主题为特定人格特征语料特有的事件属性。每种主题又根据观点词和属性词的不同再进行细分,因此总共有四种主题的词分布,包括共享主题的观点词分布、共享主题的属性词分布、独享主题的观点词分布和独享主题的属性词分布;
跨人格特征主题模型进行每个词的生成;
跨人格特征主题模型假定每个句子只隐含一个主题,针对每个句子,首先从共享或独享主题中选定一个主题,主题选定之后,对于句子中的某个词,需要判定该词是属性词或观点词,最后从相应的主题词分布去生成最终的分词。
跨人格特征主题模型假定了主题的词分布,以及每个分词的生成过程(即初始化),而实际模型输入的是分词,通过吉布斯采样方法可以反求出各类主题的词分布(即模型的参数)。
针对不同人格特征的微博语料,跨人格特征主题模型的处理思路如下:
首先,跨语料的主题模型提取出一个舆情事件相关的微博的共同属性;
其次,跨语料的主题模型提取出在一个舆情事件中不同人格特征的微博语料的多个不同事件属性;
随后,跨语料的主题模型针对不同人格特征的微博语料共享的事件主题,提取相应的属性词和观点词。对于每一个共享的主题而言,有一组属性词表示属性本身,并生成相应微博语料的观点词和新闻语料的观点词。
最后,跨语料的主题模型针对不同人格特征的微博语料的每一个独享主题,提取特定人格特征的微博语料的属性词、观点词。
使用过程中,对热点事件的舆情分析,尤其针对不同人格特征的人群的观点走势分析以更准确进行舆情监控,控制事态发展,进一步考虑微博语料情绪化和口语化导致文本主题观点隐晦的特点,首先基于观点词词典,利用预训练好的词向量模型对词进行特征表示,训练最大熵模型;随后构建跨人格特征主题模型,分析事件的主题,将事件主题细分为共享主题和独享主题,以自动的方式同时挖掘事件的隐藏方面以及相应的观点;采用这种技术方案,提供了一种贝叶斯非参数学习方法,可以通过不同人格特征的微博语料的互补和差异性,自动、准确地发现事件的主要主题,并区分不同人格特征对每个主题的客观方面(属性词)和主观观点(观点词),适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。
在另一种技术方案中,步骤S1中获得词的词向量特征具体为:
S1a、获取用户评论,其中,用户评论包括多条文档,每条文档包括至少一个句子;具体为:用户评论来源于网络论坛、BBS、博客、微博等社交网络,本文以微博为例,用户评论至少包括多条微博文档,其中,一个句子的判定标准依据本领域技术人员根据实际情况设定;
S1b、利用中文分词工具对每个句子进行分词处理,根据观点词词典分别统计每个句子中观点词的词频,并依据观点词词频由大至小对全部句子进行排名,选取排名在前且观点词的词频至少等于1的句子构成训练语料,其中,使用哈工大社会计算与信息检索研究中心研发的LTP-cloud分词系统作为中文分词工具对每个句子进行分词处理,分词处理是根据中文语言的特点,将每个句子的中文文本切割成一个一个的单词,并依据观点词词典确定获得单词是否为观点词,统计每个句子的观点词个数作为该句子的观点词词频,排名在前的取值具体根据实际计算需求确定;
S1c、对构成训练语料的全部句子的词进行筛选后获得词集合,使用词向量模型获得词集合中的每个词的词向量wt,并同步输出与每个词最相似的N个词wn,按照下式对每个词进行词向量特征表示,获得词的词向量特征w2vFeature(wt):
Figure BDA0002228457960000081
Figure BDA0002228457960000082
其中,筛选是指对训练语料的全部词,做如下处理:其一、依据停用词表,去除无意义的词;其二、去除单个词;其三、去除高频词和低频词,其中,低频词为只是在少数训练语料中出现,不具有代表性的词;高频词一部分是在大部分微博中都出现的词语,另一类是错误分词后产生的分词碎片;
词向量模型可选择https://code.google.com/p/word2vec/,其为预训练好的现有的词向量模型,用于获取每个词的词向量,在对词进行词向量化后,观点词将紧密地定位在局部子空间中,因为它们具有相同的句法角色甚至类似的语义,例如,从实验使用的评论数据中计算出顶部相似的单词“happy”,那么我们会得到以下结果:“满意”,“高兴”、“印象深刻”、“满足”和“开心”等所有这些都是观点词,具有与“快乐”相似的含义;
cos(wn,wt)是指wn与wt的词向量余弦相似距离。
基于此,最大熵模型的使用方法为:对于新的语料(用户评论,具体可为多个微博文档),首先,对多个微博文档进行分词处理,对全部词进行筛选后获得待处理词集合,利用预训练好的词向量模型获得待处理词集合中的每个词的词向量,并同步输出与每个词最相似的N个词;其次,进行词的词向量特征表示,获取每个词的词向量特征;最后,将词的词向量特征,作为最大熵模型的输入,获得该词属于属性词的概率或者观点词的概率,进而判断该词属于属性词还是观点词。采用上述技术特征,采用词向量特征表示,以无人监督的方式学习词之间的语义和句法关系,避免了人工标注训练数据,提供一种自动构建词向量嵌入的最大熵分类器训练数据的算法,提高了模型的可用性。
在另一种技术方案中,步骤S2中耦合的狄利克雷过程表示为D~DP(α,B),是随机概率测量D在基础空间Ω上的分布,其中,α是密度参数,B是基于Ω的基本分布;
集合语料c中文档dj的第i个句子sji的生成过程表示为:sji~G(Fc),其中,Fc=∈cD0+(1-∈c)Dc;D0~DP(α0,B0),表示D0为所有集合语料c共享的成分生成自一个全局的DP;Dc~DP(αc,Bc),表示Dc为特定集合语料c的成分生成自特定的DP;∈c~Beta(α0c),∈c为服从Beta分布的参数,表示来自共享主题概率,则来自独享主题的概率为(1-∈c);α0及所有的αc均设置为0.2,基本分布B0及所有的Bc服从超参为0.05的狄利克雷先验分布。采用这种方案,狄利克雷过程,即DP,属于贝叶斯非参数模型,可以通过不同人格特征的微博语料的互补和差异性,自动、准确地发现事件的主要主题。
在另一种技术方案中,每一个集合语料c中文档dj的第i个句子sji对应一个潜在标签zji,以及一组存储着在文档dj与原子k相关的数据样本的数量的计数器{mjk};
步骤S4的一次迭代具体包括:
步骤4a、确定zji是来自全局DP或是特定DP,具体为:使用rji表示zji的源DP,如果rji=0,源DP为全局DP,如果rji=c,则源DP为文档dj所在的集合语料c的特定DP,计算方程如下;
p(rji=c)∝p(rji=c|vj)p(sji|rji=c,zji)=vjcp(sji|rji=c,zji)
其中,vj=(vj0,vjc)为源DP的群体特征,反映了全局DP和特定DP对文档dj的相对贡献,p(sji|rji=c,zji)为句子sji的似然,计算公式如下;
Figure BDA0002228457960000101
其中,k表示主题,
Figure BDA0002228457960000102
为除了句子sji之外,所有文档中分配给k的样本总数;φk表示原子,即主题-词的多项式分布;Ic为包含Dc中所有原子指数的集合;f(sji;φk)为句子sji在φk上的概率密度函数;f(sji;B)=∫θf(sji;θ)B(θ)dθ,贝叶斯链式法则的推导,其为句子sji在B上的概率密度函数;
步骤4052、根据确定好的源DP,确定zji,并生成一个特定的原子,该过程类似于中餐馆过程,具体如下:
根据与
Figure BDA0002228457960000105
成比例的原则,设置zji=k,根据与αcf(sji;B)成比例的原则,从B(·|si)中生成一个新的原子;
同时,更新组合系数vj=(vj0,vjc),根据Fc的生成过程,vj遵循一个Beta分布,给定zj
Figure BDA0002228457960000103
其中,
Figure BDA0002228457960000104
是文档dj中与Dc相关联的样本总数;
步骤4053、对于句子sji中某个输入分词sjin,根据最大熵模型计算该分词sjin属于观点词或属性词的指示变量yjin值,具体为:
根据最大熵模型得到分词sjin属于属性词的概率,若分词属于属性词的概率大于属于观点词的概率,则分词被判定为属性词,用指示变量yjin=0表示;否则分词属于观点词的概率大于属于属性词的概率,则该分词判定为观点词,用yjin=1表示;
步骤4054、根据源DP指示变量rji、属性观点指示变量yjin和主题下标指示变量zji,根据主题-词分布确定输入文档dj中的分词sjin
若rji=0,yjin=0,生成词
Figure BDA0002228457960000111
表示分词sjin由第zji个共享主题生成,该分词是属性词,词分布是共享主题的属性词分布;
若rji=0,yjin=1,生成词
Figure BDA0002228457960000112
表示分词sjin由第zji个共享主题中第c个语料的观点词分布生成,该词是观点词,词分布是共享主题的观点词分布;
若rji=c,yjin=0,生成词
Figure BDA0002228457960000113
表示分词sjin由第zji个独享主题中第c个语料的属性词分布生成,该词是属性词,词分布是独享主题的属性词分布;
若rji=c,yjin=1,生成词
Figure BDA0002228457960000114
表示分词sjin由第zji个独享主题中第c个语料的观点词分布生成,该词是观点词,词分布是独享主题的观点词分布。采用这种方案,通过跨语料主题模型和最大熵模型,采用吉布斯采样方法,将输入列表中每个分词进行主题分类,并计算每个分词属于具体主题中的观点词概率或者属性词概率,即迭代计算跨语料主题模型中的参数,参数包括
Figure BDA0002228457960000115
主题分类是指:针对某个分词,通过跨语料主题模型计算该分词归属为共享主题的概率或独享主题的概率,以及该分词归属为共享主题的具体主题概率,独享主题中的具体主题概率。
在另一种技术方案中,还包括:S5、针对某个具体共享主题的所有观点词或者某个具体独享主题中的所有观点词,利用情感分类器进行极性分析。采用这种方案,极性分析是指:利用基于情感词典的方法进行情感分类,区分观点词的极性,从而获得每类观点的正面情感、中性情感和负面情感的比例。
<实施例1>
基于不同人格特征的文本观点挖掘方法,针对某个事件,包括以下步骤:
S1、针对该事件,获取最近3个月的全语料,依据全语料获取训练语料,并对训练语料的词进行词向量特征表示,获得词的词向量特征,具体为:
利用中文分词工具对全语料中的每个句子进行分词处理,根据观点词词典分别统计每个句子中观点词的词频,并依据观点词词频由大至小对全部句子进行排名,选取排名在前且词频至少等于1的句子构成训练语料;
对构成训练语料的全部句子的词进行筛选后获得词集合,使用词向量模型获得词集合中的每个词的词向量wt,并同步输出与每个词最相似的N个词wn,按照下式对每个词进行词向量特征表示,获得词的词向量特征w2vFeature(wt):
Figure BDA0002228457960000121
Figure BDA0002228457960000122
对进行词向量特征表示完的训练语料,结合观点词集合,使用词的词向量特征为特征,构建最大熵模型;
S2、将全语料依据人格特征分成5个集合语料c,分别为人格特征为①外倾性的集合语料;人格特征为②神经质或情绪稳定性的集合语料;人格特征为③开放性的集合语料;人格特征为④宜人性(随和性);人格特征为⑤尽责性(严谨性)的集合语料,对于其中任一种集合语料c而言,其包含多个文档dj,每个文档包含至少一个句子Sji,i≥1,每个句子对应一个主题,每个主题对应了主题-观点词分布、主题-属性词分布;
针对多个集合语料c,通过耦合的狄利克雷过程DP构建跨人格特征主题模型,其中,跨人格特征主题模型参数包括:
Figure BDA0002228457960000123
其表示第z个共享主题的属性词分布;
Figure BDA0002228457960000124
其表示集合语料c所属的第z个共享主题的观点词分布
Figure BDA0002228457960000125
Figure BDA0002228457960000126
其表示第z个独享主题的属性词分布;
Figure BDA0002228457960000127
其表示第z个独享主题的观点词分布,每一个集合语料c的独享主题的属性词分布
Figure BDA0002228457960000129
分别对应一个观点词分布
Figure BDA00022284579600001210
共享主题由不同集合语料c共享的全局DP生成,独享主题由每个特征人格特征对应集合语料的DP生成;
步骤S2中耦合的狄利克雷过程表示为D~DP(α,B),是随机概率测量D在基础空间Ω上的分布,其中,α是密度参数,B是基于Ω的基本分布;
集合语料c中文档dj的第i个句子sji的生成过程表示为:sji~G(Fc),其中,Fc=∈cD0+(1-∈c)Dc;D0~DP(α0,B0),表示D0为所有集合语料c共享的成分生成自一个全局的DP;Dc~DP(αc,Bc),表示Dc为特定集合语料c的成分生成自特定的DP;∈c~Beta(α0c),∈c为服从Beta分布的参数,表示来自共享主题概率,则来自独享主题的概率为(1-∈c);α0及所有的αc均设置为0.2,基本分布B0及所有的Bc服从超参为0.05的狄利克雷先验分布;
S3、针对每个集合语料中的每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;
S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数;
每一个集合语料c中文档dj的第i个句子sji对应一个潜在标签zji,以及一组存储着在文档dj与原子k相关的数据样本的数量的计数器{mjk};
步骤S4的一次迭代具体包括:
步骤4a、确定zji是来自全局DP或是特定DP,具体为:使用rji表示zji的源DP,如果rji=0,源DP为全局DP,如果rji=c,则源DP为文档dj所在的集合语料c的特定DP,计算方程如下;
p(rji=c)∝p(rji=c|vj)p(sji|rji=c,zji)=vjcp(sji|rji=c,zji)
其中,vj=(vj0,vjc)为源DP的群体特征,反映了全局DP和特定DP对文档dj的相对贡献,p(sji|rji=c,zji)为句子sji的似然,计算公式如下;
Figure BDA0002228457960000131
其中,k表示主题,
Figure BDA0002228457960000136
为除了句子sji之外,所有文档中分配给k的样本总数;φk表示原子,即主题-词的多项式分布;Ic为包含Dc中所有原子指数的集合;f(sji;φk)为句子sji在φk上的概率密度函数;f(sji;B)=∫θf(sji;θ)B(θ)dθ;
步骤4052、根据确定好的源DP,确定zji,并生成一个特定的原子,该过程类似于中餐馆过程,具体如下:
根据与
Figure BDA0002228457960000133
成比例的原则,设置zji=k,根据与αcf(sji;B)成比例的原则,从B(·|si)中生成一个新的原子;
同时,更新组合系数vj=(vj0,vjc),根据Fc的生成过程,vj遵循一个Beta分布,给定zj
Figure BDA0002228457960000134
其中,
Figure BDA0002228457960000135
是文档dj中与Dc相关联的样本总数;
步骤4053、对于句子sji中某个输入分词sjin,根据最大熵模型计算该分词sjin属于观点词或属性词的指示变量yjin值,具体为:
根据最大熵模型得到分词sjin属于属性词的概率,若分词属于属性词的概率大于属于观点词的概率,则分词被判定为属性词,用指示变量yjin=0表示;否则分词属于观点词的概率大于属于属性词的概率,则该分词判定为观点词,用yjin=1表示;
步骤4054、根据源DP指示变量rji、属性观点指示变量yjin和主题下标指示变量zji,根据主题-词分布确定输入文档dj中的分词sjin
若rji=0,yjin=0,生成词
Figure BDA0002228457960000141
表示分词sjin由第zji个共享主题生成,该分词是属性词,词分布是共享主题的属性词分布;
若rji=0,yjin=1,生成词
Figure BDA0002228457960000142
表示分词sjin由第zji个共享主题中第c个语料的观点词分布生成,该词是观点词,词分布是共享主题的观点词分布;
若rji=c,yjin=0,生成词
Figure BDA0002228457960000143
表示分词sjin由第zji个独享主题中第c个语料的属性词分布生成,该词是属性词,词分布是独享主题的属性词分布;
若rji=c,yjin=1,生成词
Figure BDA0002228457960000144
表示分词sjin由第zji个独享主题中第c个语料的观点词分布生成,该词是观点词,词分布是独享主题的观点词分布;
S5、针对某个具体共享主题的所有观点词或者某个具体独享主题中的所有观点词,利用情感分类器进行极性分析,其中,极性分析是指:利用基于情感词典的方法进行情感分类,区分观点词的极性,从而获得每类观点的正面情感、中性情感和负面情感的比例。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (3)

1.基于不同人格特征的文本观点挖掘方法,其特征在于,包括以下步骤:
S1、获取训练语料,并对训练语料的词进行词向量特征表示,获得词的词向量特征,对进行词向量特征表示完的训练语料,结合观点词集合,使用词的词向量特征为特征,构建最大熵模型;
S2、针对某个事件,收集全语料,将全语料依据人格特征分成多个集合语料c,针对多个集合语料c,通过耦合的狄利克雷过程DP构建跨人格特征主题模型,其中,跨人格特征主题模型参数包括:
Figure FDA0003585028860000011
其表示第z个共享主题的属性词分布;
Figure FDA0003585028860000012
其表示集合语料c所属的第z个共享主题的观点词分布
Figure FDA0003585028860000013
Figure FDA0003585028860000014
其表示第z个独享主题的属性词分布;
Figure FDA0003585028860000015
其表示第z个独享主题的观点词分布,每一个集合语料c的独享主题的属性词分布
Figure FDA0003585028860000016
分别对应一个观点词分布
Figure FDA0003585028860000017
共享主题由不同集合语料c共享的全局DP生成,独享主题由每个特征人格特征对应集合语料的DP生成;
S3、针对每个集合语料中的每条文档进行分词处理,将每条文档的分词组成输入列表,作为跨人格特征主题模型的输入,并初始化跨人格特征主题模型的参数;
S4、根据输入内容,采用吉布斯采样法,依据跨人格特征主题模型、最大熵模型迭代计算得出最终的人格特征主题模型的参数;
步骤S2中耦合的狄利克雷过程表示为D~DP(α,B),是随机概率测量D在基础空间Ω上的分布,其中,α是密度参数,B是基于Ω的基本分布;
集合语料c中文档dj的第i个句子sji的生成过程表示为:sji~G(Fc),其中,Fc=∈cD0+(1-∈c)Dc;D0~DP(α0,B0),表示D0为所有集合语料c共享的成分生成自一个全局的DP;Dc~DP(αc,Bc),表示Dc为特定集合语料c的成分生成自特定的DP;∈c~Beta(α0c),∈c为服从Beta分布的参数,表示来自共享主题概率,则来自独享主题的概率为(1-∈c);α0及所有的αc均设置为0.2,基本分布B0及所有的Bc服从超参为0.05的狄利克雷先验分布;
每一个集合语料c中文档dj的第i个句子sji对应一个潜在标签zji,以及一组存储着在文档dj与原子k相关的数据样本的数量的计数器{mjk};
步骤S4的一次迭代具体包括:
步骤4a、确定zji是来自全局DP或是特定DP,具体为:使用rji表示zji的源DP,如果rji=0,源DP为全局DP,如果rji=c,则源DP为文档dj所在的集合语料c的特定DP,计算方程如下;
p(rji=c)∝p(rji=c|vj)p(sji|rji=c,zji)=vjcp(sji|rji=c,zji)
其中,vj=(vj0,vjc)为源DP的群体特征,反映了全局DP和特定DP对文档dj的相对贡献,p(sji|rji=c,zji)为句子sji的似然,计算公式如下;
Figure FDA0003585028860000021
其中,k表示主题,
Figure FDA0003585028860000022
Figure FDA0003585028860000023
为除了句子sji之外,所有文档中分配给k的样本总数;φk表示原子,即主题-词的多项式分布;Ic为包含Dc中所有原子指数的集合;f(sji;φk)为句子sji在φk上的概率密度函数;f(sji;B)=∫θf(sji;θ)B(θ)dθ;
步骤4052、根据确定好的源DP,确定zji,并生成一个特定的原子,该过程类似于中餐馆过程,具体如下:
根据与
Figure FDA0003585028860000024
成比例的原则,设置zji=k,根据与αcf(sji;B)成比例的原则,从B(·|si)中生成一个新的原子;
同时,更新组合系数vj=(vj0,vjc),根据Fc的生成过程,vj遵循一个Beta分布,给定zj
Figure FDA0003585028860000025
其中,
Figure FDA0003585028860000026
是文档dj中与Dc相关联的样本总数;
步骤4053、对于句子sji中某个输入分词sjin,根据最大熵模型计算该分词sjin属于观点词或属性词的指示变量yjin值,具体为:
根据最大熵模型得到分词sjin属于属性词的概率,若分词属于属性词的概率大于属于观点词的概率,则分词被判定为属性词,用指示变量yjin=0表示;否则分词属于观点词的概率大于属于属性词的概率,则该分词判定为观点词,用yjin=1表示;
步骤4054、根据源DP指示变量rji、属性观点指示变量yjin和主题下标指示变量zji,根据主题-词分布确定输入文档dj中的分词sjin
若rji=0,yjin=0,生成词
Figure FDA0003585028860000031
表示分词sjin由第zji个共享主题生成,该分词是属性词,词分布是共享主题的属性词分布;
若rji=0,yjin=1,生成词
Figure FDA0003585028860000032
表示分词sjin由第zji个共享主题中第c个语料的观点词分布生成,该词是观点词,词分布是共享主题的观点词分布;
若rji=c,yjin=0,生成词
Figure FDA0003585028860000033
表示分词sjin由第zji个独享主题中第c个语料的属性词分布生成,该词是属性词,词分布是独享主题的属性词分布;
若rji=c,yjin=1,生成词
Figure FDA0003585028860000034
表示分词sjin由第zji个独享主题中第c个语料的观点词分布生成,该词是观点词,词分布是独享主题的观点词分布。
2.如权利要求1所述的基于不同人格特征的文本观点挖掘方法,其特征在于,步骤S1中获得词的词向量特征具体为:
S1a、获取用户评论,其中,用户评论包括多条文档,每条文档包括至少一个句子;
S1b、利用中文分词工具对每个句子进行分词处理,根据观点词词典分别统计每个句子中观点词的词频,并依据观点词词频由大至小对全部句子进行排名,选取排名在前且词频至少等于1的句子构成训练语料;
S1c、对构成训练语料的全部句子的词进行筛选后获得词集合,使用词向量模型获得词集合中的每个词的词向量wt,并同步输出与每个词最相似的N个词wn,按照下式对每个词进行词向量特征表示,获得词的词向量特征w2vFeature(wt):
Figure FDA0003585028860000035
Figure FDA0003585028860000036
3.如权利要求1所述的基于不同人格特征的文本观点挖掘方法,其特征在于,还包括:S5、针对某个具体共享主题的所有观点词或者某个具体独享主题中的所有观点词,利用情感分类器进行极性分析。
CN201910959523.1A 2019-10-10 2019-10-10 基于不同人格特征的文本观点挖掘方法 Active CN110825842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959523.1A CN110825842B (zh) 2019-10-10 2019-10-10 基于不同人格特征的文本观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959523.1A CN110825842B (zh) 2019-10-10 2019-10-10 基于不同人格特征的文本观点挖掘方法

Publications (2)

Publication Number Publication Date
CN110825842A CN110825842A (zh) 2020-02-21
CN110825842B true CN110825842B (zh) 2022-07-29

Family

ID=69549000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959523.1A Active CN110825842B (zh) 2019-10-10 2019-10-10 基于不同人格特征的文本观点挖掘方法

Country Status (1)

Country Link
CN (1) CN110825842B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN106227768A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种基于互补语料的短文本观点挖掘方法
CN106649267A (zh) * 2016-11-30 2017-05-10 北京邮电大学 一种通过文本主题挖掘推测用户大五人格的方法及系统
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110096575A (zh) * 2019-03-25 2019-08-06 国家计算机网络与信息安全管理中心 面向微博用户的心理画像方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN106227768A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种基于互补语料的短文本观点挖掘方法
CN106649267A (zh) * 2016-11-30 2017-05-10 北京邮电大学 一种通过文本主题挖掘推测用户大五人格的方法及系统
CN110096575A (zh) * 2019-03-25 2019-08-06 国家计算机网络与信息安全管理中心 面向微博用户的心理画像方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统

Also Published As

Publication number Publication date
CN110825842A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
CN104484815B (zh) 基于模糊本体面向产品方面的情感分析方法及系统
CN112001185A (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
KR102216768B1 (ko) 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법
Mumtaz et al. Sentiment analysis of movie review data using Senti-lexicon algorithm
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
Ahmad et al. Tools and techniques for lexicon driven sentiment analysis: a review
Altaher Hybrid approach for sentiment analysis of Arabic tweets based on deep learning model and features weighting
CN111353044B (zh) 一种基于评论的情感分析方法及系统
Ahmed et al. A novel approach for Sentimental Analysis and Opinion Mining based on SentiWordNet using web data
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
Sharma et al. Supervised machine learning method for ontology-based financial decisions in the stock market
Qutab et al. Sentiment classification using multinomial logistic regression on Roman Urdu text
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
CN110825842B (zh) 基于不同人格特征的文本观点挖掘方法
Keshavarz et al. SubLex: Generating subjectivity lexicons using genetic algorithm for subjectivity classification of big social data
Chafale et al. Sentiment analysis on product reviews using Plutchik’s wheel of emotions with fuzzy logic
Tamrakar An analytical study of feature extraction techniques for student sentiment analysis
Baldha et al. Covid-19 vaccine tweets sentiment analysis and topic modelling for public opinion mining
Quan et al. Automatic Annotation of Word Emotion in Sentences Based on Ren-CECps.
Van Le et al. A content-based approach for user profile modeling and matching on social networks
Bakar et al. Polarity classification tool for sentiment analysis in Malay language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant