CN106445914A - 微博情感分类器的构建方法及构建装置 - Google Patents

微博情感分类器的构建方法及构建装置 Download PDF

Info

Publication number
CN106445914A
CN106445914A CN201610824487.4A CN201610824487A CN106445914A CN 106445914 A CN106445914 A CN 106445914A CN 201610824487 A CN201610824487 A CN 201610824487A CN 106445914 A CN106445914 A CN 106445914A
Authority
CN
China
Prior art keywords
word
emotion
microblog
grader
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610824487.4A
Other languages
English (en)
Other versions
CN106445914B (zh
Inventor
黄永峰
吴方照
刘佳伟
袁志刚
吴思行
杨忠良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610824487.4A priority Critical patent/CN106445914B/zh
Publication of CN106445914A publication Critical patent/CN106445914A/zh
Application granted granted Critical
Publication of CN106445914B publication Critical patent/CN106445914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种微博情感分类器的构建方法及构建装置,其中,方法包括以下步骤:获取多条微博数据;对微博文本进行分词得到词语集合;根据海量无标注的微博文本数据得到词语‑词语情感关联关系和词语‑情感关联关系;对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;将词语‑词语情感关联关系、词语‑情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。该方法可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。

Description

微博情感分类器的构建方法及构建装置
技术领域
本发明涉及网络数据挖掘技术领域,特别涉及一种微博情感分类器的构建方法及构建装置。
背景技术
构建情感分类器是根据机器学习任务中的一个重要组成部分,其中监督学习方法更是在构建情感分类器的相关研究中广泛应用,其基本思想是利用相应的带有情感信息的数据和情感标签,训练和优化分类器模型的参数,最终利用训练好的模型对没有情感标签的数据进行分类,预测其情感类别。
相关技术中,一般利用单一维度的情感信息对分类器进行训练,不但鲁棒性和准确率得不到保证,而且构建成本高,并且效率低,有待改进。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种微博情感分类器的构建方法,该方法可以提高分类器的鲁棒性和准确率,简单易实现。
本发明的另一个目的在于提出一种微博情感分类器的构建装置。
为达到上述目的,本发明一方面实施例提出了一种微博情感分类器的构建方法,包括以下步骤:S1,获取多条微博数据,其中,所述微博数据包括微博文本与所述微博文本中的表情符;S2,对所述微博文本进行分词得到词语集合,其中,所述词语集合中的每个词语携带微博文本情感倾向的基本原子信息;S3,根据海量无标注的微博文本数据得到词语-词语情感关联关系;S4,根据所述海量无标注的微博文本数据得到词语-情感关联关系;S5,对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;S6,将所述词语-词语情感关联关系、所述词语-情感关联关系和所述有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。
本发明实施例的微博情感分类器的构建方法,通过词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,从而基于多源异构情感信息得到微博情感分类器,可以对微博消息所表达的情感倾向性进行分类,实现自动将微博文本分类为“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三个类中的一类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
另外,根据本发明上述实施例的微博情感分类器的构建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在所述S6中,具体包括:在建立所述数据模型之后,通过数学优化选法对所述数学模型进行优化得到微博情感分类器的参数,进而得到所述微博情感分类器。
进一步地,在本发明的一个实施例中,在所述S4中,通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取所述词语-情感关联关系。
进一步地,在本发明的一个实施例中,在所述S5中,将所述预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将所述表情符所表达的情感信息映射至对应的词语中,以建立所述表情符相关的词语与表情符所表达情感的联系,进而获取所述有标注的微博情感数据集。
另外,在本发明的一个实施例中,还包括:S7,输出所述微博情感分类器。
为达到上述目的,本发明另一方面实施例提出了一种微博情感分类器的构建装置,包括:数据获取模块,用于获取多条微博数据,其中,所述微博数据包括微博文本与所述微博文本中的表情符;分词模块,用于对所述微博文本进行分词得到词语集合,其中,所述词语集合中的每个词语携带微博文本情感倾向的基本原子信息;关系获取模块,用于根据海量无标注的微博文本数据得到词语-词语情感关联关系,并且根据所述海量无标注的微博文本数据得到词语-情感关联关系;标注模块,用于对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;分类器构建模块,用于将所述词语-词语情感关联关系、所述词语-情感关联关系和所述有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。
本发明实施例的微博情感分类器的构建装置,通过词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,从而基于多源异构情感信息得到微博情感分类器,可以对微博消息所表达的情感倾向性进行分类,实现自动将微博文本分类为“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三个类中的一类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
另外,根据本发明上述实施例的微博情感分类器的构建装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在建立所述数据模型之后,所述分类器构建模块通过数学优化选法对所述数学模型进行优化得到微博情感分类器的参数,进而得到所述微博情感分类器。
进一步地,在本发明的一个实施例中,所述关系获取模块还用于通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取所述词语-情感关联关系。
进一步地,在本发明的一个实施例中,所述标注模块还用于将所述预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将所述表情符所表达的情感信息映射至对应的词语中,以建立所述表情符相关的词语与表情符所表达情感的联系,进而获取所述有标注的微博情感数据集。
另外,在本发明的一个实施例中,上述构建装置还包括:输出模块,用于输出所述微博情感分类器。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的微博情感分类器的构建方法的流程图;
图2为根据本发明一个实施例的微博情感分类器的构建方法的流程图;
图3为根据本发明实施例的微博情感分类器的构建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的微博情感分类器的构建方法及构建装置,首先将参照附图描述根据本发明实施例提出的微博情感分类器的构建方法。
图1是本发明实施例的微博情感分类器的构建方法的流程图。
如图1所示,该微博情感分类器的构建方法包括以下步骤:
在步骤S1中,获取多条微博数据,其中,微博数据包括微博文本与微博文本中的表情符。
简言之,首先获取微博数据,其中,微博数据包括微博文本及其中的表情符。
在步骤S2中,对微博文本进行分词得到词语集合,其中,词语集合中的每个词语携带微博文本情感倾向的基本原子信息。
可以理解的是,对每一条微博消息,将其中的文本进行词分割操作,得到的词语集合中的每个词语携带了微博文本情感倾向的基本原子信息。
在步骤S3中,根据海量无标注的微博文本数据得到词语-词语情感关联关系。即言,基于海量无标注的微博文本数据,计算词语-词语情感关联关系。
在步骤S4中,根据海量无标注的微博文本数据得到词语-情感关联关系。即言,基于海量无标注的包含表情符的微博文本数据,计算词语-情感关联关系。
在本发明的一个实施例中,在S4中,通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取词语-情感关联关系。
在步骤S5中,对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集。
需要说明的是,预设数量可以根据实际情况进行设置。其中,对一定数量的微博文本数据进行人工标注,赋予其情感标签,得到有标注的微博情感数据集。
在本发明的一个实施例中,在S5中,将预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将表情符所表达的情感信息映射至对应的词语中,以建立表情符相关的词语与表情符所表达情感的联系,进而获取有标注的微博情感数据集。
在步骤S6中,将词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。
其中,在本发明的一个实施例中,在S6中,具体包括:在建立数据模型之后,通过数学优化选法对数学模型进行优化得到微博情感分类器的参数,进而得到微博情感分类器。
也就是说,融合上述步骤提取的多源异构的情感信息,建立数学模型,利用数学优化算法对模型进行优化,从而得到微博情感分类器。具体地,在S6中,将S3、S4和S5中分别获取的三种多源异构情感信息融合,建立统一的数学优化模型,并提出对应优化方法,从而通过对模型的优化最终构建微博情感分类器。
具体而言,将多源异构的情感信息融合到统一的模型中,通过对该模型的优化可以实现同时对这些多源异构情感信息的提取,从而训练出来的模型有更高的鲁棒性和准确率,而且更多的利用了非监督学习的方法(不需要情感标签),因此总体上只需要利用少量的带有情感标签的微博文本即可完成情感分类器的构建,考虑到微博文本的情感标签都是人工标注的,是一项非常耗费时间成本的资源,因此,本方法在成本上具有较低的开销。
可以理解的是,本发明实施例的构建方法充分利用少量人工标注后有情感标签的微博数据以及大量容易获取得到的无情感标签的微博数据,充分挖掘这些数据的知识,并融合于统一的数学优化模型中,并且相对于传统方法的结果,该方法构建的微博情感分类器具有较高的准确性和鲁棒性,以及较低的人工标注成本,在社交媒体数据的挖掘和分析中具有重要的应用。
进一步地,在本发明的一个实施例中,还包括:S7,输出微博情感分类器。
在本发明的实施例中,可以基于多源异构情感信息融合得到微博情感分类器,可以对微博消息所表达的情感倾向性进行分类,将对应的微博消息分到“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三类中。具体地,首先获取微博文本,包括文本中的文字及表情符,其次利用海量无标注的微博文本找到词语与词语之间的关联关系以及词语与表情符之间的关联关系,并且标注少量微博文本,赋予其情感标签,并利用该有标注数据找到词语与情感标签的关联关系,最后融合以上三部分的异构情感信息数据,建立统一的数学模型,通过对模型的优化获得微博情感分类器的参数,获得最终的微博情感分类器。本发明实施例构建的微博情感分类器能够自动将微博文本分类为“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三个类中的一类,对观点挖掘、情感分析、商品口碑调查、社会计算等领域具有一定意义。
下面结合图2以一个具体实施例对本发明实施例的微博情感分类器的构建方法的工作原理进行详细赘述。
在本发明的一个具体实施例中,如图2所示,本发明实施例的构建方法包括以下步骤:
步骤S101:获取微博数据,其中,微博数据包括微博文本及其中的表情符。其中,基于一些加工过的数据集得到少量人工标注的带有情感标签的微博文本数据集,得到微博数据集合记为A,其中每一项包括微博文本Ai以及对应的情感标签Si{+1,-1,0}。此外利用网络爬虫技术直接从新浪微博网站中获取大量微博原始文本,对其进行简单的预处理够得到大量无情感标签标注的微博文本数据集,得到微博数据集合记为B,其中B中包括文本中对应的表情符。
步骤S102:首先对有情感标签微博文本集合A中的文本进行词分割,利用现有的分词工具处理微博文本消息,将文本表示为基本词语的集合,每一个词语携带了微博文本情感倾向的基本原子信息。将词语集合记为W。对于原始微博文本的有无情感标签属性,有A、B集合分词得到的词语集合对应为WA和WB
步骤S103:基于无情感标签标注的数据的文本,寻找词语与词语之间的联系,计算词语-词语关联关系得分。具体方法如下:首先基于步骤S102中得到的微博消息,假设其每一个语句段中的每一项Di表达了一个基本情感信息,并且其中的所有词语都对这个情感信息做出了贡献,因此可以解释词语-词语关联关系为:如果两个词语频繁地共同出现于同一个微博微博消息中,则这两个词语表达了相同的情感信息。
根据无情感标签标注的微博文本集合B分词得到的词语集合WB,利用PMI(Pointwise Mutual Information,点互信息理论),计算WB中任意两个词语的词语-词语关联关系得分wwscore,方法如下:
其中,p(wordi)表示词语wordi出现的次数,p(wordi,wordj)表示词语wordi和词语wordj共同出现于同一条微博消息中的次数。
词语-词语关联关系得分表示了两个词语的统计情感关联性,该得分越高,则这两个词语在语义表达上越相关。
步骤S104:基于无标注的数据的文本之间的词语与表情符之间的联系,寻找词语与情感之间的联系,计算词语-情感关联关系得分;微博用户在发布微博消息的时候倾向于使用大量的表情符,这些表情符在一定意义上直接反应了用户的情感,因此表情符与用户所发布在微博文本在情感上具有较强的联系,可以将表情符看作是有噪声的伪情感标签。因此可以通过对表情符的先验知识,通过建立表情符与相应文本词语的联系,可以提取词语的情感信息。
具体方法可以如下:首先基于步骤S102中得到的微博消息(由无情感标签标注的微博文本集合B得到),假设其每一个语句段中的每一项Di表达了一个基本情感信息,提取微博消息中的表情符,如果其中包含的表情符全是正向的(例如“:)”),则该微博消息标记为正向情感;如果其中包含的表情符全是负向的(例如“:(”),则该微博消息标记为负向情感;如果未包含任何表情符或是同时包含了正向和负向的表情符,则在此步骤中舍弃该微博消息。
根据无情感标签标注的微博文本集合B分词得到的词语集合WB,统计每一个词语wordi出现在正向和负向微博消息中出现的次数,记为所有词组成的词典中的词语个数为D,据此计算每个词语的词语-情感关联关系得分wsscore,方法如下:
词语-情感关联关系得分表示了一个词语的情感倾向性,该得分>0时,表示该词语表达了正向的情感;该得分<0时,表示该词语表达了负向的情感;该得分=0时,表示该词语表达了中性的情感。并且词语-情感关联关系得分的绝对值越大,表示该词语携带的情感越强。
步骤S105:人工标定一部分微博数据,得到微博情感数据集。带有情感标签标注的微博文本是具有很高的情感分析价值的,其由人工标定出微博消息所表达的情感信息,一般来说该情感信息是比较可靠和准确的。因此根据此标签建立的标签与微博文本之间的联系,可以对词语提供更加可靠的词语情感信息,然而,对微博文本进行情感标签标注是一项耗时巨大的过程,因此有情感标签标注的微博文本数量相对于没有情感标签标注的微博文本的数量是很少的。这也是为什么本方法中采用多源异构信息源的信息功能构建情感分类器的原因之一。
根据微博情感数据集提供的信息,建立的损失函数表示如下:
其中,y表示情感标签的量化值{-1,0,+1}分别表示{负向,中性,正向},x表示输入样本的特征向量(该方法中将每一个词语作为一个特征维度,特征值为对应词语的出现次数),w表示输入样本的每一个特征(词语)的对应权重(对应情感得分)。损失函数衡量了输入样本通过分类器得到的结果wTx与原始标定结果y的偏差程度,损失函数的函数值越小,则说明分类器越准确。
步骤S106:融合以上步骤提取到的多源异构的情感信息,建立数学优化模型,并通过对模型进行优化来训练微博情感分类器;在步骤S104,步骤S105,步骤S106中分别提取了三种不同的文本上下文知识;在这一步中通过建立统一的模型对三种不同源的异构情感信息进行融合,建立统一的数学优化模型。利用数学优化算法最小化分类损失函数,即对模型进行优化训练,通过该步骤找出每一个词语的最终情感得分wi,建立词语情感得分矩阵w,作为最终微博情感分类器的模型参数。
首先,为了融合这些多源异构情感知识,首先需要对各个文本上下文知识进行统一的表述,方式可以如下:
1.对于词语-词语关联关系部分。首先对于任意一个关联关系得分wwscore(wordi,wordj),称wordi,wordj为一项词语对。设定阈值t1,滤除wwscore(wordi,wordj)<t1的对应的词语对,对于剩下关联关系较强的词语对。对于任意两个词语的词语-词语关联关系得分,建立词语关联关系矩阵A,矩阵A的每一行表示一个项词语对,每一列表示一个词语,当且仅当第n项词语对的关联关系得分wwscore(wordi,wordj)≥t1时,矩阵A的第n行的第i列的值为1,第n行的第i列的值为-1,第n行其余列的值为0。则该部分子模型可建立为||Aw||,最终子模型也可以表示为
2.对于词语-情感关联关系部分。每一个词语对应词语情感得分矩阵w中的一个维度,设定阈值t2,对于词语情感得分矩阵的每一个词语,当其词语-情感关联关系得分wsscore(wordi)≥t2,参数pi=1;当scorews(wordi)≤-t2,参数pi=-1;否则参数pi=0;最后将所有的参数pi(i=1,2,3……)构建成词语-情感关联关系矩阵P。则该部分子模型可建立为||w-P||2
3.对于有情感标签标注的微博文本,建立微博-情感标签关系模型,如步骤S106中所述,该模型表示可以如下:
最终,基于对以上三个文本上下文知识统一表示建模,将这些多源异构情感信息统一建立一个统一的模型可以如下:
其中,w表示各个词语的情感得分矩阵;N是有情感标签标注的文本的数量;y表示情感标签的量化值{-1,0,+1}分别表示{负向,中性,正向};x表示输入样本的特征向量;A表示词语关联关系矩阵,P表示词语-情感关联关系矩阵。α、β、λ1、λ2是该模型中各项的非负参数。
前三项分别表示之前步骤中所提取的三种不同的文本上下文知识,后两项是对模型主要参数w的约束项,防止参数矩阵w过拟合,同时保证矩阵w的稀疏性,这样做能保证最终情感分类器模型的准确性及鲁棒性。
该模型可以采用迭代的方法进行优化,最终可以通过优化如下问题:
argminwL,
可以得到情感得分矩阵w的最优参数,该矩阵中的各项wi作为对应词语的最终情感得分用于构建最终的微博情感分类器。
步骤S107:输出最终的微博情感分类器。
根据步骤S107中得到的情感得分矩阵w,构建最终的微博情感分类器可以如表1所示。
表1
其中t为情感极性判别阈值。文本特征向量x的每一个维度对应情感得分矩阵w的每一个维度,及特征向量x的每一个维度表示一个词语,其值为该词语的对应微博文本中出现的次数。
综上,根据本发明实施例的基于多源异构情感信息融合的微博情感分类器设计方法,该方法利用无情感标签标注的微博文本找到词语-词语关联关系以及词语-表情符关联关系;同时利用有情感标签标注的微博文本找到词语-情感标签的关联关系;最后融合上述三类从微博文本中提取的异构的文本上下文知识,建立统一的数学优化模型,通过对模型的优化获得微博情感分类器的参数,最终建立微博情感分类器。该方法相对于传统方法,考虑了文本多维度的情感信息并将其融合至统一的模型中,最终该方法得到的情感分类器具有更高的分类准确性,在社交媒体数据的挖掘和分析中具有重要的应用。
根据本发明实施例的微博情感分类器的构建方法,基于大量无情感标签的微博文本,提取了两种文本上下文知识,分别是:词语-词语关联关系及词语-情感关联关系,同时根据已经标注了情感标签的微博文本所提供的微博情感信息,将以上三种文本上下文知识融合至一个统一的模型中,通过对模型的优化训练微博情感分类器的各个参数,最终输出微博情感分类器,可以对微博消息所表达的情感倾向性进行分类,实现自动将微博文本分类为“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三个类中的一类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
其次参照附图描述根据本发明实施例提出的微博情感分类器的构建装置。
图3是本发明实施例的微博情感分类器的构建装置的结构示意图。
如图3所示,该微博情感分类器的构建装置10包括:数据获取模块100、分词模块200、关系获取模块300、标注模块400和分类器构建模块500。
其中,数据获取模块100用于获取多条微博数据,其中,微博数据包括微博文本与微博文本中的表情符。分词模块200用于对微博文本进行分词得到词语集合,其中,词语集合中的每个词语携带微博文本情感倾向的基本原子信息。关系获取模块300用于根据海量无标注的微博文本数据得到词语-词语情感关联关系,并且根据海量无标注的微博文本数据得到词语-情感关联关系。标注模块400用于对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集。分类器构建模块500用于将词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。本发明实施例的构建装置10可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
进一步地,在本发明的一个实施例中,在建立数据模型之后,分类器构建模块500通过数学优化选法对数学模型进行优化得到微博情感分类器的参数,进而得到微博情感分类器。
进一步地,在本发明的一个实施例中,关系获取模块300还用于通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取词语-情感关联关系。
进一步地,在本发明的一个实施例中,标注模块400还用于将预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将表情符所表达的情感信息映射至对应的词语中,以建立表情符相关的词语与表情符所表达情感的联系,进而获取有标注的微博情感数据集。
另外,在本发明的一个实施例中,本发明实施例的构建装置10还包括:输出模块。其中,输出模块用于输出微博情感分类器。
需要说明的是,前述对微博情感分类器的构建方法实施例的解释说明也适用于该实施例的微博情感分类器的构建装置,此处不再赘述。
根据本发明实施例的微博情感分类器的构建装置,基于大量无情感标签的微博文本,提取了两种文本上下文知识,分别是:词语-词语关联关系及词语-情感关联关系,同时根据已经标注了情感标签的微博文本所提供的微博情感信息,将以上三种文本上下文知识融合至一个统一的模型中,通过对模型的优化训练微博情感分类器的各个参数,最终输出微博情感分类器,可以对微博消息所表达的情感倾向性进行分类,实现自动将微博文本分类为“表达正向情感信息”、“表达负向情感信息”以及“表达中性情感信息”三个类中的一类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种微博情感分类器的构建方法,其特征在于,包括以下步骤:
S1,获取多条微博数据,其中,所述微博数据包括微博文本与所述微博文本中的表情符;
S2,对所述微博文本进行分词得到词语集合,其中,所述词语集合中的每个词语携带微博文本情感倾向的基本原子信息;
S3,根据海量无标注的微博文本数据得到词语-词语情感关联关系;
S4,根据所述海量无标注的微博文本数据得到词语-情感关联关系;
S5,对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;以及
S6,将所述词语-词语情感关联关系、所述词语-情感关联关系和所述有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。
2.根据权利要求1所述的微博情感分类器的构建方法,其特征在于,在所述S6中,具体包括:
在建立所述数据模型之后,通过数学优化选法对所述数学模型进行优化得到微博情感分类器的参数,进而得到所述微博情感分类器。
3.根据权利要求1所述的微博情感分类器的构建方法,其特征在于,在所述S4中,通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取所述词语-情感关联关系。
4.根据权利要求1所述的微博情感分类器的构建方法,其特征在于,在所述S5中,将所述预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将所述表情符所表达的情感信息映射至对应的词语中,以建立所述表情符相关的词语与表情符所表达情感的联系,进而获取所述有标注的微博情感数据集。
5.根据权利要求1所述的微博情感分类器的构建方法,其特征在于,还包括:
S7,输出所述微博情感分类器。
6.一种微博情感分类器的构建装置,其特征在于,包括:
数据获取模块,用于获取多条微博数据,其中,所述微博数据包括微博文本与所述微博文本中的表情符;
分词模块,用于对所述微博文本进行分词得到词语集合,其中,所述词语集合中的每个词语携带微博文本情感倾向的基本原子信息;
关系获取模块,用于根据海量无标注的微博文本数据得到词语-词语情感关联关系,并且根据所述海量无标注的微博文本数据得到词语-情感关联关系;
标注模块,用于对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;以及
分类器构建模块,用于将所述词语-词语情感关联关系、所述词语-情感关联关系和所述有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。
7.根据权利要求6所述的微博情感分类器的构建装置,其特征在于,在建立所述数据模型之后,所述分类器构建模块通过数学优化选法对所述数学模型进行优化得到微博情感分类器的参数,进而得到所述微博情感分类器。
8.根据权利要求6所述的微博情感分类器的构建装置,其特征在于,所述关系获取模块还用于通过寻找无标注的微博文本中的词语与词语之间的联系,以确定词语之间的情感关联性,进而获取所述词语-情感关联关系。
9.根据权利要求6所述的微博情感分类器的构建装置,其特征在于,所述标注模块还用于将所述预设数量的微博文本中的表情符作为微博情感倾向的伪标签,进而将所述表情符所表达的情感信息映射至对应的词语中,以建立所述表情符相关的词语与表情符所表达情感的联系,进而获取所述有标注的微博情感数据集。
10.根据权利要求6所述的微博情感分类器的构建装置,其特征在于,还包括:
输出模块,用于输出所述微博情感分类器。
CN201610824487.4A 2016-09-13 2016-09-13 微博情感分类器的构建方法及构建装置 Active CN106445914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610824487.4A CN106445914B (zh) 2016-09-13 2016-09-13 微博情感分类器的构建方法及构建装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610824487.4A CN106445914B (zh) 2016-09-13 2016-09-13 微博情感分类器的构建方法及构建装置

Publications (2)

Publication Number Publication Date
CN106445914A true CN106445914A (zh) 2017-02-22
CN106445914B CN106445914B (zh) 2020-06-19

Family

ID=58168059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610824487.4A Active CN106445914B (zh) 2016-09-13 2016-09-13 微博情感分类器的构建方法及构建装置

Country Status (1)

Country Link
CN (1) CN106445914B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN110189742A (zh) * 2019-05-30 2019-08-30 芋头科技(杭州)有限公司 确定情感音频、情感展示、文字转语音的方法和相关装置
CN112579582A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据探索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
KR101491628B1 (ko) * 2013-07-30 2015-02-12 성균관대학교산학협력단 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104794209A (zh) * 2015-04-24 2015-07-22 清华大学 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
KR101491628B1 (ko) * 2013-07-30 2015-02-12 성균관대학교산학협력단 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104794209A (zh) * 2015-04-24 2015-07-22 清华大学 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴方照等: "基于文本和社交语境的微博数据情感分类", 《清华大学学报》 *
马秉楠等: "基于表情符的社交网络情绪词典构造", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN108197670B (zh) * 2018-01-31 2021-06-15 国信优易数据股份有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN110189742A (zh) * 2019-05-30 2019-08-30 芋头科技(杭州)有限公司 确定情感音频、情感展示、文字转语音的方法和相关装置
CN112579582A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据探索方法及系统

Also Published As

Publication number Publication date
CN106445914B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
Styawati et al. Sentiment analysis on online transportation reviews using Word2Vec text embedding model feature extraction and support vector machine (SVM) algorithm
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
TW201329752A (zh) 中文文本可讀性計量系統及其方法
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN110532549A (zh) 一种基于双通道深度学习模型的文本情感分析方法
CN107451118A (zh) 基于弱监督深度学习的句子级情感分类方法
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN106202481A (zh) 一种感知数据的评价方法和系统
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN106445914A (zh) 微博情感分类器的构建方法及构建装置
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN109086340A (zh) 基于语义特征的评价对象识别方法
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN110175585A (zh) 一种简答题自动批改系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant