CN109284376A - 基于领域自适应的跨领域新闻数据情感分析方法 - Google Patents
基于领域自适应的跨领域新闻数据情感分析方法 Download PDFInfo
- Publication number
- CN109284376A CN109284376A CN201811049800.7A CN201811049800A CN109284376A CN 109284376 A CN109284376 A CN 109284376A CN 201811049800 A CN201811049800 A CN 201811049800A CN 109284376 A CN109284376 A CN 109284376A
- Authority
- CN
- China
- Prior art keywords
- news data
- news
- classifier
- latent space
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000008451 emotion Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000009466 transformation Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 230000009189 diving Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于领域自适应的跨领域新闻数据情感分析方法,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界;在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。本发明通过领域自适应的方法,为不同领域的新闻找到一个有效的共同特征表达,实现跨领域信息融合,提高信息的利用率,节约时间及人力成本。
Description
技术领域
本发明涉及数据分析及处理领域,尤其涉及一种基于领域自适应的跨领 域新闻数据情感分析方法。
背景技术
近年来随着互联网技术的飞速发展,在线新闻服务已经成为主要的网络 信息载体。新闻文本大量地存在于门户网站,论坛,博客中,且大多数具有 情感倾向(正面/中立/负面),对其进行倾向性判断可以为用户掌握社会动 态和判别舆情状况提供重要的依据。从新闻文本中提取与主题、情感倾向相 关的特征,利用机器学习的方法对情感倾向进行分类是现在最常用的情感分 析方法之一。由于新闻涉及到的领域十分广泛,来自不同领域的新闻的特征 表达往往互不相同,因此难以实现信息融合。往往需要对每个领域分别地进行分析,大大地增加了人力和时间成本。
现有的情感分析方法主要基于两种思路:
1、基于情感词典或情感知识库,对新闻文本中带有情感或者极性的词 进行加权求和,并根据该值对新闻情感倾向进行判定。
2、对文本提取具有表征意义的特征,再基于这些特征利用机器学习的 方法训练预测模型,对文本的情感倾向进行判定。
第一种方法常用于评论信息(如产品评价,电影、书籍评论等)的情感 分析,因为这类文本中通常存在明显的情感词。由于新闻是对客观事实的陈 述,通常不包含明显的情感词,因此通过将文本与情感词库进行匹配的方法 很难准确地判定新闻的情感倾向。
现有技术方案在采用上述第二种思路对新闻进行情感分析时,主要步骤 如下:
(1)从某一垂直领域(例如:财经、体育、科技等)采集大量的新闻 数据;
(2)对采集到的数据进行随机抽样,对抽取的样本集合由人工标注其 情感标签;
(3)利用支持向量机、朴素贝叶斯、KNN等经典的机器学习方法,在人 工标注的样本集上训练分类器;
(4)利用训练好的分类器对未标注数据进行情感划分。
然而,前述技术方案只能针对某一个特定领域的新闻进行情感分类。这 是因为不同的领域中新闻的主题词、情感词差异较大,提取出来的特征会存 在较大的差异。而机器学习方法通常要求所有数据由同一组特征表达,因此 来自不同领域的新闻不能直接放在一起进行训练。此外,分别对每个领域的 新闻进行情感分析,需要耗费大量的时间和人力,并且大大地减少了训练集 的样本数量,从而削弱了机器学习的效果,还容易造成过拟合等问题。
跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究 不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间 的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。
因此,如何为不同领域的新闻找到一个有效的共同特征表达,实现跨领 域信息融合和情感分析,提高信息的利用率、节约时间及人力成本,成为了 亟待解决的技术问题。
发明内容
针对现有技术之不足,本发明提出了一种基于领域自适应的跨领域新闻 数据情感分析方法,将来自各个不同领域的新闻数据及映射到一个共同的潜 空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征 表达,从而实现不同领域间的自适应;
将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签 在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化, 由此增大分类器的决策边界从而实现更好的情感分类效果;
在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过 建立的分类器对新的新闻文本数据进行情感分析。
根据一个优选实施方式,所述方法包括以下步骤:
S1)采集新闻数据,将来自不同领域的新闻数据及其对应的情感标签映 射到一个潜空间中,然后在所述潜空间中建立分类器,该步骤包括:
S1.1)最小化损失函数令
S1.2)最小化损失函数令Ct+1=C;
S1.3)计算总损失以及
S1.4)判断相邻两次迭代中损失函数的减小量是否小于预定义的阈值ε, 若不大于阈值ε,则执行步骤S1.5;若大于阈值ε,则重复执行步骤S1.1至 S1.3,进行循环迭代;
S1.5)输出变换矩阵Ct+1,完成新闻及情感标签的映射,从 而实现领域自适应;
S1.6)训练分类器;
S2)通过训练好的分类器对新的新闻文本数据进行情感分析。
本发明具有以下有益效果:
本发明针对新闻情感分析中,新闻话题领域广,特征表达差异大,难以 融合互用的问题提出了一种基于领域自适应的跨领域新闻数据情感分析方 法。该方法可以将来自不同领域的新闻数据及其对应的情感标签映射到一个 潜空间中,使来自不同领域的新闻数据由一组相同的抽象特征表达,实现了 跨领域数据融合的互用,增加了训练集的数量,提高了信息的利用率。此外, 经过映射后的新闻数据根据其对应的情感标签自动地进行聚类,增加了分类 器的决策边界,可以有效地提高分类器的预测效果。
附图说明
图1示出了本发明中一个实施方式的领域自适应示意图;
图2示出了本发明中一个实施方式的潜空间内数据分布示意图;
图3示出了本发明中一个实施方式领域自适应算法流程图;
图4示出了算法的仿真结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施 方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例 性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结 构和技术的描述,以避免不必要地混淆本发明的概念。
为了解决不同领域之间新闻数据特征表达不同、无法同时处理、信息利 用率低等问题,本发明提出了一种基于领域自适应的跨领域新闻数据情感分 析方法。本发明技术方案的核心思想是将由不同特征表达的、来自不同领域 的新闻文本数据映射到一个共同的潜空间中。在这个潜空间中,来自不同领 域的新闻数据由一组共同的抽象特征表达,实现不同领域间的自适应。在这 个潜空间中,可以基于所有领域的新闻文本建立一个分类器,不仅缩减了分 领域建模所需要的时间、人力开销,并且大幅度地提高了可用训练样本的数量,提高分类器的效果。
优选地,在本方案中,将每个情感标签(正面/中立/负面)也映射到潜 空间中,使不同的情感标签在潜空间中距离的最大化。并且,使每一个新闻 实例与其对应标签之间的距离最小化,由此增大分类器的决策边界,以实现 更好的情感分类效果。
如图1所示,本实施方式以两个垂直领域的新闻为例,XT表示来自“科 技”领域的新闻,XS表示来自“社会”领域的新闻,Y表示情感标签集合。 本方案通过计算变换矩阵TT、TS、C,分别将XT、XS、Y映射到潜空间Z中 (如图1所示)。在潜空间Z中,所有新闻数据的映像σ(TTxT)、σ(TSxS), 以及情感标签的映像σ(Cy)都由一组共同的抽象特征表示。
假设Y中包含4个情感标签(正面/中性/负面/极差),映射后 y1、y2、y3、y4在潜空间Z内具有明显的差异,即每两个标签间的距离增大, 参见图2。并且,每一个映射后的新闻数据在Z中尽可能地逼近它所对应的 情感标签。假设新闻实例xT对应的情感标签为y3,通过变换矩阵TT,映像σ(TTxT)逼近对应的情感标签σ(Cy3)。增加具有不同情感标签的新 闻数据之间的空间距离,可以有效地降低情感分类的难度,提高分类器的准 确率。
具体地,需要找到一个潜空间Z使两个不同的新闻领域(分别标记为T 和S)具有共同的抽象表达,需要通过带标签的训练集学习如下三个变换矩 阵分别对应领域T,S和标签 集Y。在变换矩阵的基础上,再对其进行对数变换。对数变换σ使一个到 (0,1)dc的线性映射函数,定义如下:
σ(w)=(σ(w(1)),…,σ(w(dC)))T
其中,
因此,最终的映射函数σ(TTxT),σ(TSxs),σ(Cy)将新闻数据及情感标 签映射至一个由多元二进制特征表示的潜空间Z。在Z中,新闻数据和标签 之间的距离由KL散度表示,定义如下:
领域自适应的目标是使不同领域的新闻数据具有同样的表达,并且使映 射后的新闻数据尽可能地逼近它所对应的情感标签。因此在本方案中,损失 函数定义为映射后的所有新闻数据与其对应的情感标签之间的距离之和,其 表达如下:
通过最小化损失函数,可以确保来自不同领域的新闻数据在潜空间Z中 聚集在其对应的类标签周围。本方案通过梯度下降法,求解出最小损失值以 及其对应的TT和TS,即为此刻最优的变换矩阵。在潜空间Z中,我们还需要 最大化不同情感标签之间的距离。假设当4个标签互相之间的距离最大时, 对应的变换矩阵为Cref,那么我们需要基于训练集求解出一个变换矩阵C,使 它尽可能地逼近Cref,为此定义如下损失函数:
其中
通过梯度下降法求得损失函数的最小值,以及其对应的变化矩阵C。综 合以上两个步骤,领域自适应过程中,总的损失函数定义为:
本方案采取循环迭代的方式,在每一轮迭代中求解出当前最优的变换矩 阵,直到损失函数趋于平稳,即相邻两次迭代中损失函数的减小量小于一个 预定义的阈值ε。算法的流程图如图3所示。
如图4所示为算法的仿真结果图。在仿真实验中,我们从两个不同的领 域采集了共300条新闻数据,在图中分别用符号“o”和“x”表示。通过人 工标注的方式对每条新闻赋予情感标签,分为:正面/中性/负面/极差4个 类别。图4中的4副子图分别对应了一个情感标签,图中展示了具有该情感 标签的新闻数据映射之后在潜空间Z中的分布情况。为了便于展示,我们通 过PCA的方法,将潜空间Z降低至2维。从图中可见,来自不同领域的,具 有相同标签的新闻数据映射后在Z中都聚集到了一起。而具有不同情感标签 的新闻数据在空间分布上具有明显的差距。通过该仿真结果,可以看出本方 案可以有效地完成领域自适应,支持跨领域的新闻数据情感分析。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本 发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明 的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发 明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护 范围由权利要求及其等同物限定。
Claims (2)
1.一种基于领域自适应的跨领域新闻数据情感分析方法,其特征在于,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;
将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界从而实现更好的情感分类效果;
在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。
2.如权利要求1所述的方法,其特征在于,包括以下步骤:
S1)采集新闻数据,将来自不同领域的新闻数据及其对应的情感标签映射到一个潜空间中,然后在所述潜空间中建立分类器,该步骤包括:
S1.1)最小化损失函数令
S1.2)最小化损失函数令Ct+1=C;
S1.3)计算总损失以及
S1.4)判断相邻两次迭代中损失函数的减小量是否小于预定义的阈值ε,若不大于阈值ε,则执行步骤S1.5;若大于阈值ε,则重复执行步骤S1.1至S1.3,进行循环迭代;
S1.5)输出变换矩阵Ct+1,完成新闻及情感标签的映射,从而实现领域自适应;
S1.6)训练分类器;
S2)通过训练好的分类器对新的新闻文本数据进行情感分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811049800.7A CN109284376A (zh) | 2018-09-10 | 2018-09-10 | 基于领域自适应的跨领域新闻数据情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811049800.7A CN109284376A (zh) | 2018-09-10 | 2018-09-10 | 基于领域自适应的跨领域新闻数据情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284376A true CN109284376A (zh) | 2019-01-29 |
Family
ID=65180493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811049800.7A Pending CN109284376A (zh) | 2018-09-10 | 2018-09-10 | 基于领域自适应的跨领域新闻数据情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284376A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
WO2023159755A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739430A (zh) * | 2008-11-21 | 2010-06-16 | 中国科学院计算技术研究所 | 一种基于关键词的文本情感分类器的训练方法和分类方法 |
US20120179751A1 (en) * | 2011-01-06 | 2012-07-12 | International Business Machines Corporation | Computer system and method for sentiment-based recommendations of discussion topics in social media |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
US20130013539A1 (en) * | 2011-01-13 | 2013-01-10 | International Business Machines Corporation | System and method for domain adaption with partial observation |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106096664A (zh) * | 2016-06-23 | 2016-11-09 | 广州云数信息科技有限公司 | 一种基于社交网络数据的情感分析方法 |
CN108021660A (zh) * | 2017-12-04 | 2018-05-11 | 中国人民解放军国防科技大学 | 一种基于迁移学习的话题自适应的微博情感分析方法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
-
2018
- 2018-09-10 CN CN201811049800.7A patent/CN109284376A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739430A (zh) * | 2008-11-21 | 2010-06-16 | 中国科学院计算技术研究所 | 一种基于关键词的文本情感分类器的训练方法和分类方法 |
US20120179751A1 (en) * | 2011-01-06 | 2012-07-12 | International Business Machines Corporation | Computer system and method for sentiment-based recommendations of discussion topics in social media |
US20130013539A1 (en) * | 2011-01-13 | 2013-01-10 | International Business Machines Corporation | System and method for domain adaption with partial observation |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106096664A (zh) * | 2016-06-23 | 2016-11-09 | 广州云数信息科技有限公司 | 一种基于社交网络数据的情感分析方法 |
CN108021660A (zh) * | 2017-12-04 | 2018-05-11 | 中国人民解放军国防科技大学 | 一种基于迁移学习的话题自适应的微博情感分析方法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
Non-Patent Citations (4)
Title |
---|
FANG F 等: "Domain adaptation for sentiment classification in light of multiple sources", 《INFORMS JOURNAL ON COMPUTING》 * |
PAN S 等: "Cross-domain sentiment classification via spectral feature alignment", 《PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
徐旭: "基于特征极性的跨领域情感分类方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
罗邦慧 等: "基于情感模型的文本意见分类方法", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
WO2023159755A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
CN105721936B (zh) | 一种基于情景感知的智能电视节目推荐系统 | |
CN109902672A (zh) | 图像标注方法及装置、存储介质、计算机设备 | |
CN109325106A (zh) | 一种医美聊天机器人意图识别方法及装置 | |
CN109784405A (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN111666500A (zh) | 文本分类模型的训练方法及相关设备 | |
CN109960791A (zh) | 判断文本情感的方法及存储介质、终端 | |
CN110609886A (zh) | 一种文本分析方法及装置 | |
CN108090099A (zh) | 一种文本处理方法及装置 | |
CN110008365A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN113297351A (zh) | 文本数据标注方法及装置、电子设备及存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN109284376A (zh) | 基于领域自适应的跨领域新闻数据情感分析方法 | |
Upreti | Convolutional neural network (cnn). a comprehensive overview | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN116108836B (zh) | 文本情感识别方法、装置、计算机设备及可读存储介质 | |
CN109033078B (zh) | 语句类别识别方法及装置、存储介质、处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190129 |