CN109325120A - 一种分离用户和产品注意力机制的文本情感分类方法 - Google Patents

一种分离用户和产品注意力机制的文本情感分类方法 Download PDF

Info

Publication number
CN109325120A
CN109325120A CN201811071402.5A CN201811071402A CN109325120A CN 109325120 A CN109325120 A CN 109325120A CN 201811071402 A CN201811071402 A CN 201811071402A CN 109325120 A CN109325120 A CN 109325120A
Authority
CN
China
Prior art keywords
product
user
text
sentence
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811071402.5A
Other languages
English (en)
Inventor
申影利
马勇
顾明亮
张秋显
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN201811071402.5A priority Critical patent/CN109325120A/zh
Publication of CN109325120A publication Critical patent/CN109325120A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分离用户和产品注意力机制的文本情感分类方法,首先,预处理待分类的文本;将处理后的文本向量化;其次,建立注意力机制模块;建立句子特征提取模块,用于接收分词处理后的文本的词向量,并输入到第一层双向长短时记忆模型中,分别得到用户句子特征和产品句子特征;建立文档特征提取模块,用于接收两类句子特征,并输入到第二层双向长短时记忆模型中,再次得到用户文档特征和产品文档特征;然后,将用户文档特征和产品文档特征进行拼接,得到综合的文档特征;最后,输入情感分类模块,进行情感分类。采用本发明,分别考虑用户个性和产品属性,在文本情感分类中的影响,可提高文本特征描述的准确性,从而提高情感识别的正确性。

Description

一种分离用户和产品注意力机制的文本情感分类方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种分离用户和产品注意力机制的文本情感分类方法。
背景技术
目前,文本情感分类被广泛用于在线评论网站(如淘宝和微博),对于评论文本的情感分类研究侧重于向用户推荐符合用户个性化的产品。其中,按照处理文本的粒度不同,情感分析可分为文档级、句子级、属性级等。本发明主要对文档级别的文本进行情感分析,对文本中蕴含的情感,从整体上进行分析、处理、归纳和推理,以此来获得用户的总体情感倾向。
传统的深度学习方法只是关注评论内容的重要性,而忽略用户个性和产品属性的信息。尽管少数模型将用户和产品信息考虑在内,也提高了文本情感分类的准确性。但它们通常是将用户和产品信息加入文本中一起输入模型训练,没有单独考虑二者信息在情感分类中的影响作用。
然而,在评论文本中,首先,我们观察到一些词语或句子侧重体现用户的个性,其他一些则倾向表明产品的属性,这两种信息在识别文本情感标签中产生不同的影响。比如,“这家酒店环境很好,而且我很喜欢这种现代的装修风格”。其中,词语“好、现代的”是用户的观点,表明产品—酒店的属性,而词语“好”是用户表达的情感,强烈体现了用户的个性,即对产品的态度是苛刻还是宽容,如果用评分制度来衡量,对于同一商品,苛刻的用户倾向给低分,宽容的用户倾向给高分。总之,评论观点更多地与产品属性相关联,而评论情感更多与用户个性有关。其次,并非所有词语、句子对于不同用户和不同产品的评论文本语义都有同等作用。因此,首先需要将用户个性和产品属性信息分离开来,运用注意力机制来提取用户个性和产品属性信息。最终,针对文档是由句子、句子是由词语组成的层次结构,因此设计神经网络模型是层次结构的双向长短时记忆模型,以此来映射文档的层次结构。这样不仅能提高文本情感分类的效率、准确性和容错性,而且能满足大规模语料处理的需求。
发明内容
发明目的:本发明提出了一种分离用户和产品注意力机制的文本情感分类方法,使得情感分类具有更好的针对性和精准性。
技术方案:本发明所述的一种分离用户和产品注意力机制的文本情感分类方法,包括以下实现步骤:
(1)预处理待分类的文本;
(2)将处理后的文本向量化;
(3)建立注意力机制模块;
(4)句子特征提取模块,用于接收分词处理后的文本的词向量,并输入到第一层双向长短时记忆模型中,分别得到用户句子特征和产品句子特征;
(5)文档特征提取,用于接收句子特征,并输入到第二层双向长短时记忆模型中,分别得到用户文档特征和产品文档特征;
(6)将用户文档特征和产品文档特征进行拼接,得到综合的文档级别特征;
(7)将步骤(6)所得综合的文档特征输入情感分类模块,进行情感类型识别。
所述步骤(1)包括以下步骤:
(11)将待处理的文本切分成词语或者字的形式,得到分词后的文本;
(12)根据文本数据的特征,对公开的停用词表进行修改,生成新的停用词表;
(13)用新的停用词表,将分词后的文本与情感识别任务无关的词语或者符号删去,得到预处理后的文本数据。
所述步骤(2)包括以下步骤:
(21)生成词向量:利用公开的语料库训练Word2Vec得到词向量表;
(22)根据词向量表,将预处理后的文本数据转换为数字化结构,作为文本的词向量。
所述步骤(3)包括以下步骤:
(31)将用户的评分行为表示成一个评分矩阵;
(32)根据用户对已知产品的评分数据,通过推荐方法中的协同过滤算法来推断出用户对未知产品的评分;
(33)根据用户-产品评分矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵,分别作为模型的注意力机制,并结合向量化后的文本信息在模型进行训练。
所述步骤(4)包括以下步骤:
(41)分别计算句子中每个词语的用户打分函数和产品打分函数;
(42)根据各词语的打分函数值,分别计算句子中每个词语隐状态的用户权重值和产品权重值;
(43)分别提取用户句子特征和产品句子特征。
所述步骤(5)包括以下步骤:
(51)分别计算文档中每个句子的用户打分函数和产品打分函数;
(52)根据各句子的打分函数值,分别计算文档中每个句子隐状态的用户权重值和产品权重值;
(53)分别提取用户文档特征和产品文档特征。
有益效果:与现有技术相比,本发明的有益效果:1、采用层次结构的双向长短时记忆模型,可以分别从输入词语或句子的前向和后向,进行捕获更加全面的语义信息;2、分别从词语层面和句子层面进行隐状态表示,可以提取出更加深层的文本信息;3、考虑到“冷启动”问题,采用推荐方法中的协同过滤算法,从已有的用户对产品的评分数据中进行信息提取,重点采用基于物品的协同过滤算法,可以有效的全面提取出用户和产品信息;4、采用奇异值分解方法,对用户兴趣分布矩阵进行分解优化,提取出用户个性矩阵和产品属性矩阵,作为模型注意力机制,可以监督模型提取出更加重要的特征;5、提高了文本特征描述的准确性,从而提高了情感识别的正确性。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步说明,图1为本发明的流程图,包括以下步骤:
1、文本预处理模块:包括词语切分单元、停用词表修订单元,以及停用词删除单元。
(1)词语切分单元,用于将所述待处理的文本切分成词语或者字的形式,得到分词后的文本;
(2)停用词表修订单元,用于根据文本数据,对公开的停用词表进行修改,生成新的停用词表;
(3)停用词删除单元,用于根据所述新的停用词表,将所述分词后的文本中与情感识别任务无关的词语或者符号删去,得到所述预处理后的文本数据。
2、文本向量化模块:包括词向量表生成单元和文本向量化单元。
(1)词向量表生成单元,用于利用公开的语料库训练Word2Vec得到词向量表;
(2)所述文本向量化单元,用于根据所述词向量表,将所述预处理后的文本数据转换为数字化结构表示,作为所述文本的词向量表示
3、建立注意力机制模块,包括评分矩阵生成单元、注意力机制生成单元。一是,考虑到“冷启动”问题,利用推荐系统中的协同过滤算法,可以更加全面地捕获用户个性和产品属性信息,并随后作为用户注意力机制和产品注意力机制。二是,由于不是所有词语、句子对于评论文本的情感分类都有同等作用。运用注意力机制原理,对情感分类中有不同影响作用的词语、句子,赋予不同的权重值。
(1)评分矩阵生成单元。用户的评分行为可以表示成一个评分矩阵R,其中R[u][i]就是用户u对物品i的评分,但是,用户不会对所有的物品评分,所以这个矩阵里有很多元素都是空的,这些空的元素称为缺失值(missing value)。因此,评分预测从某种意义上说就是填空,如果一个用户对一个物品没有评过分,那么推荐方法就要预测这个用户是否会对这个物品评分以及会评几分。本实例使用基于物品的协同过滤算法,来补全缺失值,基于物品的协同过滤算法主要分为两步:
a)计算物品之间的相似度wij:
|N(i)|是喜欢物品i的用户数,|N(i)||N(j)|是同时喜欢物品i和物品j的用户数。在计算物品之间相似度的算法上,我们提出优化,考虑用户活跃度(IUF)对物品相似度的影响,增加IUF参数来修正物品相似度的计算公式,如下:
b)预测用户对未评分物品j的打分值ruj
其中,N(u)是用户u喜欢的物品的集合,S(j,K)是和物品最相似的K个物品的集合,wij是物品j和i的相似度,rui是用户u对已打分物品i的评分值。
(2)注意力机制生成单元。根据用户-产品评分矩阵R,通过奇异值分解法(SVD)得到用户个性矩阵和产品属性矩阵,利用下式进行计算:
R=USPT
其中,R表示待分解的评分矩阵;S∈RK×K表示对角矩阵,U∈RN×K表示所述用户个性矩阵,P∈RN×K表示所述产品属性矩阵,PT是转置形式。最终矩阵U作为模型的用户注意力机制、P作为模型的产品注意力机制,以此来捕获不同语义层面的关键语义信息。
4、句子特征提取模块,包括词语层面隐状态表示单元,用户句子特征提取单元和产品句子特征提取单元。
传统的长短时记忆模型算法,并没有单独考虑用户个性和产品属性信息在句子特征提取中的影响,而是将用户和产品信息同评论文本信息直接输入模型,得到句子特征和文档特征。而本发明提出一种单独求解用户特征和产品特征的算法,具体如下:
(1)词语层面隐状态表示单元:用于接收所述分词处理后的文本的词向量并输入到第一层双向长短时记忆模型中,经过双向长短时记忆模型,可以分别从输入词向量的前向和后向:两个方向,捕获更加全面的的语义信息。变换得到词语级别的隐状态表示在此,由于输入数据为评论性文本,有的词语侧重体现用户的个性,有的词语则侧重体现产品的属性。所以,经过变换得到词语层面的隐状态表示,具体可分为用户隐状态表示和产品隐状态表示
(2)用户句子特征提取单元:将用户隐状态表示结合所述的用户注意力机制U,提取用户句子特征
用户句子特征的提取包括以下步骤:
a)根据所述用户隐状态表示和用户注意力机制U,计算句子中每个词语的用户打分函数:
其中,vu为权重向量,WH、WU均为权重矩阵,b表示偏置值,均由模型训练学习得到。
b)根据各词语的打分函数值,计算句子中每个词语隐状态的用户权重值
c)根据所述用户隐状态表示以及计算出的所述用户权重值计算所述用户句子特征
(3)产品句子特征提取单元:将产品隐状态表示结合所述的产品注意力机制P,提取产品句子特征
产品句子特征的提取包括以下步骤:
a)根据所述产品隐状态表示和产品注意力机制P,计算句子中每个词语的产品打分函数:
其中,vp为权重向量,WH、WP均为权重矩阵,b表示偏置值,均由模型训练学习得到。
b)根据各词语的产品打分函数值,计算句子中每个词语隐状态的产品权重值
c)根据所述产品隐状态表示以及计算出的所述产品权重值计算所述产品句子特征
5、文档特征提取模块,包括句子层面隐状态表示单元、用户文档特征du提取单元和产品文档特征dp提取单元。
(1)句子层面隐状态表示单元:该单元用于接收步骤(4)所得用户句子特征和产品句子特征并分别输入到第二层双向长短时记忆模型中,分别生成句子层面的用户隐状态表示和句子层面的产品隐状态表示
(2)用户文档特征du的提取单元包括以下步骤:
a)根据句子层面的用户隐状态表示和用户注意力机制U,计算文档中每个句子的用户打分函数:
b)根据各句子的打分函数值,计算文档中每个句子隐状态的用户权重值
c)根据所述句子级别的隐状态表示以及计算出的所述权重值计算文档特征du
(3)产品文档特征dp的提取单元包括以下步骤:
a)根据句子级别的产品隐状态表示和产品注意力机制P,计算文档中每个句子的产品打分函数:
b)根据各句子的产品打分函数值,计算文档中每个句子隐状态的产品权重值
c)根据所述句子级别的隐状态表示以及计算出的所述权重值计算产品能文档特征dp
6、文档特征拼接模块,用于将所述文档特征du、dp进行拼接,得到综合文档级别特征d。
d=[du;dp]
7、情感分类模块,用于将所述综合文档特征d输入分类器,进行情感类型识别:
x=tanh(Wld+bl)
其中Wl为权重矩阵,bl表示偏置值,均有模型训练学习得到,C表示情感类别,yi表示预测为类别为i的概率。

Claims (6)

1.一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,包括以下步骤:
(1)预处理待分类的文本;
(2)将处理后的文本向量化;
(3)建立注意力机制模块;
(4)句子特征提取模块,用于接收分词处理后的文本的词向量,并输入到第一层双向长短时记忆模型中,分别得到用户句子特征和产品句子特征;
(5)文档特征提取,用于接收句子特征,并输入到第二层双向长短时记忆模型中,分别得到用户文档特征和产品文档特征;
(6)将用户文档特征和产品文档特征进行拼接,得到综合的文档级别特征;
(7)将步骤(6)所得综合的文档特征输入情感分类模块,进行情感类型识别。
2.根据权利要求1所述的一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)将待处理的文本切分成词语或者字的形式,得到分词后的文本;
(12)根据文本数据的特征,对公开的停用词表进行修改,生成新的停用词表;
(13)用新的停用词表,将分词后的文本与情感识别任务无关的词语或者符号删去,得到预处理后的文本数据。
3.根据权利要求1所述的一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)生成词向量:利用公开的语料库训练Word2Vec得到词向量表;
(22)根据词向量表,将预处理后的文本数据转换为数字化结构,作为文本的词向量。
4.根据权利要求1所述的一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,所述步骤(3)包括以下步骤:
(31)将用户的评分行为表示成一个评分矩阵;
(32)根据用户对已知产品的评分数据,通过推荐方法中的协同过滤算法来推断出用户对未知产品的评分,补全评分矩阵;
(33)根据用户-产品评分矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵,分别作为模型的用户注意力机制和产品注意力机制,并结合向量化后的文本信息在模型进行训练。
5.根据权利要求1所述的一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,所述步骤(4)包括以下步骤:
(41)分别计算句子中每个词语的用户打分函数和产品打分函数;
(42)根据各词语的打分函数值,分别计算句子中每个词语隐状态的用户权重值和产品权重值;
(43)分别提取用户句子特征和产品句子特征。
6.根据权利要求1所述的一种分离用户和产品注意力机制的文本情感分类方法,其特征在于,所述步骤(5)包括以下步骤:
(51)分别计算文档中每个句子的用户打分函数和产品打分函数;
(52)根据各句子的打分函数值,分别计算文档中每个句子隐状态的用户权重值和产品权重值;
(53)分别提取用户文档特征和产品文档特征。
CN201811071402.5A 2018-09-14 2018-09-14 一种分离用户和产品注意力机制的文本情感分类方法 Pending CN109325120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811071402.5A CN109325120A (zh) 2018-09-14 2018-09-14 一种分离用户和产品注意力机制的文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811071402.5A CN109325120A (zh) 2018-09-14 2018-09-14 一种分离用户和产品注意力机制的文本情感分类方法

Publications (1)

Publication Number Publication Date
CN109325120A true CN109325120A (zh) 2019-02-12

Family

ID=65265386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811071402.5A Pending CN109325120A (zh) 2018-09-14 2018-09-14 一种分离用户和产品注意力机制的文本情感分类方法

Country Status (1)

Country Link
CN (1) CN109325120A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110704715A (zh) * 2019-10-18 2020-01-17 南京航空航天大学 一种网络霸凌的检测方法及系统
CN110795411A (zh) * 2019-11-01 2020-02-14 北京理工大学 一种基于类别门机制的文本分类方法
CN111222332A (zh) * 2020-01-06 2020-06-02 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN112541541A (zh) * 2020-12-10 2021-03-23 杭州电子科技大学 基于多元素分层深度融合的轻量级多模态情感分析方法
CN115309975A (zh) * 2022-06-28 2022-11-08 中银金融科技有限公司 基于交互特征的产品推荐方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WU ZHEN ET AL: "Improving Review Representations with User Attention and Product Attention for Sentiment Classification", 《ARXIV》 *
王世晖: "基于协同过滤的推荐算法研究与引擎设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵冬梅 等: "基于协同过滤 attention机制的情感分析模型", 《中文信息学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110263171B (zh) * 2019-06-25 2023-07-18 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110704715A (zh) * 2019-10-18 2020-01-17 南京航空航天大学 一种网络霸凌的检测方法及系统
CN110795411A (zh) * 2019-11-01 2020-02-14 北京理工大学 一种基于类别门机制的文本分类方法
CN110795411B (zh) * 2019-11-01 2022-01-04 北京理工大学 一种基于类别门机制的文本分类方法
CN111222332A (zh) * 2020-01-06 2020-06-02 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN112541541A (zh) * 2020-12-10 2021-03-23 杭州电子科技大学 基于多元素分层深度融合的轻量级多模态情感分析方法
CN112541541B (zh) * 2020-12-10 2024-03-22 杭州电子科技大学 基于多元素分层深度融合的轻量级多模态情感分析方法
CN115309975A (zh) * 2022-06-28 2022-11-08 中银金融科技有限公司 基于交互特征的产品推荐方法及系统
CN115309975B (zh) * 2022-06-28 2024-06-07 中银金融科技有限公司 基于交互特征的产品推荐方法及系统

Similar Documents

Publication Publication Date Title
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN109325120A (zh) 一种分离用户和产品注意力机制的文本情感分类方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN110162594B (zh) 文本数据的观点生成方法、装置及电子设备
CN111797898A (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN108874783A (zh) 电力信息运维知识模型构建方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
JP2018025874A (ja) テキスト解析装置及びプログラム
Djatmiko et al. A review of sentiment analysis for non-English language
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Alshammari et al. State-of-the-art review on Twitter Sentiment Analysis
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
Alqahtani et al. Emotion analysis of Arabic tweets: Language models and available resources
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
CN111797622B (zh) 用于生成属性信息的方法和装置
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
Abdi et al. Using an auxiliary dataset to improve emotion estimation in users’ opinions
CN108717450B (zh) 影评情感倾向性分析算法
Yu et al. Leveraging auxiliary tasks for document-level cross-domain sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190212

RJ01 Rejection of invention patent application after publication