CN109359190A - 一种基于评价对象阵营的立场分析模型构建方法 - Google Patents

一种基于评价对象阵营的立场分析模型构建方法 Download PDF

Info

Publication number
CN109359190A
CN109359190A CN201810939599.3A CN201810939599A CN109359190A CN 109359190 A CN109359190 A CN 109359190A CN 201810939599 A CN201810939599 A CN 201810939599A CN 109359190 A CN109359190 A CN 109359190A
Authority
CN
China
Prior art keywords
camp
corpus
analysis model
position analysis
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810939599.3A
Other languages
English (en)
Other versions
CN109359190B (zh
Inventor
曾曦
阳红
谢瑞云
夏明赟
赵姝颖
常明芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN201810939599.3A priority Critical patent/CN109359190B/zh
Publication of CN109359190A publication Critical patent/CN109359190A/zh
Application granted granted Critical
Publication of CN109359190B publication Critical patent/CN109359190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本发明的积极效果是:通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。

Description

一种基于评价对象阵营的立场分析模型构建方法
技术领域
本发明涉及一种基于评价对象阵营的立场分析模型构建方法。
背景技术
在分析海量评论信息的立场(褒义、贬义、中立等)时,人工判断立场的方法需要耗费大量的人力且效率低。此外,评论信息中涉及的对象很多,评论信息中同样的表达方式,针对不同的对象,立场也不同。因此,当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于评价对象阵营的立场分析模型构建方法,针对网络社交媒体的评论信息,构建对象阵营词典,利用本发明的对象阵营判断模型以及立场分析模型的协作,可以达到快速准确分析评论信息立场的目的。
本发明解决其技术问题所采用的技术方案是:一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
与现有技术相比,本发明的积极效果是:
通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。
综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的原理框图。
具体实施方式
一种基于评价对象阵营的立场分析模型构建方法,如图1所示,针对网络社交媒体的评论信息,构建对象阵营词典。采用词典-评论信息匹配的方法,抽取出明显具有对象阵营特征的句子,作为对象阵营判断的学习语料,构建对象阵营判断模型,完成评论信息对象阵营的判断。人工标注评论信息的立场,并将其与对象阵营、评论信息共同作为立场分析模型的输入,通过训练得到立场分析模型。
本发明的具体内容包括:
(一)对象阵营判断模型构建
1、对象阵营词典构建
为了方便对象阵营判断语料的构建,首先通过人工分析方法构建对象阵营词典,用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
2、对象阵营判断语料构建
将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,共同构成对象阵营判断语料。
同时,在不打乱语料对象阵营对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
3、对象阵营判断模型构建
对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。
对象阵营判断模型的大体结构可以描述如下:
a.输入层:将长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}输入。
St=Embedding(Wt)
b.双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(St)
c.输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1。
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
(二)立场分析模型构建
1、立场分析语料构建
对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建。同样,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
2、立场分析模型构建
结合评论信息对象阵营判断的结果,将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入,基于BLSTM的分类神经网络,构建立场分析模型。
模型结构描述如下:
a.输入层:将长度为N的句子t的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}与该句子对象阵营的向量表示Vt进行连接,并作为立场分析模型的输入,记为It
其中,对象阵营Vt的向量表示方法为one-hot形式:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
It=concatenate(St,Vt)
b.双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(It)
c.注意力层(attention layer):在每个词的隐层输出Ht上再连接一次该句子对象阵营Vt的向量表示,作为注意力层的输入Kt,在注意力层对该向量进行线性非线性变换,使之变成句子长度N维的概率分布At,并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘,并求和,即加权求和,作为句子的一个表示Rt
注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入Kt计算方法如下:
Kt=concatenate(Ht,Vt)
概率分布At
At=attention(Kt)
句子的一个表示Rt
Rt=sum(At×Ht)
d.输出层:将注意力层加权求和得到的句子表示Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*,
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3 维概率分布Pt
Pt=Softmax(W×ht*+bias)。

Claims (7)

1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤一所述对象阵营词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤二所述构建对象阵营判断语料的方法为:将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,构成对象阵营判断语料;同时,在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营判断模型的结构包括:
(1)输入层:为长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}:
St=Embedding(Wt)
(2)双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BSLTM(St)
(3)输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1:
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤四所述构建立场分析语料的方法为:对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建;同时,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
6.根据权利要求5所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述立场分析模型的结构包括:
(1)输入层:将句子t的每个词的词向量St与该句子对象阵营的向量表示Vt进行连接,作为立场分析模型的输入It
It=concatenate(St,Vt)
(2)双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BSLTM(It)
(3)注意力层:在每个词的隐层输出Ht上再连接一次Vt,作为注意力层的输入Kt
Kt=concatenate(Ht,Vt)
在注意力层对该向量进行线性非线性变换,使之变成N维的概率分布At
At=attention(Kt)
将At与句子中每个词的隐层输出按位相乘,并求和,作为句子的一个表示Rt
Rt=sum(At×Ht)
(4)输出层:将Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*:
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3维概率分布Pt
Pt=Softmax(W×ht*+bias)。
7.根据权利要求6所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营的向量表示Vt包括:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
CN201810939599.3A 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法 Active CN109359190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810939599.3A CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810939599.3A CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Publications (2)

Publication Number Publication Date
CN109359190A true CN109359190A (zh) 2019-02-19
CN109359190B CN109359190B (zh) 2021-12-17

Family

ID=65350120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810939599.3A Active CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Country Status (1)

Country Link
CN (1) CN109359190B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091009A (zh) * 2019-11-20 2020-05-01 中国电子科技集团公司第三十研究所 一种基于语义分析的文档关联审核方法
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117952083A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
US20160189037A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
US20180121539A1 (en) * 2016-11-01 2018-05-03 Quid, Inc. Topic predictions based on natural language processing of large corpora
US20180197072A1 (en) * 2016-03-31 2018-07-12 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189037A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
US20180197072A1 (en) * 2016-03-31 2018-07-12 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
US20180121539A1 (en) * 2016-11-01 2018-05-03 Quid, Inc. Topic predictions based on natural language processing of large corpora
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUE ZHAO ET AL.: "Online News Emotion Prediction with Bidirectional LSTM", 《INTERNATIONAL CONFERENCE ON WEB-AGE INFORMATION MANAGEMENT》 *
王科 等: "情感词典自动构建方法综述", 《自动化学报》 *
韩忠明 等: "网络评论方面级观点挖掘方法研究综述", 《软件学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091009A (zh) * 2019-11-20 2020-05-01 中国电子科技集团公司第三十研究所 一种基于语义分析的文档关联审核方法
CN111091009B (zh) * 2019-11-20 2022-03-15 中国电子科技集团公司第三十研究所 一种基于语义分析的文档关联审核方法
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117952083A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

Also Published As

Publication number Publication date
CN109359190B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109918491B (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN109213999A (zh) 一种主观题评分方法
CN107092596A (zh) 基于attention CNNs和CCR的文本情感分析方法
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN106295796A (zh) 基于深度学习的实体链接方法
CN110245709A (zh) 基于深度学习和自注意力的3d点云数据语义分割方法
CN109189933A (zh) 一种文本信息分类的方法及服务器
CN110532436A (zh) 基于社区结构的跨社交网络用户身份识别方法
CN109933656A (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108121702A (zh) 数学主观题评阅方法及系统
CN107705806A (zh) 一种使用谱图和深卷积神经网络进行语音情感识别的方法
CN109299701A (zh) 基于gan扩充多人种特征协同选择的人脸年龄估计方法
CN109359190A (zh) 一种基于评价对象阵营的立场分析模型构建方法
CN106127634A (zh) 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
CN106156287A (zh) 基于旅游需求模板的景区评价数据分析舆情满意度方法
CN108470061A (zh) 一种针对视角级文本的情感分类系统
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN110378736B (zh) 通过人脸表情识别评价游客对自然资源体验满意度的方法
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
Prabhudesai et al. Automatic short answer grading using Siamese bidirectional LSTM based regression
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant