CN109359190B - 一种基于评价对象阵营的立场分析模型构建方法 - Google Patents

一种基于评价对象阵营的立场分析模型构建方法 Download PDF

Info

Publication number
CN109359190B
CN109359190B CN201810939599.3A CN201810939599A CN109359190B CN 109359190 B CN109359190 B CN 109359190B CN 201810939599 A CN201810939599 A CN 201810939599A CN 109359190 B CN109359190 B CN 109359190B
Authority
CN
China
Prior art keywords
constructing
marketing
sentence
word
analysis model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810939599.3A
Other languages
English (en)
Other versions
CN109359190A (zh
Inventor
曾曦
阳红
谢瑞云
夏明赟
赵姝颖
常明芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN201810939599.3A priority Critical patent/CN109359190B/zh
Publication of CN109359190A publication Critical patent/CN109359190A/zh
Application granted granted Critical
Publication of CN109359190B publication Critical patent/CN109359190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本发明的积极效果是:通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。

Description

一种基于评价对象阵营的立场分析模型构建方法
技术领域
本发明涉及一种基于评价对象阵营的立场分析模型构建方法。
背景技术
在分析海量评论信息的立场(褒义、贬义、中立等)时,人工判断立场的方法需要耗费大量的人力且效率低。此外,评论信息中涉及的对象很多,评论信息中同样的表达方式,针对不同的对象,立场也不同。因此,当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于评价对象阵营的立场分析模型构建方法,针对网络社交媒体的评论信息,构建对象阵营词典,利用本发明的对象阵营判断模型以及立场分析模型的协作,可以达到快速准确分析评论信息立场的目的。
本发明解决其技术问题所采用的技术方案是:一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
与现有技术相比,本发明的积极效果是:
通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。
综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的原理框图。
具体实施方式
一种基于评价对象阵营的立场分析模型构建方法,如图1所示,针对网络社交媒体的评论信息,构建对象阵营词典。采用词典-评论信息匹配的方法,抽取出明显具有对象阵营特征的句子,作为对象阵营判断的学习语料,构建对象阵营判断模型,完成评论信息对象阵营的判断。人工标注评论信息的立场,并将其与对象阵营、评论信息共同作为立场分析模型的输入,通过训练得到立场分析模型。
本发明的具体内容包括:
(一)对象阵营判断模型构建
1、对象阵营词典构建
为了方便对象阵营判断语料的构建,首先通过人工分析方法构建对象阵营词典,用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
2、对象阵营判断语料构建
将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,共同构成对象阵营判断语料。
同时,在不打乱语料对象阵营对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
3、对象阵营判断模型构建
对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。
对象阵营判断模型的大体结构可以描述如下:
a.输入层:将长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}输入。
St=Embedding(Wt)
b.双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(St)
c.输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1。
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
(二)立场分析模型构建
1、立场分析语料构建
对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建。同样,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
2、立场分析模型构建
结合评论信息对象阵营判断的结果,将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入,基于BLSTM的分类神经网络,构建立场分析模型。
模型结构描述如下:
a.输入层:将长度为N的句子t的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}与该句子对象阵营的向量表示Vt进行连接,并作为立场分析模型的输入,记为It
其中,对象阵营Vt的向量表示方法为one-hot形式:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
It=concatenate(St,Vt)
b.双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(It)
c.注意力层(attention layer):在每个词的隐层输出Ht上再连接一次该句子对象阵营Vt的向量表示,作为注意力层的输入Kt,在注意力层对该向量进行线性非线性变换,使之变成句子长度N维的概率分布At,并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘,并求和,即加权求和,作为句子的一个表示Rt
注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入Kt计算方法如下:
Kt=concatenate(Ht,Vt)
概率分布At
At=attention(Kt)
句子的一个表示Rt
Rt=sum(At×Ht)
d.输出层:将注意力层加权求和得到的句子表示Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*,
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3 维概率分布Pt
Pt=Softmax(W×ht*+bias)。

Claims (5)

1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型:
(1)输入层:将句子t的每个词的词向量St与该句子对象阵营的向量表示Vt进行连接,作为立场分析模型的输入It
It=concatenate(St,Vt)
(2)双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BLSTM(It)
(3)注意力层:在每个词的隐层输出Ht上再连接一次Vt,作为注意力层的输入Kt
Kt=concatenate(Ht,Vt)
在注意力层对该向量进行线性非线性变换,使之变成N维的概率分布At
At=attention(Kt)
将At与句子中每个词的隐层输出按位相乘,并求和,作为句子的一个表示Rt
Rt=sum(At×Ht)
(4)输出层:将Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*:
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3维概率分布Pt
Pt=Softmax(W×ht*+bias);
其中:所述对象阵营的向量表示Vt包括:对象阵营标签为0,向量类别表示为[1,0];对象阵营标签为1,向量类别表示为[0,1]。
2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤一所述对象阵营词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤二所述构建对象阵营判断语料的方法为:将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,构成对象阵营判断语料;同时,在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营判断模型的结构包括:
(1)输入层:为长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}:
St=Embedding(Wt)
(2)双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BLSTM(St)
(3)输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布P′t,分别代表评价对象阵营为0和1:
P′t=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤四所述构建立场分析语料的方法为:对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建;同时,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
CN201810939599.3A 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法 Active CN109359190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810939599.3A CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810939599.3A CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Publications (2)

Publication Number Publication Date
CN109359190A CN109359190A (zh) 2019-02-19
CN109359190B true CN109359190B (zh) 2021-12-17

Family

ID=65350120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810939599.3A Active CN109359190B (zh) 2018-08-17 2018-08-17 一种基于评价对象阵营的立场分析模型构建方法

Country Status (1)

Country Link
CN (1) CN109359190B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091009B (zh) * 2019-11-20 2022-03-15 中国电子科技集团公司第三十研究所 一种基于语义分析的文档关联审核方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117952083A (zh) * 2024-03-26 2024-04-30 中国电子科技集团公司第三十研究所 一种基于胶囊网络的多目标细粒度立场分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189037A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN104573046B (zh) * 2015-01-20 2018-07-31 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
US10699183B2 (en) * 2016-03-31 2020-06-30 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
CN106372058B (zh) * 2016-08-29 2019-10-15 中译语通科技股份有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
US10552468B2 (en) * 2016-11-01 2020-02-04 Quid, Inc. Topic predictions based on natural language processing of large corpora
CN106776581B (zh) * 2017-02-21 2020-01-24 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107066446B (zh) * 2017-04-13 2020-04-10 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107092596B (zh) * 2017-04-24 2020-08-04 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN109359190A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111368074B (zh) 一种基于网络结构和文本信息的链路预测方法
CN108805200B (zh) 基于深度孪生残差网络的光学遥感场景分类方法及装置
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN110083833B (zh) 中文字词向量和方面词向量联合嵌入情感分析方法
CN110334759B (zh) 一种评论驱动的深度序列推荐方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN109359190B (zh) 一种基于评价对象阵营的立场分析模型构建方法
CN105718532B (zh) 一种基于多深度网络结构的跨媒体排序方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112015862B (zh) 基于层级多通道注意力的用户异常评论检测方法及系统
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN113268675B (zh) 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN108364098B (zh) 一种天气特征对用户签到影响的度量方法
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Li et al. HRVQA: A Visual Question Answering benchmark for high-resolution aerial images
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN116467452A (zh) 一种基于多任务学习混合神经网络的中文投诉分类方法
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
Purba et al. A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant