CN109359190B - 一种基于评价对象阵营的立场分析模型构建方法 - Google Patents
一种基于评价对象阵营的立场分析模型构建方法 Download PDFInfo
- Publication number
- CN109359190B CN109359190B CN201810939599.3A CN201810939599A CN109359190B CN 109359190 B CN109359190 B CN 109359190B CN 201810939599 A CN201810939599 A CN 201810939599A CN 109359190 B CN109359190 B CN 109359190B
- Authority
- CN
- China
- Prior art keywords
- constructing
- marketing
- sentence
- word
- analysis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本发明的积极效果是:通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
Description
技术领域
本发明涉及一种基于评价对象阵营的立场分析模型构建方法。
背景技术
在分析海量评论信息的立场(褒义、贬义、中立等)时,人工判断立场的方法需要耗费大量的人力且效率低。此外,评论信息中涉及的对象很多,评论信息中同样的表达方式,针对不同的对象,立场也不同。因此,当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于评价对象阵营的立场分析模型构建方法,针对网络社交媒体的评论信息,构建对象阵营词典,利用本发明的对象阵营判断模型以及立场分析模型的协作,可以达到快速准确分析评论信息立场的目的。
本发明解决其技术问题所采用的技术方案是:一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
与现有技术相比,本发明的积极效果是:
通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。
综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的原理框图。
具体实施方式
一种基于评价对象阵营的立场分析模型构建方法,如图1所示,针对网络社交媒体的评论信息,构建对象阵营词典。采用词典-评论信息匹配的方法,抽取出明显具有对象阵营特征的句子,作为对象阵营判断的学习语料,构建对象阵营判断模型,完成评论信息对象阵营的判断。人工标注评论信息的立场,并将其与对象阵营、评论信息共同作为立场分析模型的输入,通过训练得到立场分析模型。
本发明的具体内容包括:
(一)对象阵营判断模型构建
1、对象阵营词典构建
为了方便对象阵营判断语料的构建,首先通过人工分析方法构建对象阵营词典,用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
2、对象阵营判断语料构建
将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,共同构成对象阵营判断语料。
同时,在不打乱语料对象阵营对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
3、对象阵营判断模型构建
对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。
对象阵营判断模型的大体结构可以描述如下:
a.输入层:将长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}输入。
St=Embedding(Wt)
b.双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(St)
c.输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1。
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
(二)立场分析模型构建
1、立场分析语料构建
对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建。同样,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
2、立场分析模型构建
结合评论信息对象阵营判断的结果,将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入,基于BLSTM的分类神经网络,构建立场分析模型。
模型结构描述如下:
a.输入层:将长度为N的句子t的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}与该句子对象阵营的向量表示Vt进行连接,并作为立场分析模型的输入,记为It。
其中,对象阵营Vt的向量表示方法为one-hot形式:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
It=concatenate(St,Vt)
b.双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(It)
c.注意力层(attention layer):在每个词的隐层输出Ht上再连接一次该句子对象阵营Vt的向量表示,作为注意力层的输入Kt,在注意力层对该向量进行线性非线性变换,使之变成句子长度N维的概率分布At,并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘,并求和,即加权求和,作为句子的一个表示Rt。
注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入Kt计算方法如下:
Kt=concatenate(Ht,Vt)
概率分布At:
At=attention(Kt)
句子的一个表示Rt:
Rt=sum(At×Ht)
d.输出层:将注意力层加权求和得到的句子表示Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*,
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3 维概率分布Pt。
Pt=Softmax(W×ht*+bias)。
Claims (5)
1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型:
(1)输入层:将句子t的每个词的词向量St与该句子对象阵营的向量表示Vt进行连接,作为立场分析模型的输入It:
It=concatenate(St,Vt)
(2)双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BLSTM(It)
(3)注意力层:在每个词的隐层输出Ht上再连接一次Vt,作为注意力层的输入Kt:
Kt=concatenate(Ht,Vt)
在注意力层对该向量进行线性非线性变换,使之变成N维的概率分布At:
At=attention(Kt)
将At与句子中每个词的隐层输出按位相乘,并求和,作为句子的一个表示Rt:
Rt=sum(At×Ht)
(4)输出层:将Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*:
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3维概率分布Pt:
Pt=Softmax(W×ht*+bias);
其中:所述对象阵营的向量表示Vt包括:对象阵营标签为0,向量类别表示为[1,0];对象阵营标签为1,向量类别表示为[0,1]。
2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤一所述对象阵营词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤二所述构建对象阵营判断语料的方法为:将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,构成对象阵营判断语料;同时,在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营判断模型的结构包括:
(1)输入层:为长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}:
St=Embedding(Wt)
(2)双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BLSTM(St)
(3)输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布P′t,分别代表评价对象阵营为0和1:
P′t=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤四所述构建立场分析语料的方法为:对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建;同时,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939599.3A CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939599.3A CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359190A CN109359190A (zh) | 2019-02-19 |
CN109359190B true CN109359190B (zh) | 2021-12-17 |
Family
ID=65350120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810939599.3A Active CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359190B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091009B (zh) * | 2019-11-20 | 2022-03-15 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN116542257B (zh) * | 2023-07-07 | 2023-09-22 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN117952083A (zh) * | 2024-03-26 | 2024-04-30 | 中国电子科技集团公司第三十研究所 | 一种基于胶囊网络的多目标细粒度立场分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189037A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN104573046B (zh) * | 2015-01-20 | 2018-07-31 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
US10699183B2 (en) * | 2016-03-31 | 2020-06-30 | ZenDesk, Inc. | Automated system for proposing help center articles to be written to facilitate resolving customer-service requests |
CN106372058B (zh) * | 2016-08-29 | 2019-10-15 | 中译语通科技股份有限公司 | 一种基于深度学习的短文本情感要素抽取方法及装置 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
US10552468B2 (en) * | 2016-11-01 | 2020-02-04 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
CN106776581B (zh) * | 2017-02-21 | 2020-01-24 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107066446B (zh) * | 2017-04-13 | 2020-04-10 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
CN107092596B (zh) * | 2017-04-24 | 2020-08-04 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
-
2018
- 2018-08-17 CN CN201810939599.3A patent/CN109359190B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109359190A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111368074B (zh) | 一种基于网络结构和文本信息的链路预测方法 | |
CN108805200B (zh) | 基于深度孪生残差网络的光学遥感场景分类方法及装置 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN110083833B (zh) | 中文字词向量和方面词向量联合嵌入情感分析方法 | |
CN110334759B (zh) | 一种评论驱动的深度序列推荐方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN111061843A (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN109359190B (zh) | 一种基于评价对象阵营的立场分析模型构建方法 | |
CN105718532B (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN112015862B (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN113268675B (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN108364098B (zh) | 一种天气特征对用户签到影响的度量方法 | |
CN113987167A (zh) | 基于依赖感知图卷积网络的方面级情感分类方法及系统 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Li et al. | HRVQA: A Visual Question Answering benchmark for high-resolution aerial images | |
CN112950414A (zh) | 一种基于解耦法律要素的法律文本表示方法 | |
CN116467452A (zh) | 一种基于多任务学习混合神经网络的中文投诉分类方法 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
Purba et al. | A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |