CN109359190A - 一种基于评价对象阵营的立场分析模型构建方法 - Google Patents
一种基于评价对象阵营的立场分析模型构建方法 Download PDFInfo
- Publication number
- CN109359190A CN109359190A CN201810939599.3A CN201810939599A CN109359190A CN 109359190 A CN109359190 A CN 109359190A CN 201810939599 A CN201810939599 A CN 201810939599A CN 109359190 A CN109359190 A CN 109359190A
- Authority
- CN
- China
- Prior art keywords
- camp
- corpus
- analysis model
- position analysis
- building
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本发明的积极效果是:通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
Description
技术领域
本发明涉及一种基于评价对象阵营的立场分析模型构建方法。
背景技术
在分析海量评论信息的立场(褒义、贬义、中立等)时,人工判断立场的方法需要耗费大量的人力且效率低。此外,评论信息中涉及的对象很多,评论信息中同样的表达方式,针对不同的对象,立场也不同。因此,当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于评价对象阵营的立场分析模型构建方法,针对网络社交媒体的评论信息,构建对象阵营词典,利用本发明的对象阵营判断模型以及立场分析模型的协作,可以达到快速准确分析评论信息立场的目的。
本发明解决其技术问题所采用的技术方案是:一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
与现有技术相比,本发明的积极效果是:
通过本发明方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。
综上,本发明的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的原理框图。
具体实施方式
一种基于评价对象阵营的立场分析模型构建方法,如图1所示,针对网络社交媒体的评论信息,构建对象阵营词典。采用词典-评论信息匹配的方法,抽取出明显具有对象阵营特征的句子,作为对象阵营判断的学习语料,构建对象阵营判断模型,完成评论信息对象阵营的判断。人工标注评论信息的立场,并将其与对象阵营、评论信息共同作为立场分析模型的输入,通过训练得到立场分析模型。
本发明的具体内容包括:
(一)对象阵营判断模型构建
1、对象阵营词典构建
为了方便对象阵营判断语料的构建,首先通过人工分析方法构建对象阵营词典,用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
2、对象阵营判断语料构建
将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,共同构成对象阵营判断语料。
同时,在不打乱语料对象阵营对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
3、对象阵营判断模型构建
对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。
对象阵营判断模型的大体结构可以描述如下:
a.输入层:将长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}输入。
St=Embedding(Wt)
b.双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(St)
c.输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1。
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
(二)立场分析模型构建
1、立场分析语料构建
对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建。同样,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。
2、立场分析模型构建
结合评论信息对象阵营判断的结果,将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入,基于BLSTM的分类神经网络,构建立场分析模型。
模型结构描述如下:
a.输入层:将长度为N的句子t的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}与该句子对象阵营的向量表示Vt进行连接,并作为立场分析模型的输入,记为It。
其中,对象阵营Vt的向量表示方法为one-hot形式:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
It=concatenate(St,Vt)
b.双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示 Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。
Ht=BSLTM(It)
c.注意力层(attention layer):在每个词的隐层输出Ht上再连接一次该句子对象阵营Vt的向量表示,作为注意力层的输入Kt,在注意力层对该向量进行线性非线性变换,使之变成句子长度N维的概率分布At,并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘,并求和,即加权求和,作为句子的一个表示Rt。
注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入Kt计算方法如下:
Kt=concatenate(Ht,Vt)
概率分布At:
At=attention(Kt)
句子的一个表示Rt:
Rt=sum(At×Ht)
d.输出层:将注意力层加权求和得到的句子表示Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*,
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3 维概率分布Pt。
Pt=Softmax(W×ht*+bias)。
Claims (7)
1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:
步骤一、构建对象阵营词典;
步骤二、构建对象阵营判断语料;
步骤三、构建对象阵营判断模型;
步骤四、构建立场分析语料;
步骤五、构建立场分析模型。
2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤一所述对象阵营词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。
3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤二所述构建对象阵营判断语料的方法为:将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,构成对象阵营判断语料;同时,在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营判断模型的结构包括:
(1)输入层:为长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}:
St=Embedding(Wt)
(2)双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BSLTM(St)
(3)输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1:
Pt=Softmax(W×htN+bias)
其中,W为句子的权重,bias为偏置。
5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤四所述构建立场分析语料的方法为:对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建;同时,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。
6.根据权利要求5所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述立场分析模型的结构包括:
(1)输入层:将句子t的每个词的词向量St与该句子对象阵营的向量表示Vt进行连接,作为立场分析模型的输入It:
It=concatenate(St,Vt)
(2)双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:
Ht=BSLTM(It)
(3)注意力层:在每个词的隐层输出Ht上再连接一次Vt,作为注意力层的输入Kt:
Kt=concatenate(Ht,Vt)
在注意力层对该向量进行线性非线性变换,使之变成N维的概率分布At:
At=attention(Kt)
将At与句子中每个词的隐层输出按位相乘,并求和,作为句子的一个表示Rt:
Rt=sum(At×Ht)
(4)输出层:将Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*:
ht*=Rt+htN
将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3维概率分布Pt:
Pt=Softmax(W×ht*+bias)。
7.根据权利要求6所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营的向量表示Vt包括:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939599.3A CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939599.3A CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359190A true CN109359190A (zh) | 2019-02-19 |
CN109359190B CN109359190B (zh) | 2021-12-17 |
Family
ID=65350120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810939599.3A Active CN109359190B (zh) | 2018-08-17 | 2018-08-17 | 一种基于评价对象阵营的立场分析模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359190B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091009A (zh) * | 2019-11-20 | 2020-05-01 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN116542257A (zh) * | 2023-07-07 | 2023-08-04 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN117952083A (zh) * | 2024-03-26 | 2024-04-30 | 中国电子科技集团公司第三十研究所 | 一种基于胶囊网络的多目标细粒度立场分析方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
US20160189037A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN106372058A (zh) * | 2016-08-29 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种基于深度学习的短文本情感要素抽取方法及装置 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107066446A (zh) * | 2017-04-13 | 2017-08-18 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
US20180121539A1 (en) * | 2016-11-01 | 2018-05-03 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
US20180197072A1 (en) * | 2016-03-31 | 2018-07-12 | ZenDesk, Inc. | Automated system for proposing help center articles to be written to facilitate resolving customer-service requests |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
-
2018
- 2018-08-17 CN CN201810939599.3A patent/CN109359190B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189037A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
US20180197072A1 (en) * | 2016-03-31 | 2018-07-12 | ZenDesk, Inc. | Automated system for proposing help center articles to be written to facilitate resolving customer-service requests |
CN106372058A (zh) * | 2016-08-29 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种基于深度学习的短文本情感要素抽取方法及装置 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
US20180121539A1 (en) * | 2016-11-01 | 2018-05-03 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107066446A (zh) * | 2017-04-13 | 2017-08-18 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
Non-Patent Citations (3)
Title |
---|
XUE ZHAO ET AL.: "Online News Emotion Prediction with Bidirectional LSTM", 《INTERNATIONAL CONFERENCE ON WEB-AGE INFORMATION MANAGEMENT》 * |
王科 等: "情感词典自动构建方法综述", 《自动化学报》 * |
韩忠明 等: "网络评论方面级观点挖掘方法研究综述", 《软件学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091009A (zh) * | 2019-11-20 | 2020-05-01 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN111091009B (zh) * | 2019-11-20 | 2022-03-15 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN116542257A (zh) * | 2023-07-07 | 2023-08-04 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN116542257B (zh) * | 2023-07-07 | 2023-09-22 | 长沙市智为信息技术有限公司 | 一种基于会话语境感知的谣言检测方法 |
CN117952083A (zh) * | 2024-03-26 | 2024-04-30 | 中国电子科技集团公司第三十研究所 | 一种基于胶囊网络的多目标细粒度立场分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109359190B (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918491B (zh) | 一种基于知识库自学习的智能客服问句匹配方法 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN109213999A (zh) | 一种主观题评分方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
CN106295796A (zh) | 基于深度学习的实体链接方法 | |
CN110245709A (zh) | 基于深度学习和自注意力的3d点云数据语义分割方法 | |
CN109189933A (zh) | 一种文本信息分类的方法及服务器 | |
CN110532436A (zh) | 基于社区结构的跨社交网络用户身份识别方法 | |
CN109933656A (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN108121702A (zh) | 数学主观题评阅方法及系统 | |
CN107705806A (zh) | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 | |
CN109299701A (zh) | 基于gan扩充多人种特征协同选择的人脸年龄估计方法 | |
CN109359190A (zh) | 一种基于评价对象阵营的立场分析模型构建方法 | |
CN106127634A (zh) | 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统 | |
CN106156287A (zh) | 基于旅游需求模板的景区评价数据分析舆情满意度方法 | |
CN108470061A (zh) | 一种针对视角级文本的情感分类系统 | |
CN110377727A (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
CN110378736B (zh) | 通过人脸表情识别评价游客对自然资源体验满意度的方法 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
Prabhudesai et al. | Automatic short answer grading using Siamese bidirectional LSTM based regression | |
Zhou et al. | ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |