CN110287326A - 一种带背景描述的企业情感分析方法 - Google Patents

一种带背景描述的企业情感分析方法 Download PDF

Info

Publication number
CN110287326A
CN110287326A CN201910593643.4A CN201910593643A CN110287326A CN 110287326 A CN110287326 A CN 110287326A CN 201910593643 A CN201910593643 A CN 201910593643A CN 110287326 A CN110287326 A CN 110287326A
Authority
CN
China
Prior art keywords
text
information
sentiment analysis
vector
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910593643.4A
Other languages
English (en)
Inventor
顾凌云
严涵
王洪阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ice Stephen Mdt Infotech Ltd
Shanghai IceKredit Inc
Original Assignee
Shanghai Ice Stephen Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ice Stephen Mdt Infotech Ltd filed Critical Shanghai Ice Stephen Mdt Infotech Ltd
Priority to CN201910593643.4A priority Critical patent/CN110287326A/zh
Publication of CN110287326A publication Critical patent/CN110287326A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种带背景描述的企业情感分析方法,属于大数据技术领域,包括对新闻信息进行预处理,使用CBOW结构的word2vec模型对摘要和公司名相关的文本信息进行预训练得到相应的词向量,将带背景描述的文本表示使用多个不同卷积核提取特征,池化后将不同特征进行拼接,将拼接后的特征通过情感分析分类器计算各情感分类的概率,得到带背景描述的情感分析结果,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。

Description

一种带背景描述的企业情感分析方法
技术领域
本发明属于大数据技术领域,尤其涉及一种带背景描述的企业情感分析方法。
背景技术
情感分析是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展。自2000年初以来,情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。对于企业来说,通过情感分析,可以挖掘企业产品在各个维度的优劣,从而明确如何改进产品。现在主要的情感分析的方法包括以下两种:
基于情感词典的传统方法,基于情感词典的方法,先对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。该方法有如下几个缺点:
1.精度不高,语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确;
2.新词发现,对于新的情感词,词典不一定能够覆盖;
3.词典构建难,基于词典的情感分类,核心在于情感词典,而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,在分析外语方面会有很大限制。
基于评分的机器学习算法,使用贝叶斯,支持向量机以及神经网络对文本进行分类,最终使用评分系统输出情感标签,需要事先设定一个阈值范围,若经过评分系统输出的结果大于该范围,则评判为正向情感,若小于该范围,则判为负向情感,若在该阈值范围内,则判定为中立情感,这种做法最大的缺点是不灵活,算法存在一定的缺陷,同一类的情感数据的特征可能相差很大,把不同程度上的特征转化为指定的阈值范围,会出现一定程度上的偏差,导致最终情感分析的结果不准确。
发明内容
本发明的目的是提供一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种带背景描述的企业情感分析方法,包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p)
步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;
步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;
将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;
步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
优选的,在执行步骤4时,对公司名相关的文本信息使用自注意力机制,通过计算自注意力系数学习得到句法层面的文本表示;将对摘要的表示和句法层面的文本表示进行叠加,得到带背景描述的文本表示。
优选的,在执行步骤3时,情感标签包括正向情感Pos、负向情感Neg和中立情感Neu。
优选的,在执行步骤5时,对摘要的词向量使用Position embedding方法叠加位置信息。
本发明所述的一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。
附图说明
图1是本发明的总流程图;
图2是本发明的步骤2到步骤6的流程图;
图3是本发明整体模型结构图。
具体实施方式
如图1-图3所示的一种带背景描述的企业情感分析方法,包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
本实施例的具体实施方法为:建立一个文本窗口,设置窗口大小为100,相关正文就是在公司名出现位置的前100个和后100个词之前出现的文本,这一段文本代表了具有特定公司背景的描述,结合摘要,能使情感分析更加准确
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p)
使用以上公式是因为位置p+k的向量可以表示成位置p的向量的线性变换,如下为sin和cos公式的变换关系:
sin(α+β)=sinαcosβ+cosβsinβ;
cos(α+β)=cosαcosβ-sinβsinβ;
这提供了表达相对位置信息的可能性。
步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;
步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;
步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
如图3所示,其中abstract为摘要,text为相关文本,word embedding为词向量,position embedding为位置向量,self attention为自注意力机制,convolution为卷积,max pooling为最大池。
本实施例使用自注意力编码器对向量化的相关文本进一步编码,学习语句内部字词之间的联系,同时计算自注意力系数,可以得到最终的文本特征向量。相关文本经过词嵌入后输入向量转换出矩阵X,X∈Rm×d,其中m表示相关文本中的词汇个数,d表示词向量的维度。自注意力机制的原理是通过计算目标词与文本序列之间的关系,得到每个词对应于文本序列中所有词的自注意力系数,可以把目标词表示为Q,将文本序列表示成Key-Value的形式,分别表示为K,V,其中K的作用是为了与Q计算自注意力系数,V为目标语句,三次线性变换的公式如下:
Q=WQ·X;
K=WK·X;
V=WV·X;
其中,WQ,WK,WV为待训练的参数。使用softmax计算自注意力系数,因为需要计算源语句中每个字词对应的目标语句中所有字词,为了保证自注意力系数的变化范围较为明显,需要对进行缩放,这里对其同时除以然后使用softmax归一化,得到源语句对应目标语句的自注意力系数,计算公式如下:
通过以上公式计算可以得到自注意力系数,再与目标语句V做乘积并求和,得到每个编码器学习到的新的输入文本的向量表示为A,A的计算公式如下:
A=attention(Q,K,V)=att·V;
通过在序列内部做Attention注意力训练,寻找序列内部的联系。
将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;
本实施例采用基于text-cnn的情感分类器对带有公司名的背景描述信息进行情感倾向性分析。
优选的,在执行步骤4时,对公司名相关的文本信息使用自注意力机制,通过计算自注意力系数学习得到句法层面的文本表示;将对摘要的表示和句法层面的文本表示进行叠加,得到带背景描述的文本表示。
优选的,在执行步骤3时,情感标签包括正向情感Pos、负向情感Neg和中立情感Neu。
优选的,在执行步骤5时,对摘要的词向量使用Position embedding方法叠加位置信息。
本发明所述的一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。

Claims (4)

1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p)
步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;
步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;
将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;
步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
2.如权利要求1所述的一种带背景描述的企业情感分析方法,其特征在于:在执行步骤4时,对公司名相关的文本信息使用自注意力机制,通过计算自注意力系数学习得到句法层面的文本表示;将对摘要的表示和句法层面的文本表示进行叠加,得到带背景描述的文本表示。
3.如权利要求1所述的一种带背景描述的企业情感分析方法,其特征在于:在执行步骤3时,情感标签包括正向情感Pos、负向情感Neg和中立情感Neu。
4.如权利要求1所述的一种带背景描述的企业情感分析方法,其特征在于:在执行步骤5时,对摘要的词向量使用Position embedding方法叠加位置信息。
CN201910593643.4A 2019-07-03 2019-07-03 一种带背景描述的企业情感分析方法 Pending CN110287326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910593643.4A CN110287326A (zh) 2019-07-03 2019-07-03 一种带背景描述的企业情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910593643.4A CN110287326A (zh) 2019-07-03 2019-07-03 一种带背景描述的企业情感分析方法

Publications (1)

Publication Number Publication Date
CN110287326A true CN110287326A (zh) 2019-09-27

Family

ID=68020406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910593643.4A Pending CN110287326A (zh) 2019-07-03 2019-07-03 一种带背景描述的企业情感分析方法

Country Status (1)

Country Link
CN (1) CN110287326A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法
CN111859957A (zh) * 2020-07-15 2020-10-30 中南民族大学 情感原因子句标签的抽取方法、装置、设备及存储介质
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090048841A1 (en) * 2007-08-14 2009-02-19 Nuance Communications, Inc. Synthesis by Generation and Concatenation of Multi-Form Segments
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN109033433A (zh) * 2018-08-13 2018-12-18 中国地质大学(武汉) 一种基于卷积神经网络的评论数据情感分类方法及系统
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN109766557A (zh) * 2019-01-18 2019-05-17 河北工业大学 一种情感分析方法、装置、存储介质及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090048841A1 (en) * 2007-08-14 2009-02-19 Nuance Communications, Inc. Synthesis by Generation and Concatenation of Multi-Form Segments
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN109033433A (zh) * 2018-08-13 2018-12-18 中国地质大学(武汉) 一种基于卷积神经网络的评论数据情感分类方法及系统
CN109766557A (zh) * 2019-01-18 2019-05-17 河北工业大学 一种情感分析方法、装置、存储介质及终端设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111859957A (zh) * 2020-07-15 2020-10-30 中南民族大学 情感原因子句标签的抽取方法、装置、设备及存储介质
CN111859957B (zh) * 2020-07-15 2023-11-07 中南民族大学 情感原因子句标签的抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN107168945B (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN111310474A (zh) 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN110287326A (zh) 一种带背景描述的企业情感分析方法
CN110297889B (zh) 一种基于特征融合的企业情感倾向分析方法
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN109597988A (zh) 跨语言的词汇义原预测方法、装置与电子设备
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
CN110222338A (zh) 一种机构名实体识别方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Yao Attention-based BiLSTM neural networks for sentiment classification of short texts
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN114595687B (zh) 基于BiLSTM的老挝语文本正则化方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190927