CN110297889A - 一种基于特征融合的企业情感倾向分析方法 - Google Patents

一种基于特征融合的企业情感倾向分析方法 Download PDF

Info

Publication number
CN110297889A
CN110297889A CN201910576432.XA CN201910576432A CN110297889A CN 110297889 A CN110297889 A CN 110297889A CN 201910576432 A CN201910576432 A CN 201910576432A CN 110297889 A CN110297889 A CN 110297889A
Authority
CN
China
Prior art keywords
matrix
text
training
attention
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910576432.XA
Other languages
English (en)
Other versions
CN110297889B (zh
Inventor
顾凌云
严涵
王洪阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Bingjian Information Technology Co Ltd
Original Assignee
Nanjing Bingjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Bingjian Information Technology Co Ltd filed Critical Nanjing Bingjian Information Technology Co Ltd
Priority to CN201910576432.XA priority Critical patent/CN110297889B/zh
Publication of CN110297889A publication Critical patent/CN110297889A/zh
Application granted granted Critical
Publication of CN110297889B publication Critical patent/CN110297889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于特征融合的企业情感倾向分析方法,属于大数据技术领域,包括字词矩阵融合,位置矩阵与字词融合矩阵进行宽度上拼接,通过双向GRU与self‑attention结合,提取序列特征,序列特征矩阵与S22所得矩阵进一步宽度拼接,得到最终特征融合矩阵,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力。

Description

一种基于特征融合的企业情感倾向分析方法
技术领域
本发明属于大数据技术领域,尤其涉及一种基于特征融合的企业情感倾向分析方法。
背景技术
企业情感分析是指通过一种特征构建方法,用机器学习或者深度学习的方式构建模型,从而通过模型判断企业在舆情文本中的情感倾向。在基于机器学习模型的情感分类方法构建过程中,主要使用词频作为特征构建的重要因素,这类技术具有模型特征构建简单,可以快速训练部署的特点。但其缺点也很突出,由于词频矩阵并不包含语言的上下文结构,因此这类特征不具有抽象性,所包含的文本信息不足以解决文本语法结构问题。同时由于机器学习模型数据拟合能力没有神经网络能力强,因此其模型泛化性也存在问题。
伴随着深度学习技术的发展,一系列基于word2vec及其他一系列词向量嵌入技术开始投入使用。这类依托于词相似度所构建的特征矩阵具有高维结构,其能够解决部分文本信息不足的问题。但其缺陷在于无法解决文本中同义词所带来的歧义问题。同时常见的情感分析方法,时基于句子级别的粗粒度的情感分析方法。这类方法通过基于词相似度来进行特征构建时,对于上下文结构的表示也存在差距,无法将不同语境中的情感因素提取出来。
传统常见的深度学习的情感分类方法,是基于句子粒度的特征构建模型的方法。这类方法存在难以辨别目标词上下文信息的缺陷,从而导致文本信息构建不全。
发明内容
本发明的目的是提供一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种基于特征融合的企业情感倾向分析方法,包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1;
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2;
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1).....P(xn|xn-1xn-2...x3x2x1);
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1:
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1
Key=Wk.HT1
Value=WV.HT1
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵;
步骤10:中心服务器采用融合矩阵进行分类处理。
优选的,在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
优选的,在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
本发明所述的一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力,本发明通过字词矩阵融合,位置矩阵宽度拼接和最终序列特征矩阵与位置矩阵进一步融合的3次融合操作,从而使得的到的特征矩阵包含更多的文本信息,使得模型能尽力学习到语言的语法结构。
附图说明
图1是本发明的流程图;
图2是本发明的位置矩阵PF的示意图;
图3是本发明的序列特征提取的示意图;
图4是本发明的特征融合过程的流程图。
具体实施方式
如图1-图4所示的一种基于特征融合的企业情感倾向分析方法,包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,本实施例在将数据输入模型前,实验预处理阶段对每一段文本进行了定长处理,将每一段文本序列固定为500个字的长度;
再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1,F1的形状为{batchsize,500,256};本实施例在将数据输入模型前,实验预处理阶段对每一段文本进行了定长处理,将每一段文本序列固定为500个字的长度。
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2,F2的形状为{batchsize,500,256};
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
如图2所示,图2中的每一个字母表示文本分词的最小词粒度,其中B即为目标词,其中,A、B、C、D、E分别代表不同句子的序列。
后续将位置矩阵PF与矩阵E1进行词向量宽度上的拼接,得到融合矩阵E2,形状为(batchsize,500,513)。对于E2矩阵中每一个输入实例而言,其文本长度为500,其特征向量宽度即为513。此特征矩阵包含过多文本信息,从而具有高度抽象性质。
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1).....P(xn|xn-1xn-2...x3x2x1);
对于文本序列X={X1,X2,X3…Xn}而言,由于句子本身上下文结构得影响,该句子产生得概率可由文本数据概率P表示出来。即对于序列中每一个粒度的分词而言Xi而言,由于文本上下文限制,在语境不同时,相应的分词排布顺序也不同,这类顺序受到句子语义的影响。一段确定的句子则固定生成相应的词组排列顺序,而传同的深度学习嵌入方法未对此加以考虑,将每个词生成概率作为等可能性事件,忽略了歧义词所带来的语义理解错误情况。
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
如图3所示,假设输入文本序列为{X1,X2,X3,X4},则通过循环神经网络生成相应隐藏层后,进一步计算相似权值{H1,H2,H3,H4},产生attention编码。
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1:
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,注意力编码矩阵H的形状为{batchsize,500,511},将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1
Key=Wk.HT1
Value=WV.HT1
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵,融合矩阵形状为{batchsize,500,1024};
如图4所示为融合过程示意图,其中char Embedding为字向量,Word Embedding为词向量,GRU为神经网络,Self-Attention为注意力训练,position feature为位置矩阵PF提供的位置特性。
步骤10:中心服务器采用融合矩阵进行分类处理。
优选的,在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
优选的,在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
本发明所述的一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力,本发明通过字词矩阵融合,位置矩阵宽度拼接和最终序列特征矩阵与位置矩阵进一步融合的3次融合操作,从而使得的到的特征矩阵包含更多的文本信息,使得模型能尽力学习到语言的语法结构。

Claims (3)

1.一种基于特征融合的企业情感倾向分析方法,其特征在于:包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1;
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2;
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1)......P(xn|xn-1xn-2...x3x2x1);
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1
Key=Wk.HT1
Value=WV.HT1
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵;
步骤10:中心服务器采用融合矩阵进行分类处理。
2.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法,其特征在于:在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
3.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法,其特征在于:在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
CN201910576432.XA 2019-06-28 2019-06-28 一种基于特征融合的企业情感倾向分析方法 Active CN110297889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910576432.XA CN110297889B (zh) 2019-06-28 2019-06-28 一种基于特征融合的企业情感倾向分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910576432.XA CN110297889B (zh) 2019-06-28 2019-06-28 一种基于特征融合的企业情感倾向分析方法

Publications (2)

Publication Number Publication Date
CN110297889A true CN110297889A (zh) 2019-10-01
CN110297889B CN110297889B (zh) 2020-10-23

Family

ID=68029365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910576432.XA Active CN110297889B (zh) 2019-06-28 2019-06-28 一种基于特征融合的企业情感倾向分析方法

Country Status (1)

Country Link
CN (1) CN110297889B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889282A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN112364666A (zh) * 2020-11-12 2021-02-12 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112949313A (zh) * 2019-12-11 2021-06-11 中移(苏州)软件技术有限公司 信息处理模型训练方法、装置、设备及存储介质
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113221534A (zh) * 2021-05-25 2021-08-06 深圳和锐网络科技有限公司 一种文本情感分析方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109740158A (zh) * 2018-12-29 2019-05-10 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109740158A (zh) * 2018-12-29 2019-05-10 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHANQIAN ZHANG: "Movie Short-Text Reviews Sentiment Analysis Based on MultiFeature Fusion", 《ACAI 2018: PROCEEDINGS OF THE 2018 INTERNATIONAL CONFERENCE ON ALGORITHMS, COMPUTING AND》 *
尹良亮: "基于注意力机制和BGRU网络的", 《无线互联科技》 *
赵富等: "融合词性的双注意力Bi-LSTM情感分析", 《计算机应用》 *
顾凌云: "基于多注意力的中文命名实体识别", 《信息与电脑(理论版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889282A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN110889282B (zh) * 2019-11-28 2023-03-21 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN112949313A (zh) * 2019-12-11 2021-06-11 中移(苏州)软件技术有限公司 信息处理模型训练方法、装置、设备及存储介质
CN112364666A (zh) * 2020-11-12 2021-02-12 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112364666B (zh) * 2020-11-12 2023-12-08 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113221534A (zh) * 2021-05-25 2021-08-06 深圳和锐网络科技有限公司 一种文本情感分析方法、装置、电子设备及存储介质
CN113051897B (zh) * 2021-05-25 2021-09-10 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法

Also Published As

Publication number Publication date
CN110297889B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110297889A (zh) 一种基于特征融合的企业情感倾向分析方法
Shah et al. Robust zero-shot cross-domain slot filling with example values
CN110287481B (zh) 命名实体语料标注训练系统
CN109977416A (zh) 一种多层次自然语言反垃圾文本方法及系统
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN108829801A (zh) 一种基于文档级别注意力机制的事件触发词抽取方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN108388560A (zh) 基于语言模型的gru-crf会议名称识别方法
CN108427665A (zh) 一种基于lstm型rnn模型的文本自动生成方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN107451118A (zh) 基于弱监督深度学习的句子级情感分类方法
CN106202065B (zh) 一种跨语言话题检测方法及系统
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN110175585A (zh) 一种简答题自动批改系统及方法
Sazany et al. Deep learning-based implementation of hate speech identification on texts in indonesian: Preliminary study
CN113673254A (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN114764566B (zh) 用于航空领域的知识元抽取方法
Li et al. Multi-level gated recurrent neural network for dialog act classification
CN115587594A (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant