CN110297889A - 一种基于特征融合的企业情感倾向分析方法 - Google Patents
一种基于特征融合的企业情感倾向分析方法 Download PDFInfo
- Publication number
- CN110297889A CN110297889A CN201910576432.XA CN201910576432A CN110297889A CN 110297889 A CN110297889 A CN 110297889A CN 201910576432 A CN201910576432 A CN 201910576432A CN 110297889 A CN110297889 A CN 110297889A
- Authority
- CN
- China
- Prior art keywords
- matrix
- text
- training
- attention
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于特征融合的企业情感倾向分析方法,属于大数据技术领域,包括字词矩阵融合,位置矩阵与字词融合矩阵进行宽度上拼接,通过双向GRU与self‑attention结合,提取序列特征,序列特征矩阵与S22所得矩阵进一步宽度拼接,得到最终特征融合矩阵,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力。
Description
技术领域
本发明属于大数据技术领域,尤其涉及一种基于特征融合的企业情感倾向分析方法。
背景技术
企业情感分析是指通过一种特征构建方法,用机器学习或者深度学习的方式构建模型,从而通过模型判断企业在舆情文本中的情感倾向。在基于机器学习模型的情感分类方法构建过程中,主要使用词频作为特征构建的重要因素,这类技术具有模型特征构建简单,可以快速训练部署的特点。但其缺点也很突出,由于词频矩阵并不包含语言的上下文结构,因此这类特征不具有抽象性,所包含的文本信息不足以解决文本语法结构问题。同时由于机器学习模型数据拟合能力没有神经网络能力强,因此其模型泛化性也存在问题。
伴随着深度学习技术的发展,一系列基于word2vec及其他一系列词向量嵌入技术开始投入使用。这类依托于词相似度所构建的特征矩阵具有高维结构,其能够解决部分文本信息不足的问题。但其缺陷在于无法解决文本中同义词所带来的歧义问题。同时常见的情感分析方法,时基于句子级别的粗粒度的情感分析方法。这类方法通过基于词相似度来进行特征构建时,对于上下文结构的表示也存在差距,无法将不同语境中的情感因素提取出来。
传统常见的深度学习的情感分类方法,是基于句子粒度的特征构建模型的方法。这类方法存在难以辨别目标词上下文信息的缺陷,从而导致文本信息构建不全。
发明内容
本发明的目的是提供一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种基于特征融合的企业情感倾向分析方法,包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1;
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2;
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1).....P(xn|xn-1xn-2...x3x2x1);
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1:
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1;
Key=Wk.HT1;
Value=WV.HT1;
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵;
步骤10:中心服务器采用融合矩阵进行分类处理。
优选的,在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
优选的,在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
本发明所述的一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力,本发明通过字词矩阵融合,位置矩阵宽度拼接和最终序列特征矩阵与位置矩阵进一步融合的3次融合操作,从而使得的到的特征矩阵包含更多的文本信息,使得模型能尽力学习到语言的语法结构。
附图说明
图1是本发明的流程图;
图2是本发明的位置矩阵PF的示意图;
图3是本发明的序列特征提取的示意图;
图4是本发明的特征融合过程的流程图。
具体实施方式
如图1-图4所示的一种基于特征融合的企业情感倾向分析方法,包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,本实施例在将数据输入模型前,实验预处理阶段对每一段文本进行了定长处理,将每一段文本序列固定为500个字的长度;
再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1,F1的形状为{batchsize,500,256};本实施例在将数据输入模型前,实验预处理阶段对每一段文本进行了定长处理,将每一段文本序列固定为500个字的长度。
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2,F2的形状为{batchsize,500,256};
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
如图2所示,图2中的每一个字母表示文本分词的最小词粒度,其中B即为目标词,其中,A、B、C、D、E分别代表不同句子的序列。
后续将位置矩阵PF与矩阵E1进行词向量宽度上的拼接,得到融合矩阵E2,形状为(batchsize,500,513)。对于E2矩阵中每一个输入实例而言,其文本长度为500,其特征向量宽度即为513。此特征矩阵包含过多文本信息,从而具有高度抽象性质。
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1).....P(xn|xn-1xn-2...x3x2x1);
对于文本序列X={X1,X2,X3…Xn}而言,由于句子本身上下文结构得影响,该句子产生得概率可由文本数据概率P表示出来。即对于序列中每一个粒度的分词而言Xi而言,由于文本上下文限制,在语境不同时,相应的分词排布顺序也不同,这类顺序受到句子语义的影响。一段确定的句子则固定生成相应的词组排列顺序,而传同的深度学习嵌入方法未对此加以考虑,将每个词生成概率作为等可能性事件,忽略了歧义词所带来的语义理解错误情况。
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
如图3所示,假设输入文本序列为{X1,X2,X3,X4},则通过循环神经网络生成相应隐藏层后,进一步计算相似权值{H1,H2,H3,H4},产生attention编码。
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1:
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,注意力编码矩阵H的形状为{batchsize,500,511},将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1;
Key=Wk.HT1;
Value=WV.HT1;
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵,融合矩阵形状为{batchsize,500,1024};
如图4所示为融合过程示意图,其中char Embedding为字向量,Word Embedding为词向量,GRU为神经网络,Self-Attention为注意力训练,position feature为位置矩阵PF提供的位置特性。
步骤10:中心服务器采用融合矩阵进行分类处理。
优选的,在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
优选的,在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
本发明所述的一种基于特征融合的企业情感倾向分析方法,解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析,从而增加了对企业在相应语境中情感倾向判断的准确性,减少了同义词所带来的情感误差的技术问题,本发明通过引入字嵌入方式,引入循环神经网络与attention进行特征提取,得到的矩阵增强了后期模型对于文本上下文信息学习能力,本发明通过字词矩阵融合,位置矩阵宽度拼接和最终序列特征矩阵与位置矩阵进一步融合的3次融合操作,从而使得的到的特征矩阵包含更多的文本信息,使得模型能尽力学习到语言的语法结构。
Claims (3)
1.一种基于特征融合的企业情感倾向分析方法,其特征在于:包括如下步骤:
步骤1:建立中心服务器,在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块;
步骤2:中心服务器从互联网中爬取到数个新闻的原始文本数据,中心服务器将所有原始文本数据存储在字词向量存储模块中,生成训练集,确保训练集中有足够的词,通过训练集训练字向量和词向量,其步骤如下:
步骤A1:训练词向量时,首先用jieba分词对训练集中的每一段文本进行分词处理,然后输入词窗大小为3的情况下训练CBOW结构word2vec模型,再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵,即词向量矩阵F1;
步骤A2:训练字向量时,首先将训练集中每一段文本拆分成字符表示,然后输入词窗大小为2的情况下训练CBOW结构word2vec模型,再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵,即字向量矩阵F2;
步骤3:矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1,E1的形状为{batchsize,maxlen,d_model},其中maxlen表示文本序列固定长度,d_model表示人工设定词向量宽度;
设定训练集中每一段文本的文本序列为X:
X={X1,X2,X3…Xa…Xi…Xn};
矩阵模块以公司名称作为目标词并确定公司名位置索引a,以目标词为原点,分别通过以下公式计算其他非目标词到该目标词的距离d={d1,d2,d3,d4,……,di}:
d=|a-i|;
其中,i表示文本序列中每个分词的位置索引;
步骤4:矩阵模块将计算获得的所有距离d表示为一个形状为{1,1}的一维数组,那么多个句子则得到维度为{batch,1}的距离数组;
矩阵模块根据对距离数组对矩阵E1进行嵌入操作,生成位置矩阵PF,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为整数;
步骤5:文本序列特征模块根据每一段文本的文本序列为X,采用以下公式计算每一段文本的文本数据概率P,得到文本数据概率分布:
P=P(x1).P(x2|x1).P(x3|x2x1)......P(xn|xn-1xn-2...x3x2x1);
步骤6:文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层,进一步计算相似权值,产生attention注意力训练编码;
步骤7:文本序列特征模块根据字向量矩阵F2,使用GRU双向循环神经网络进行序列处理,其步骤如下:
步骤B1:采用以下公式表示更新门状态更改过程,其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值,从而用于控制前一时刻T0隐藏状态量HT0的输入量的多少:
rT1=σ(Wr·[HT0,xT1]);
其中,rT1表示T1时刻更新门状态量,σ表示sigmoid函数,Wr表示更新门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入的序列信息;
步骤B2:采用以下公式计算重置门的量,用于控制前一时刻T0忽略状态量的多少:
zT1=σ(Wz·[HT0,xT1]);
其中,zT1表示T1时刻重置门状态量,σ表示sigmoid函数,Wz表示重置门权值参数,HT0表示T0时刻隐藏层状态量,xT1表示T1时刻输入序列信息;
步骤B3:通过采用以下公式加入tanh激活函数,用于增加文本序列长期记忆效果:
其中,表示T1时刻隐藏状态量,表示权值参数,rT1表示T1时刻更新门状态量,HT0表示T0时刻隐藏状态量,xT1表示T1时刻序列信息;
步骤B4:采用以下公式计算最终的隐藏状态量HT1:
步骤8:文本序列特征模块对attention注意力训练编码进行attention注意力训练,得到注意力编码矩阵H,将attention注意力训练机制中的query矩阵,key矩阵和value矩阵都看作同一个矩阵,其值与HT1矩阵相同,其步骤如下:
步骤C1:对query矩阵,key矩阵和value矩阵按照以下三个公式做线性变换:
Query=WQ.HT1;
Key=Wk.HT1;
Value=WV.HT1;
其中,WQ、WK、WV是模型训练过程中待确定的参数;
步骤C2:采用以下公式计算Key矩阵与Query矩阵的点乘相似度:
其中i指key矩阵HT1相应的位置索引,d为维度;
步骤C3:采用以下公式计算每一个key矩阵截取片断的softmax值:
其中j表示相似度函数个数,n表示文本序列长度;
将softmax值转换为概率,得到了相应的attention权值;
步骤C4:采用以下公式进行加权求和,得到了整个文本序列上的注意力编码矩阵H:
其中,n表示文本序列长度,V表示文本序列编码,物理意义与key矩阵相同;
步骤9:特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接,最终生成融合矩阵;
步骤10:中心服务器采用融合矩阵进行分类处理。
2.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法,其特征在于:在执行步骤A1和步骤A2时,在将数据输入CBOW结构word2vec模型前,对每一段文本进行定长处理,将每一段文本序列固定为N个字的长度,N的取值为正整数。
3.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法,其特征在于:在执行步骤4时,位置矩阵PF的形状为{batch_size,maxlen,1},其中maxlen的值为500。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910576432.XA CN110297889B (zh) | 2019-06-28 | 2019-06-28 | 一种基于特征融合的企业情感倾向分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910576432.XA CN110297889B (zh) | 2019-06-28 | 2019-06-28 | 一种基于特征融合的企业情感倾向分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110297889A true CN110297889A (zh) | 2019-10-01 |
CN110297889B CN110297889B (zh) | 2020-10-23 |
Family
ID=68029365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910576432.XA Active CN110297889B (zh) | 2019-06-28 | 2019-06-28 | 一种基于特征融合的企业情感倾向分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110297889B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889282A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
CN112364666A (zh) * | 2020-11-12 | 2021-02-12 | 虎博网络技术(上海)有限公司 | 文本表征方法、装置及计算机设备 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN113051897A (zh) * | 2021-05-25 | 2021-06-29 | 中国电子科技集团公司第三十研究所 | 一种基于Performer结构的GPT2文本自动生成方法 |
CN113221534A (zh) * | 2021-05-25 | 2021-08-06 | 深圳和锐网络科技有限公司 | 一种文本情感分析方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109740158A (zh) * | 2018-12-29 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 一种文本语义解析方法及装置 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
US20190156220A1 (en) * | 2017-11-22 | 2019-05-23 | Microsoft Technology Licensing, Llc | Using machine comprehension to answer a question |
-
2019
- 2019-06-28 CN CN201910576432.XA patent/CN110297889B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
US20190156220A1 (en) * | 2017-11-22 | 2019-05-23 | Microsoft Technology Licensing, Llc | Using machine comprehension to answer a question |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109740158A (zh) * | 2018-12-29 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 一种文本语义解析方法及装置 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
Non-Patent Citations (4)
Title |
---|
SHANQIAN ZHANG: "Movie Short-Text Reviews Sentiment Analysis Based on MultiFeature Fusion", 《ACAI 2018: PROCEEDINGS OF THE 2018 INTERNATIONAL CONFERENCE ON ALGORITHMS, COMPUTING AND》 * |
尹良亮: "基于注意力机制和BGRU网络的", 《无线互联科技》 * |
赵富等: "融合词性的双注意力Bi-LSTM情感分析", 《计算机应用》 * |
顾凌云: "基于多注意力的中文命名实体识别", 《信息与电脑(理论版)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889282A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
CN110889282B (zh) * | 2019-11-28 | 2023-03-21 | 哈尔滨工程大学 | 一种基于深度学习的文本情感分析方法 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN112364666A (zh) * | 2020-11-12 | 2021-02-12 | 虎博网络技术(上海)有限公司 | 文本表征方法、装置及计算机设备 |
CN112364666B (zh) * | 2020-11-12 | 2023-12-08 | 虎博网络技术(上海)有限公司 | 文本表征方法、装置及计算机设备 |
CN113051897A (zh) * | 2021-05-25 | 2021-06-29 | 中国电子科技集团公司第三十研究所 | 一种基于Performer结构的GPT2文本自动生成方法 |
CN113221534A (zh) * | 2021-05-25 | 2021-08-06 | 深圳和锐网络科技有限公司 | 一种文本情感分析方法、装置、电子设备及存储介质 |
CN113051897B (zh) * | 2021-05-25 | 2021-09-10 | 中国电子科技集团公司第三十研究所 | 一种基于Performer结构的GPT2文本自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110297889B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297889A (zh) | 一种基于特征融合的企业情感倾向分析方法 | |
Shah et al. | Robust zero-shot cross-domain slot filling with example values | |
CN110287481B (zh) | 命名实体语料标注训练系统 | |
CN109977416A (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN109582949A (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及系统 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN108829801A (zh) | 一种基于文档级别注意力机制的事件触发词抽取方法 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108388560A (zh) | 基于语言模型的gru-crf会议名称识别方法 | |
CN108427665A (zh) | 一种基于lstm型rnn模型的文本自动生成方法 | |
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和系统 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN107451118A (zh) | 基于弱监督深度学习的句子级情感分类方法 | |
CN106202065B (zh) | 一种跨语言话题检测方法及系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN110175585A (zh) | 一种简答题自动批改系统及方法 | |
Sazany et al. | Deep learning-based implementation of hate speech identification on texts in indonesian: Preliminary study | |
CN113673254A (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
Li et al. | Multi-level gated recurrent neural network for dialog act classification | |
CN115587594A (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |