CN112926311B - 一种结合序列和主题信息的无监督方面词提取方法 - Google Patents

一种结合序列和主题信息的无监督方面词提取方法 Download PDF

Info

Publication number
CN112926311B
CN112926311B CN202110151682.6A CN202110151682A CN112926311B CN 112926311 B CN112926311 B CN 112926311B CN 202110151682 A CN202110151682 A CN 202110151682A CN 112926311 B CN112926311 B CN 112926311B
Authority
CN
China
Prior art keywords
information
sequence
word
distribution
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110151682.6A
Other languages
English (en)
Other versions
CN112926311A (zh
Inventor
相艳
殷润达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110151682.6A priority Critical patent/CN112926311B/zh
Publication of CN112926311A publication Critical patent/CN112926311A/zh
Application granted granted Critical
Publication of CN112926311B publication Critical patent/CN112926311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及结合序列和主题信息的无监督方面词提取方法。本发明包括:获得具有上下文表征的词向量、评论中每一个单词所对应序列信息;使用序列注意力对序列信息进行滤除获得新的序列信息;使用ETM对评论进行编码获得整体评论的主题信息;使用主题注意力将获得的新的序列信息和获得的整体评论的主题信息进行结合获得含有序列信息的主题信息:获得的含有序列信息的主题信息通过softmax分类器得到主题分布;使用神经网络获得有关评论的类别向量;使用得到的词向量和类别向量,通过softmax分类器获得方面词分布,再通过方面词分布得到评论中的方面词;本发明具有较好的性能;本发明能够获得含有潜在语义信息的方面词。

Description

一种结合序列和主题信息的无监督方面词提取方法
技术领域
本发明涉及一种结合序列和主题信息的无监督方面词提取方法,属于自然语言处理技术领域。
背景技术
传统方面词提取任务的目的是检测评论文本中提到的观点目标,并且已经对其进行了广泛的研究。现有的无监督方面词提取模型主要对评论的词袋表示进行主题建模,而忽略了评论本身的序列信息。正如在其他一些任务中观察到的那样,如果将两个信息集合起来,则会使模型通常在提取方面词任务上更有效。
在最新的研究中,Dieng等人研究了ETM的能力,将评论转换为含有主题信息并服从高斯分布的低维向量,利用词向量矩阵来获取有关方面词的分布,即使评论中含有停用词或低频词也不会影响模型的整体性能,证明了此模型有较好的鲁棒性。但是在进行方面词提取时,ETM仅使用了评论的主题信息而忽略评论的序列信息,这将导致模型并不能较好的提取有意义且含有潜在主题信息的方面词。针对以上问题,本发明提出了一种结合序列和主题信息的无监督方面词提取方法,以获得序列信息与主题信息之间的相关关系。
发明内容
本发明提供了一种结合序列和主题信息的无监督方面词提取方法,获得序列信息与主题信息之间的相关关系,提高提取方面词的效果。
本发明的技术方案是:一种结合序列和主题信息的无监督方面词提取方法,所述方法的具体步骤如下:
步骤1、通过Word2Vec预训练模型获得具有上下文表征的词向量;
步骤2、使用LSTM对评论进行编码获得评论中每一个单词所对应序列信息;
步骤3、使用序列注意力对序列信息进行滤除获得新的序列信息;
步骤4、使用ETM对评论进行编码获得整体评论的主题信息;
步骤5、使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息:
步骤6、在步骤5获得的含有序列信息的主题信息通过softmax分类器得到主题分布;
步骤7、使用神经网络获得有关评论的类别向量;
步骤8、使用步骤1与步骤7分别得到的词向量和类别向量,通过softmax分类器获得方面词分布,再通过方面词分布得到评论中的方面词;
步骤9、对步骤6与步骤8分别得到的主题分布和方面词分布进行解码;
步骤10、通过损失函数反向优化步骤4-步骤9。
作为本发明的进一步方案,所述步骤1中Word2Vec预训练模型将整个文档作为输入,利用来自整个文档的信息来计算上下文表征的词向量;
作为本发明的进一步方案,所述步骤2中LSTM层将评论作为输入,利用LSTM获得评论中每一个单词所对应的序列信息,序列信息通过公式hn=fLSTM(en,hn-1)计算;其中,en表示第n个单词对应的词嵌入,fLSTM(·)表示LSTM神经元,hn表示第n个单词对应的序列信息,hn-1表示第n-1个单词对应的序列信息。
作为本发明的进一步方案,所述步骤3中,使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下:
M=tanh(hn)
Figure BDA0002931704650000021
Figure BDA0002931704650000022
其中,M是非线性激活向量,hn表示第n个单词对应的序列信息,
Figure BDA0002931704650000023
为通过模型训练得到的参数,
Figure BDA0002931704650000024
是注意力权重分布,
Figure BDA0002931704650000025
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息。
作为本发明的进一步方案,所述步骤4中,ETM层将评论作为输入,利用ETM获得整体评论中所含的主题信息,主题信息如下公式计算:
μ=fu(fe(xbow)),σ=fσ(fe(xbow))
z=wzσ+μ
其中,xbow是词表中所有单词的集合,fe(·)、fu(·)、fσ(·)分别代表不同的神经网络,μ是均值,σ是标准差,z是主题信息,wz表示随机初始化参数向量。
作为本发明的进一步方案,所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示:
Figure BDA0002931704650000031
Figure BDA0002931704650000032
z*=z+c
其中,
Figure BDA0002931704650000033
是主题注意力权重分布,z是主题信息,
Figure BDA0002931704650000034
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息,c是含有潜在主题信息的序列信息,z*是含有序列信息的主题信息。
作为本发明的进一步方案,所述步骤6中,使用softmax分类器通过公式θ=softmax(tanh(z*))计算主题分布,其中,z*表示含有序列信息的主题信息,θ表示主题分布。
作为本发明的进一步方案,所述步骤7中,使用神经网络通过公式δ=fu(xbow)拟合出评论所对应的类别向量,xbow是词表中所有单词的集合,fu(·)代表神经网络,δ表示类别向量。
作为本发明的进一步方案,所述步骤8中,使用预训练模型获得的具有上下文表征的词向量和步骤7获得的类别向量通过softmax分类器获得方面词分布,其计算公式为β=softmax(δρT),其中,β表示方面词分布,δ表示类别向量,ρ是词向量;从方面词分布β中选取概率值较大的前N个索引值,并由索引值转换成词表中相应的单词,即可得到某个主题的前N个方面词。
作为本发明的进一步方案,所述步骤10中,损失函数
Figure BDA0002931704650000035
其中,
Figure BDA0002931704650000036
β表示方面词分布,θ表示主题分布,δ表示类别向量,ρ是词向量,xbow是词表中所有单词的集合,z*是含有序列信息的主题信息,z是主题信息,Eq表示似然估计用于计算解码过程中的损失,q(z|xbow)表示近似分布,p(z)表示主题信息的真实分布。
本发明的有益效果是:
1、本发明使用了序列注意力,在进行编码时,本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词,对每条评论使用序列注意力;
2、本发明使用了主题注意力,结合评论中每个单词的信息来推断评论所表达的潜在主题信息,使用注意力将主题信息与序列信息进行结合。
3、在进行解码时,本发明使用词向量与类别向量通过softmax分类器得到方面词分布。
4、本发明结合序列和主题信息的无监督方面词提取方法具有较好的性能;本发明能够获得含有潜在语义信息的方面词,解决了传统模型未充分利用序列信息的不足。
附图说明
图1为本发明中的流程图;
图2为本发明整体框架模型图。
具体实施方式
实施例1:如图1-2所示,一种结合序列和主题信息的无监督方面词提取方法,所述方法的具体步骤如下:
步骤1、通过Word2Vec预训练模型获得具有上下文表征的词向量:Word2Vec预训练模型将整个文档作为输入,利用来自整个文档的信息来计算上下文表征的词向量;
步骤2、使用LSTM对评论进行编码获得评论中每一个单词所对应序列信息;
作为本发明的进一步方案,所述步骤2中LSTM层将评论作为输入,利用长短期记忆网络(LongShort-Term Memory,LSTM)对输入评论进行序列编码获得评论中每一个单词所对应的序列信息,序列信息通过公式hn=fLSTM(en,hn-1)计算;其中,en表示第n个单词对应的词嵌入,fLSTM(·)表示LSTM神经元,hn表示第n个单词对应的序列信息,hn-1表示第n-1个单词对应的序列信息。
步骤3、使用序列注意力对序列信息进行滤除获得新的序列信息;
作为本发明的进一步方案,在进行编码时,本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词,所述步骤3中,使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下:
M=tanh(hn)
Figure BDA0002931704650000041
Figure BDA0002931704650000042
其中,M是非线性激活向量,hn表示第n个单词对应的序列信息,
Figure BDA0002931704650000043
为通过模型训练得到的参数,
Figure BDA0002931704650000044
是注意力权重分布,
Figure BDA0002931704650000045
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息。
步骤4、使用ETM对评论进行编码获得整体评论的主题信息;
作为本发明的进一步方案,使用变分对输入评论的词袋表示进行编码。此模块进行编码时,首先使用神经网络对词袋进行采样,提取词袋中有用的信息,之后将所提取的信息分别编码成均值和标准差;所述步骤4中,ETM层将评论作为输入,利用ETM获得整体评论中所含的主题信息,主题信息如下公式计算:
μ=fu(fe(xbow)),σ=fσ(fe(xbow))
z=wzσ+μ
其中,xbow是词表中所有单词的集合,fe(·)、fu(·)、fσ(·)分别代表不同的神经网络,μ是均值,σ是标准差,z是主题信息,wz表示随机初始化参数向量。
步骤5、使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息:
作为本发明的进一步方案,所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示;
Figure BDA0002931704650000051
Figure BDA0002931704650000052
z*=z+c
其中,
Figure BDA0002931704650000053
是主题注意力权重分布,z是主题信息,
Figure BDA0002931704650000054
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息,c是含有潜在主题信息的序列信息,z*是含有序列信息的主题信息。
步骤6、在步骤5获得的含有序列信息的主题信息通过softmax分类器得到主题分布;
作为本发明的进一步方案,所述步骤6中,使用softmax分类器通过公式θ=softmax(tanh(z*))计算主题分布,其中,z*表示含有序列信息的主题信息,θ表示主题分布。
步骤7、使用神经网络获得有关评论的类别向量;
作为本发明的进一步方案,所述步骤7中,使用神经网络通过公式δ=fu(xbow)拟合出评论所对应的类别向量,xbow是词表中所有单词的集合,fu(·)代表神经网络,δ表示类别向量。
步骤8、使用步骤1与步骤7分别得到的词向量和类别向量,通过softmax分类器获得方面词分布,再通过方面词分布得到评论中的方面词;
作为本发明的进一步方案,所述步骤8中,使用预训练模型获得的具有上下文表征的词向量和步骤7获得的类别向量通过softmax分类器获得方面词分布,其计算公式为β=softmax(δρT),其中,β表示方面词分布,δ表示类别向量,ρ是词向量;从方面词分布β中选取概率值较大的前N个索引值,并由索引值转换成词表中相应的单词,即可得到某个主题的前N个方面词。
步骤9、对步骤6与步骤8分别得到的主题分布和方面词分布进行解码;
步骤10、通过损失函数反向优化步骤4-步骤9。
作为本发明的进一步方案,所述步骤10中,损失函数
Figure BDA0002931704650000061
其中,
Figure BDA0002931704650000062
β表示方面词分布,θ表示主题分布,δ表示类别向量,ρ是词向量,xbow是词表中所有单词的集合,z*是含有序列信息的主题信息,z是主题信息,Eq表示似然估计用于计算解码过程中的损失,q(z|xbow)表示近似分布,p(z)表示主题信息的真实分布。
采用精确率P、召回率R和F1分数来评价本发明的性能。
首先,在现存的深度学习框架中,选择与任务相关且具有代表性的模型作为baseline对比,对比结果如表1、2所示:
表1 Restaurant数据集的比较结果
Figure BDA0002931704650000063
Figure BDA0002931704650000071
表2 Laptop数据集的比较结果
Figure BDA0002931704650000072
显然本发明提出的方法在所有数据集下,相对于所有的基线模型P,R,F1值均取得较好的结果。在Restaurant数据集上,与ABAE、ETM相比,F1值分别取得了0.7%和5.47%的提升。在Laptop数据集上,本发明方法相较于ABAE、ETM,F1值分别取得5.7%、7.7%的提升。
其次,本发明进行了消融分析,以验证提出方法中序列信息、序列注意力以及主题注意力的有效性,在Laptop数据集上进了实验与分析,结果如表3、4所示:
表3消融模型实验结果
Figure BDA0002931704650000073
表4
Figure BDA0002931704650000074
借用NLTK工具将数据集中所有单词进行写法的规范化,并构建相应的词表。将所有单词转换成对应的小写形式并移除所有标点、停用词以及低频词汇。使用word2vec预训练好的词向量矩阵作为序列信息模块中嵌入层的初始权重,并将嵌入层输出维度设置为300。此外,在主题信息模块中,将词向量矩阵作为学习方面词分布矩阵的一个固定常量。将主题数目k设置为14,batch size设置成250,使用Adam作为模型的优化器,将优化器中权值衰减设置为1.2e-6,学习率设置为0.01,迭代次数epochs为15次。为了防止过拟合,引入dropout层。按照这些设置,本文报告了平均结果。
本发明结合序列和主题信息的无监督方面词提取方法具有较好的性能,主要有以下几方面的原因:1、本发明使用了序列注意力,在进行编码时,本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词,对每条评论使用序列注意力;2、本发明使用了主题注意力,结合评论中每个单词的信息来推断评论所表达的潜在主题信息,使用注意力将主题信息与序列信息进行结合。3、在进行解码时,本发明使用词向量与类别向量通过softmax分类器得到方面词分布。
综上所述,本发明在方面词提取任务上有较好性能;本发明能够获得含有潜在语义信息的方面词,解决了传统模型未充分利用序列信息的不足。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种结合序列和主题信息的无监督方面词提取方法,其特征在于:所述方法的具体步骤如下:
步骤1、通过Word2Vec预训练模型获得具有上下文表征的词向量;
步骤2、使用LSTM对评论进行编码获得评论中每一个单词所对应序列信息;
步骤3、使用序列注意力对序列信息进行滤除获得新的序列信息;
步骤4、使用ETM对评论进行编码获得整体评论的主题信息;
步骤5、使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息:
步骤6、在步骤5获得的含有序列信息的主题信息通过softmax分类器得到主题分布;
步骤7、使用神经网络获得有关评论的类别向量;
步骤8、使用步骤1与步骤7分别得到的词向量和类别向量,通过softmax分类器获得方面词分布,再通过方面词分布得到评论中的方面词;
步骤9、对步骤6与步骤8分别得到的主题分布和方面词分布进行解码;
步骤10、通过损失函数反向优化步骤4-步骤9;
所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示:
Figure FDA0003638665490000011
Figure FDA0003638665490000012
z*=z+c
其中,
Figure FDA0003638665490000013
是主题注意力权重分布,z是主题信息,
Figure FDA0003638665490000014
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息,c是含有潜在主题信息的序列信息,z*是含有序列信息的主题信息;
所述步骤8中,使用预训练模型获得的具有上下文表征的词向量和步骤7获得的类别向量通过softmax分类器获得方面词分布,其计算公式为β=softmax(δρT),其中,β表示方面词分布,δ表示类别向量,ρ是词向量;从方面词分布β中选取概率值较大的前N个索引值,并由索引值转换成词表中相应的单词,即可得到某个主题的前N个方面词。
2.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤1中Word2Vec预训练模型将整个文档作为输入,利用来自整个文档的信息来计算上下文表征的词向量。
3.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤2中LSTM层将评论作为输入,利用LSTM获得评论中每一个单词所对应的序列信息,序列信息通过公式hn=fLSTM(en,hn-1)计算;其中,en表示第n个单词对应的词嵌入,fLSTM(·)表示LSTM神经元,hn表示第n个单词对应的序列信息,hn-1表示第n-1个单词对应的序列信息。
4.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤3中,使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下:
M=tanh(hn)
Figure FDA0003638665490000021
Figure FDA0003638665490000022
其中,M是非线性激活向量,hn表示第n个单词对应的序列信息,
Figure FDA0003638665490000023
为通过模型训练得到的参数,
Figure FDA0003638665490000024
是注意力权重分布,
Figure FDA0003638665490000025
表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息。
5.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤4中,ETM层将评论作为输入,利用ETM获得整体评论中所含的主题信息,主题信息如下公式计算:
μ=fu(fe(xbow)),σ=fσ(fe(xbow))
z=wzσ+μ
其中,xbow是词表中所有单词的集合,fe(·)、fu(·)、fσ(·)分别代表不同的神经网络,μ是均值,σ是标准差,z是主题信息,wz表示随机初始化参数向量。
6.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤6中,使用softmax分类器通过公式θ=softmax(tanh(z*))计算主题分布,其中,z*表示含有序列信息的主题信息,θ表示主题分布。
7.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤7中,使用神经网络通过公式δ=fu(xbow)拟合出评论所对应的类别向量,xbow是词表中所有单词的集合,fu(·)代表神经网络,δ表示类别向量。
8.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法,其特征在于:所述步骤10中,损失函数
Figure FDA0003638665490000031
其中,
Figure FDA0003638665490000032
β表示方面词分布,θ表示主题分布,δ表示类别向量,ρ是词向量,xbow是词表中所有单词的集合,z*是含有序列信息的主题信息,z是主题信息,Eq表示似然估计用于计算解码过程中的损失,q(z|xbow)表示近似分布,p(z)表示主题信息的真实分布。
CN202110151682.6A 2021-02-03 2021-02-03 一种结合序列和主题信息的无监督方面词提取方法 Active CN112926311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110151682.6A CN112926311B (zh) 2021-02-03 2021-02-03 一种结合序列和主题信息的无监督方面词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110151682.6A CN112926311B (zh) 2021-02-03 2021-02-03 一种结合序列和主题信息的无监督方面词提取方法

Publications (2)

Publication Number Publication Date
CN112926311A CN112926311A (zh) 2021-06-08
CN112926311B true CN112926311B (zh) 2022-08-02

Family

ID=76170122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110151682.6A Active CN112926311B (zh) 2021-02-03 2021-02-03 一种结合序列和主题信息的无监督方面词提取方法

Country Status (1)

Country Link
CN (1) CN112926311B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362817A (zh) * 2019-06-04 2019-10-22 中国科学院信息工程研究所 一种面向产品属性的观点倾向性分析方法及系统
CN110472042A (zh) * 2019-07-02 2019-11-19 桂林电子科技大学 一种细粒度情感分类方法
CN111897954A (zh) * 2020-07-10 2020-11-06 西北大学 一种用户评论方面挖掘系统、方法、及存储介质
CN111966832A (zh) * 2020-08-21 2020-11-20 网易(杭州)网络有限公司 评价对象的提取方法、装置和电子设备
CN112256876A (zh) * 2020-10-26 2021-01-22 南京工业大学 基于多记忆注意力网络的方面级情感分类模型

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101423544B1 (ko) * 2012-12-06 2014-08-01 고려대학교 산학협력단 시맨틱 토픽 추출 장치 및 방법
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
US20200159863A1 (en) * 2018-11-20 2020-05-21 Sap Se Memory networks for fine-grain opinion mining
CN110083833B (zh) * 2019-04-18 2022-12-06 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法
CN110532378B (zh) * 2019-05-13 2021-10-26 南京大学 一种基于主题模型的短文本方面提取方法
CN110134786B (zh) * 2019-05-14 2021-09-10 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110472047B (zh) * 2019-07-15 2022-12-13 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN111581981B (zh) * 2020-05-06 2022-03-08 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111949790A (zh) * 2020-07-20 2020-11-17 重庆邮电大学 基于lda主题模型与分层神经网络的情感分类方法
CN111881671B (zh) * 2020-09-27 2020-12-29 华南师范大学 一种属性词提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362817A (zh) * 2019-06-04 2019-10-22 中国科学院信息工程研究所 一种面向产品属性的观点倾向性分析方法及系统
CN110472042A (zh) * 2019-07-02 2019-11-19 桂林电子科技大学 一种细粒度情感分类方法
CN111897954A (zh) * 2020-07-10 2020-11-06 西北大学 一种用户评论方面挖掘系统、方法、及存储介质
CN111966832A (zh) * 2020-08-21 2020-11-20 网易(杭州)网络有限公司 评价对象的提取方法、装置和电子设备
CN112256876A (zh) * 2020-10-26 2021-01-22 南京工业大学 基于多记忆注意力网络的方面级情感分类模型

Also Published As

Publication number Publication date
CN112926311A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN111914091B (zh) 一种基于强化学习的实体和关系联合抽取方法
CN109766432B (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN106383877A (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN112231562A (zh) 一种网络谣言识别方法及系统
CN112231477B (zh) 一种基于改进胶囊网络的文本分类方法
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN112307130B (zh) 一种文档级远程监督关系抽取方法及系统
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN111314353A (zh) 一种基于混合采样的网络入侵检测方法及系统
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN113315789B (zh) 一种基于多级联合网络的Web攻击检测方法及系统
CN111125370A (zh) 一种适应小样本的关系抽取方法
CN112529638A (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN110727758A (zh) 一种基于多长度文本向量拼接的舆情分析方法及其系统
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN115617614A (zh) 基于时间间隔感知自注意力机制的日志序列异常检测方法
CN111597333A (zh) 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111737688B (zh) 基于用户画像的攻击防御系统
CN112926311B (zh) 一种结合序列和主题信息的无监督方面词提取方法
CN113326695B (zh) 一种基于迁移学习的情感极性分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant