CN113254592B - 基于门机制的多级注意力模型的评论方面检测方法及系统 - Google Patents

基于门机制的多级注意力模型的评论方面检测方法及系统 Download PDF

Info

Publication number
CN113254592B
CN113254592B CN202110669829.0A CN202110669829A CN113254592B CN 113254592 B CN113254592 B CN 113254592B CN 202110669829 A CN202110669829 A CN 202110669829A CN 113254592 B CN113254592 B CN 113254592B
Authority
CN
China
Prior art keywords
sentence
matrix
vector
hidden state
time step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110669829.0A
Other languages
English (en)
Other versions
CN113254592A (zh
Inventor
王思宇
黄鹏
江岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xiaoduo Technology Co ltd
Original Assignee
Chengdu Xiaoduo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xiaoduo Technology Co ltd filed Critical Chengdu Xiaoduo Technology Co ltd
Priority to CN202110669829.0A priority Critical patent/CN113254592B/zh
Publication of CN113254592A publication Critical patent/CN113254592A/zh
Application granted granted Critical
Publication of CN113254592B publication Critical patent/CN113254592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于门机制的多级注意力模型的评论方面检测方法及系统,待处理的句子转换为嵌入词形式的词向量矩阵后使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态,并根据隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码;根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵;计算各个时间步相对于最后一个时间步的权重,并根据该权重和隐藏状态计算得到对应的词级自注意特征向量;对句子级自注意特征矩阵进行拉伸操作并通过全连接层得到句子级自注意力特征向量,通过一个门机制混合句级注意力的向量和词级注意力的向量后根据得到的向量分析句子的方面类别概率,确定句子的方面类别。

Description

基于门机制的多级注意力模型的评论方面检测方法及系统
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于门机制的多级注意力模型的评论方面检测方法及系统。
背景技术
近年来,情感分析和意见挖掘已成为学术界和行业的热门领域。该领域的挑战之一是为评论中的各个方面分配标签,称为评论方面类别检测(ACD)。例如,一句评论“这家饭店的服务员的态度真好”可以被指定为“服务”方面类别或标签。而一句话“这家饭店的食物很一般,但是环境还是非常不错的”可以分配两个标签,即“环境”和“食品”。方面类别检测任务可以帮助公司从客户那里获得更详尽的意见和建议,从而改善自身公司的产品或服务。以前对ACD的研究分为两类:(1)基于词典的方法和(2)基于机器学习的方法。基于词典的方法不需要标记的数据集,但是需要某些设计好的规则,并且该方法不能很好地处理包含许多隐式语义的句子。基于机器学习的方法,比如SVM,神经网络模型在ACD任务中取得了很好的效果。
例如,何等人引入了深度学习模型中的注意力机制来识别评论中的关键字。他们使用LSTM的最后一个时间步长(或所有时间步长的平均值)的输出作为整个句子的表示向量,然后计算每个时间步长与最后一个时间步长(或所有时间步长的平均值)之间的相似度来分别获得句子中词的注意力权重。但是,在ACD任务中,一个句子可能描述多个方面类别,而且可能比平时更长。因此,对这些长句子进行编码会导致LSTM的长期记忆负担。另外,使用最后一个时间步长或平均值可能会导致语义信息的丢失,因此使该方法在较长的句子中表现不佳。例如,一句长评论:“我午休时间到了这个很棒的小地方,店里有很棒的炸玉米饼和芙蓉柠檬水。”这个句子的前半部分描述了氛围方面,在后半部分描述了饮食方面。我们发现词级别自我注意力模型可以正确识别食物方面,但无法识别环境方面。又比如,林等人提出了一种句子级的自我注意力机制来应对长期记忆负担的挑战。这种方法可以增强模型处理多方面长句子的能力。然而这种方法在处理短句子时,句子级别的注意力有时不能像词级别的注意力那样有效。例如,有人评论说“我受不了这个地方”,针对这种评论我们试验了这种方法,发现句子级别的注意力模型无法正确预测“环境”方面。
因此,需要提供一种方案以提高评论方面类别检测结果的准确性。
发明内容
本发明的目的在于提供一种基于门机制的多级注意力模型的评论方面检测方法及系统,用以实现提高评论方面类别检测结果的准确性的技术效果。
第一方面,本发明提供了一种基于门机制的多级注意力模型的评论方面检测方法,包括:
S1.获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵;
S2.通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码;
S3.根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
S4. 计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w ;实现方式为:
Figure 796062DEST_PATH_IMAGE001
Figure 477579DEST_PATH_IMAGE002
Figure 10192DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数;
S5. 对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
进一步地,所述S2包括:
S21.通过双向LSTM神经网络对各个词向量进行处理得到每个时间步的隐藏状态
Figure 412354DEST_PATH_IMAGE004
Figure 81233DEST_PATH_IMAGE005
t表示第t个时间步;
S22. 将每个时间步的隐藏状态
Figure 668072DEST_PATH_IMAGE004
Figure 891243DEST_PATH_IMAGE005
进行拼接,获得每个时间步的隐藏状态h t
S23. 将所有时间步的隐藏状态h t 进行整合,得到整个句子的隐藏状态向量矩阵H
进一步地,所述S3的实现方式为:
Figure 893834DEST_PATH_IMAGE006
M=AH
上式中,Softmax表示Softmax函数;tanh表示双曲正切函数;W a1是大小为d×2u的权重矩阵;W a2是大小为r×d的权重矩阵;d表示矩阵维度;H T 表示隐藏状态向量矩阵H的转置矩阵;句子级自注意力权重矩阵A是一个大小为r×n的矩阵;句子级自注意特征矩阵M∈Rr ×2u ru表示超参数,R表示实数矩阵;n表示每个句子中嵌入词的总数。
进一步地,所述S5的实现方式为:
Figure 745115DEST_PATH_IMAGE007
Figure 643801DEST_PATH_IMAGE008
Figure 885427DEST_PATH_IMAGE009
Figure 754025DEST_PATH_IMAGE010
上式中,flatten(.)表示拉伸操作函数;W f b f 表示第一全连接层的学习参数;G表示门函数,用于计算两个向量v s , v w 按照何等比例融合;W g1表示句子级自注意力特征向量v s 的权重矩阵;W g2表示词级自注意特征向量v w 的权重矩阵;p表示句子的方面类别概率;W c b c 表示第二全连接层的学习参数。
进一步地,所述方法还包括通过目标函数L1对方面类别的预测结果进行优化:
Figure 663076DEST_PATH_IMAGE011
式中,N表示用于进行优化的小批量数据集mini-batch的大小,y i m 表示小批量数据集mini-batch中句子的真实方面类别标签;p i m 表示小批量数据集mini-batch中句子的预测方面类别标签。
第二方面,本发明提供了一种基于门机制的多级注意力模型的评论方面检测系统,,包括:
获取模块,用于获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵;
句子编码模块,用于通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码;
句子级自注意分析模块,用于根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
词级自注意分析模块,计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w ;实现方式为:
Figure 201504DEST_PATH_IMAGE001
Figure 196005DEST_PATH_IMAGE002
Figure 871225DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数;
句子方面类别分析模块,用于对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
本发明能够实现的有益效果是:本发明先将待处理的句子转换为嵌入词形式的词向量矩阵;其次,使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态,并根据该隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码;再次,根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵;然后,计算各个时间步相对于最后一个时间步的权重a t ,并根据该权重a t 和隐藏状态h t 计算得到对应的词级自注意特征向量v w ;最后,对句子级自注意特征矩阵M进行拉伸操作并通过一个全连接层得到句子级自注意力特征向量v s ,根据该句子级自注意力特征向量v s 和词级自注意特征向量v w 再结合门机制计算得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。通过上述过程中的句子级自注意力特征向量v s 和词级自注意特征向量v w 联合进行评论方面类别检测,提高了评论方面类别检测结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测方法的总体流程示意图;
图2为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测系统的拓扑结构示意图。
图标:10-方面类别检测系统;100-获取模块;200-句子编码模块;300-句子级自注意分析模块;400-词级自注意分析模块;500-句子方面类别分析模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测方法的总体流程示意图。
在一种实施方式中,本发明实施例提供了一种基于门机制的多级注意力模型的评论方面检测,其具体内容如下所述。
S1.获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵。
具体地,句子由嵌入词的形式组成的词向量矩阵可以表示为:
Figure 572464DEST_PATH_IMAGE012
其中,x t 表示句子中的第t个嵌入词;矩阵S为实数矩阵,且S∈Rn×dn表示嵌入词的总数,d为嵌入词的向量维度,R表示实数。
S2.通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码。
在一种实施方式中,S2具体包括以下步骤:
S21.通过双向LSTM神经网络对各个词向量进行处理得到每个时间步的隐藏状态
Figure 672007DEST_PATH_IMAGE004
Figure 153804DEST_PATH_IMAGE005
t表示第t个时间步,具体处理方式如下:
Figure 239572DEST_PATH_IMAGE013
Figure 857635DEST_PATH_IMAGE014
S22. 将每个时间步的隐藏状态
Figure 128080DEST_PATH_IMAGE004
Figure 831593DEST_PATH_IMAGE005
进行拼接,获得每个时间步的隐藏状态h t
在一种实施方式中,可以将
Figure 455473DEST_PATH_IMAGE004
Figure 521518DEST_PATH_IMAGE005
连接起来,以获得一个长度为2u的第t个时间步长的隐藏状态h t
Figure 634967DEST_PATH_IMAGE015
S23. 将所有时间步的隐藏状态h t 进行整合,得到整个句子的隐藏状态向量矩阵H
在一种实施方式中,可以将各个隐藏状态h t 整合为一个n×2u的隐藏状态向量矩阵H
Figure 763460DEST_PATH_IMAGE016
S3.根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
在一种实施方式中,S3的实现方式为:
Figure 253347DEST_PATH_IMAGE006
M=AH
上式中,Softmax表示Softmax函数;tanh表示双曲正切函数;W a1是大小为d×2u的权重矩阵;W a2是大小为r×d的权重矩阵;d表示矩阵维度;H T 表示隐藏状态向量矩阵H的转置矩阵;句子级自注意力权重矩阵A是一个大小为r×n的矩阵;句子级自注意特征矩阵M∈Rr ×2u ru表示超参数,R表示实数矩阵;n表示每个句子中嵌入词的总数。
S4. 计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w
在一种实施方式中,S4的实现方式为:
Figure 173899DEST_PATH_IMAGE001
Figure 661512DEST_PATH_IMAGE002
Figure 339618DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数。
S5. 对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
在一种实施方式中,所述S5的实现方式为:
Figure 429934DEST_PATH_IMAGE007
Figure 877096DEST_PATH_IMAGE008
Figure 535610DEST_PATH_IMAGE009
Figure 28908DEST_PATH_IMAGE010
上式中,flatten(.)表示拉伸操作函数;W f b f 表示第一全连接层的学习参数;G表示门函数,用于计算两个向量v s , v w 按照何等比例融合;W g1表示句子级自注意力特征向量v s 的权重矩阵;W g2表示词级自注意特征向量v w 的权重矩阵;p表示句子的方面类别概率;W c b c 表示第二全连接层的学习参数。
在上述实现过程中,先将待处理的句子转换为嵌入词形式的词向量矩阵;其次,使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态,并根据该隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码;再次,根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵;然后,计算各个时间步相对于最后一个时间步的权重a t ,并根据该权重a t 和隐藏状态h t 计算得到对应的词级自注意特征向量v w ;最后,对句子级自注意特征矩阵M进行拉伸操作并通过一个全连接层得到句子级自注意力特征向量v s ,根据该句子级自注意力特征向量v s 和词级自注意特征向量v w 再结合门机制计算得到最终表示向量表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。通过上述过程中的句子级自注意力特征向量v s 和词级自注意特征向量v w 联合进行评论方面类别检测,提高了评论方面类别检测结果的准确性。
在上述方法的基础之上,本发明提供的方面类别检测方法还包括:
通过目标函数L1对方面类别的预测结果进行优化:
Figure 860598DEST_PATH_IMAGE011
式中,N表示用于进行优化的小批量数据集mini-batch的大小,y i m 表示小批量数据集mini-batch中句子的真实方面类别标签;p i m 表示小批量数据集mini-batch中句子的预测方面类别标签。
通过上述实施方式,可以进一步提高预测结果的准确性。
请参看图2,图2为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测系统的拓扑结构示意图。
在一种实施方式中,本发明实施例还提供了一种基于门机制的多级注意力模型的评论方面检测系统10,包括:
获取模块100,用于获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵;
句子编码模块200,用于通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码;
句子级自注意分析模块300,用于根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
词级自注意分析模块400,用于计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w ;实现方式为:
Figure 99950DEST_PATH_IMAGE001
Figure 991682DEST_PATH_IMAGE002
Figure 706697DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数。
句子方面类别分析模块500,对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
在一种实施方式中,本发明实施例还可以提供一种电子设备,该电子设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序以实现上述的方法步骤。
综上所述,本发明实施例提供一种基于门机制的多级注意力模型的评论方面检测方法及系统,通过上述过程中的句子级自注意力特征向量v s 和词级自注意特征向量v w 再结合门机制计算得到最终表示向量进行评论方面类别检测,提高了评论方面类别检测结果的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于门机制的多级注意力模型的评论方面检测方法,其特征在于,包括:
S1.获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵;
S2.通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码;
S3.根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
S4. 计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w ;实现方式为:
Figure 628729DEST_PATH_IMAGE001
Figure 236428DEST_PATH_IMAGE002
Figure 147752DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数;
S5. 对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
2.根据权利要求1所述的方法,其特征在于,所述S2包括:
S21.通过双向LSTM神经网络对各个词向量进行处理得到每个时间步的隐藏状态
Figure 663047DEST_PATH_IMAGE004
Figure 117162DEST_PATH_IMAGE005
t表示第t个时间步;
S22. 将每个时间步的隐藏状态
Figure 754817DEST_PATH_IMAGE004
Figure 91121DEST_PATH_IMAGE005
进行拼接,获得每个时间步的隐藏状态h t
S23. 将所有时间步的隐藏状态h t 进行整合,得到整个句子的隐藏状态向量矩阵H
3.根据权利要求1所述的方法,其特征在于,所述S3的实现方式为:
Figure 347790DEST_PATH_IMAGE006
M=AH
上式中,Softmax表示Softmax函数;tanh表示双曲正切函数;W a1是大小为d×2u的权重矩阵;W a2是大小为r×d的权重矩阵;d表示矩阵维度;H T 表示隐藏状态向量矩阵H的转置矩阵;句子级自注意力权重矩阵A是一个大小为r×n的矩阵;句子级自注意特征矩阵M∈Rr×2u ru表示超参数,R表示实数矩阵;n表示每个句子中嵌入词的总数。
4.根据权利要求1所述的方法,其特征在于,所述S5的实现方式为:
Figure 453149DEST_PATH_IMAGE007
Figure 261705DEST_PATH_IMAGE008
Figure 22987DEST_PATH_IMAGE009
Figure 145664DEST_PATH_IMAGE010
上式中,flatten(.)表示拉伸操作函数;W f b f 表示第一全连接层的学习参数;G表示门函数,用于计算两个向量v s , v w 按照何等比例融合;W g1表示句子级自注意力特征向量v s 的权重矩阵;W g2表示词级自注意特征向量v w 的权重矩阵;p表示句子的方面类别概率;W c b c 表示第二全连接层的学习参数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括通过目标函数L1对方面类别的预测结果进行优化:
Figure 170777DEST_PATH_IMAGE011
式中,N表示用于进行优化的小批量数据集mini-batch的大小,y i m 表示小批量数据集mini-batch中句子的真实方面类别标签;p i m 表示小批量数据集mini-batch中句子的预测方面类别标签。
6.一种基于门机制的多级注意力模型的评论方面检测系统,其特征在于,包括:
获取模块,用于获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵;
句子编码模块,用于通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态h t ,并根据每个时间步的隐藏状态h t 得到整个句子的隐藏状态向量矩阵H作为该句子的编码;
句子级自注意分析模块,用于根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布,得到对应的句子级自注意力权重矩阵A,并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M
词级自注意分析模块,用于计算各个时间步相对于最后一个时间步的权重a t ,并根据所述权重a t 和所述隐藏状态h t 计算得到对应的词级自注意特征向量v w ;实现方式为:
Figure 87917DEST_PATH_IMAGE001
Figure 602075DEST_PATH_IMAGE002
Figure 325180DEST_PATH_IMAGE003
上式中,n表示每个句子中嵌入词的总数;h t 表示句子中第t个时间步的隐藏状态;h l 表示句子中最后一个时间步的隐藏状态;W a3表示句子中第t个时间步的权重映射矩阵;W a4表示句子中最后一个时间步的权重映射矩阵;score(.)表示权重评分函数;
句子方面类别分析模块,用于对所述句子级自注意特征矩阵M进行拉伸操作,然后送入第一全连接层得到句子级自注意力特征向量v s ;根据所述词级自注意特征向量v w 和所述句子级自注意力特征向量v s 将两个向量通过门机制融合后得到最终表示向量z,并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率,确定句子的方面类别。
CN202110669829.0A 2021-06-17 2021-06-17 基于门机制的多级注意力模型的评论方面检测方法及系统 Active CN113254592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110669829.0A CN113254592B (zh) 2021-06-17 2021-06-17 基于门机制的多级注意力模型的评论方面检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110669829.0A CN113254592B (zh) 2021-06-17 2021-06-17 基于门机制的多级注意力模型的评论方面检测方法及系统

Publications (2)

Publication Number Publication Date
CN113254592A CN113254592A (zh) 2021-08-13
CN113254592B true CN113254592B (zh) 2021-10-22

Family

ID=77188324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110669829.0A Active CN113254592B (zh) 2021-06-17 2021-06-17 基于门机制的多级注意力模型的评论方面检测方法及系统

Country Status (1)

Country Link
CN (1) CN113254592B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641798B (zh) * 2021-10-12 2022-02-08 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统
CN113792148B (zh) * 2021-11-15 2022-02-11 成都晓多科技有限公司 一种基于序列到序列的评论方面类别检测方法及系统
CN115329775B (zh) * 2022-10-14 2023-03-24 成都晓多科技有限公司 一种语句中方面类别及情感极性联合识别的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101584A (zh) * 2018-07-23 2018-12-28 湖南大学 一种将深度学习与数学分析相结合的句子分类改进方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110347831A (zh) * 2019-06-28 2019-10-18 西安理工大学 基于自注意力机制的情感分类方法
CN110765240A (zh) * 2019-10-31 2020-02-07 中国科学技术大学 多相关句子对的语义匹配评估方法
CN111813895A (zh) * 2020-08-07 2020-10-23 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817650B2 (en) * 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
CN109034378B (zh) * 2018-09-04 2023-03-31 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN110069778B (zh) * 2019-04-18 2023-06-02 东华大学 中文融入嵌入词位置感知的商品情感分析方法
CN111985205A (zh) * 2020-08-05 2020-11-24 重庆大学 一种方面级情感分类模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101584A (zh) * 2018-07-23 2018-12-28 湖南大学 一种将深度学习与数学分析相结合的句子分类改进方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110347831A (zh) * 2019-06-28 2019-10-18 西安理工大学 基于自注意力机制的情感分类方法
CN110765240A (zh) * 2019-10-31 2020-02-07 中国科学技术大学 多相关句子对的语义匹配评估方法
CN111813895A (zh) * 2020-08-07 2020-10-23 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Self-Attention-Based BiLSTM Model for Short Text Fine-Grained Sentiment Classification";Jun Xie 等;《https://ieeexplore.ieee.org/document/8922599》;20191204;180558-180570 *
"Text classification based on LSTM and attention";Xuemei Bai 等;《2018 Thirteenth International Conference on Digital Information Management (ICDIM)》;20190926;30-32 *
"基于层次模型和注意力机制的文本分类算法";武高博 等;《中文信息学报》;20201115(第11期);84-96 *
"基于文本挖掘的生物事件抽取关键问题研究";何馨宇;《中国优秀博士学位论文全文数据库 信息科技辑》;20200115;I138-156 *
"基于深度文本特征表示的文本分类和命名实体识别方法研究";余柳红;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);I138-2827 *
"面向细分领域的舆情情感分析关键技术研究";杜昌顺;《中国优秀博士学位论文全文数据库 信息科技辑》;20200115(第01期);I138-173 *

Also Published As

Publication number Publication date
CN113254592A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254592B (zh) 基于门机制的多级注意力模型的评论方面检测方法及系统
TWI612488B (zh) 用於預測商品的市場需求的計算機裝置與方法
CN111506714A (zh) 基于知识图嵌入的问题回答
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN110647620B (zh) 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN111881671B (zh) 一种属性词提取方法
CN111222330B (zh) 一种中文事件的检测方法和系统
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN113779179B (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
KR20220076419A (ko) 딥러닝 기반 의미역 분석을 활용하는 방법
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
Vandic et al. A Framework for Product Description Classification in E-commerce.
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN113792148B (zh) 一种基于序列到序列的评论方面类别检测方法及系统
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN112036189A (zh) 一种金文语义识别方法和系统
CN116151258A (zh) 文本消岐方法、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant