评论文本处理方法、装置、存储介质和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种评论文本处理方法、装置、存储介质和计算机设备。
背景技术
随着计算机技术和互联网技术的发展,越来越多的用户习惯通过网络获取内容。比如通过网络观看视频、浏览新闻或者文章等。这些内容的评论可以侧面反映内容的质量,从而很大程度上影响了其他用户是否会浏览这些内容。
现有技术中通常是工作人员人工查看评论得到评论对于内容的情感极性,然而,这种方式不仅耗费大量的人力而且对于情感极性的主观理解不一,导致评论处理的准确率较低。
发明内容
基于此,有必要针对目前评论处理准确率较低的技术问题,提供一种评论文本处理方法、装置、存储介质和计算机设备。
一种评论文本处理方法,包括:
获取目标内容所对应的评论文本;
对所述评论文本进行分词,得到所述评论文本所对应的词序列;
根据所述词序列及所述词序列中包括的情感关键词,得到所述评论文本所对应的情感特征;
根据所述词序列及所述词序列中包括的噪声关键词,得到所述评论文本所对应的质量特征;
结合所述情感特征和所述质量特征,得到所述评论文本对于所述目标内容的情感极性。
一种评论文本处理装置,包括:
评论获取模块,用于获取目标内容所对应的评论文本;
分词模块,用于对所述评论文本进行分词,得到所述评论文本所对应的词序列;
特征获取模块,用于根据所述词序列及所述词序列中的情感词,得到所述评论文本的情感特征;根据所述词序列及所述词序列中的噪声词,得到所述评论文本的质量特征;
处理模块,用于结合所述情感特征和所述质量特征,确定所述评论文本对于所述目标内容的情感极性。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述评论文本处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述评论文本处理方法的步骤。
上述评论文本处理方法、装置、计算机可读存储介质和计算机设备,在获取到目标内容的评论文本后,即对该评论文本进行分词,得到该评论文本所对应的词序列。此后,一方面基于词序列及词序列中的情感词,提取评论文本的情感特征;另一方面基于词序列及词序列中的噪声词,提取评论文本的质量特征;再结合这两种特征得到评论文本对于目标内容的情感极性。这样,既考虑了评论所反映的真实情感又兼顾了评论自身的质量,不仅能够有效避免噪声评论的干扰,还能够有效减少误判,极大地提高了评论文本处理的准确性,进而得到更加准确的评论文本对于目标内容的情感极性。
附图说明
图1为一个实施例中评论文本处理方法的应用环境图;
图2为一个实施例中评论文本处理方法的流程示意图;
图3为一个实施例中展示内容的界面示意图;
图4为一个实施例中展示评论文本的界面示意图;
图5为一个实施例中评论文本处理方法的原理流程示意图;
图6为一个实施例中多头注意力网络的结构示意图;
图7为一个实施例中展示赞同数量的界面示意图;
图8为一个实施例中评论文本处理装置的结构框图;
图9为另一个实施例中评论文本处理装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中评论文本处理方法的应用环境图。参照图1,该评论文本处理方法应用于评论文本处理系统。该评论文本处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,终端110或者服务器120均可用于单独执行本申请实施例中提供的评论文本处理方法。
需要说明的是,本申请实施例是用于对应目标内容处理该目标内容的评论文本,得到评论文本对于目标内容的情感极性,也就是发表评论文本的用户对于目标内容的情感极性。这里的情感极性可以包括正面情感和负面情感。当然,在一些实施例中,情感极性还包括中性情感。当然,本申请的一些实施例中,也可以将情感极性分类任务替换为情感极性回归任务,预测用户对目标内容的赞同率,即点赞率。
具体地,在本申请实施例中,计算机设备(如图1中所示的终端110或者服务器120)获取目标内容所对应的评论文本;对评论文本进行分词,得到评论文本所对应的词序列;根据词序列及词序列中的情感词,得到评论文本的情感特征;根据词序列及词序列中的噪声词,得到评论文本的质量特征;结合情感特征和质量特征,确定评论文本对于目标内容的情感极性。也就是说,本申请一方面考虑了评论所反映出的用户情感,另一方面还考虑了评论自身的质量,再结合这两个方面的特征综合给出用户通过评论所表达的对内容的情感极性。
在一些实施例中,计算机设备还可以根据词序列得到评论文本的语义特征;结合语义特征、情感特征和质量特征,确定评论文本对于目标内容的情感极性。也就是说,本申请还考虑了评论自身的语义,计算机设备结合这三个方面的特征综合给出用户通过评论所表达的对内容的情感倾向更加准确。
在一些实施例中,计算机设备可以通过分层结构的网络实现本申请实施例中提供的评论文本处理方法的步骤。具体地,计算机设备可采用第一层网络进行词级层面的数据处理,即向量化评论文本的词序列中的词,每个词得到一个词向量,这次词向量组成评论文本对应的词向量序列(即评论向量)。此后,计算机设备可采用基于注意力机制的网络(注意力网络)进行句级层面的数据处理,即根据评论向量或者还根据评论向量中的情感词向量或噪声词向量得到语义特征向量、情感特征向量以及质量特征向量;也就是一条评论分别对应一个语义特征向量、一个情感特征向量以及一个质量特征向量。
其中,第一层网络可以通过双向门控循环单元(Bi-GRU)或基于Transformer的双向编码器表征(BERT)等实现。第二层网络可以通过Multi-Head Attention(多头注意力)或者基于Multi-Head Attention的Co-Attention(双向协同注意力)等实现。本申请实施例中涉及的网络可同通过有监督地联合训练得到。
本申请实施例中,在得到评论文本对于目标内容的情感极性后,可基于该情感极性决定推送目标内容或者过滤掉目标内容。比如,对于情感极性为正面情感的目标内容,可优先推送。对于情感极性为负面情感的目标内容,可靠后推送或者不予推送。
如图2所示,在一个实施例中,提供了一种评论文本处理方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2,该评论文本处理方法具体包括如下步骤:
S202,获取目标内容所对应的评论文本。
其中,目标内容是作为目标对其评论文本进行处理的内容。这里的内容具体可以是文章、视频、新闻、推广信息、应用程序或者商品等。
举例说明,假设目标内容是应用程序推送给用户的文章。如图3所示,该图左图中展示了应用程序的内容查看入口,通过该内容查看入口进入该图右图所示的内容展示页面。该内容展示页面中展示有应用程序推送给用户的文章。
评论文本是内容被推荐给用户后,用户对该内容进行的主观或者客观的阐述。评论文本包括反映用户对内容情感的评论以及噪声评论。反映用户对内容情感的评论可以是正面情感评论、中性情感评论或者负面情感评论。噪声评论比如水军评论、广告评论或者跟风评论等。
举例说明,假设目标内容是应用程序推送给用户的文章。如图4所示,该图示出了文章底部的用户评论区,该用户评论区中展示了用户对于该文章发布的评论。例如,用户的评论可以包括两类:反映用户对内容情感的评论(用户对文章或作者写作水平的评论和用户的其他观点)以及噪声评论(也可以称为低质评论)。用户对文章或作者水平的评论,如,“小编写的好”或者“这篇文章非常精彩”等对文章的正面评论,再如“写的不知所云”或者“小编写的烂”等对文章的负面评论。用户的其他观点是对文章具体写作内容的一种延伸讨论,属于一种中性情感。噪声评论,包括质量较低的评论,如“求转发”或者“求优惠券”等。
可以理解,计算机设备上可存储有内容库。该内容库中包括若干内容。该内容库的内容被推送给用户后,会产生用户对内容的评论文本。计算机设备可或者这些内容的评论文本,继而可以获取到目标内容所对应的评论文本。
例如,计算机设备可从日志中获取内容的评论文本。比如,文章推送应用程序在推送文章后会产生日志,计算机设备可从该日志中获取文章的评论文本。
在一个具体的实施例中,计算机设备在需要进行内容推送时,可获取待推送的内容作为目标内容,继而获取该目标内容所对应的评论文本。
S204,对评论文本进行分词,得到评论文本所对应的词序列。
其中,分词是指将一个连续的字符序列切分成多个单独的字符或者字符序列。具体地,计算机设备可采用预设的分词方式对评论文本进行分词处理,得到多个字符或者字符序列,从得到评论文本所对应的词序列。其中,词序列可以包括一个或者多于一个词。预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式等。
在一个具体的实施例中,计算机设备可以对评论文本进行预处理后,在对预处理后的评论文本进行分词。预处理包括特殊符号处理、英文大小写转换以及繁简字统一等。
举例说明,如图5所示,目标内容为一篇文章,该文章有n个评论文本:
,以其中一个评论文本
为例,计算机设备对评论文本
进行分词,得到评论文本
所对应的词序列为
。
S206,根据词序列及词序列中的情感词,得到评论文本的情感特征。
其中,情感词是反映情感或者情感对象的词。反映情感的词比如“优秀”、“棒”、“差”或者“烂”等。反映情感对象的词比如“小编”或者“文章”等。情感特征是反映情感的特征数据。
具体地,计算机设备可通过网络模型基于评论文本的词序列及评论文本中的情感词,处理得到评论文本的情感特征。其中,网络模型可以是基于注意力(Attention)机制的网络模型。该网络模型被训练得具有根据词序列及词序列中的情感词提取情感特征的能力。网络模型的训练过程可参考后续实施例的描述。
S208,根据词序列及词序列中的噪声词,得到评论文本的质量特征。
其中,噪声词是体现评论文本质量低下的词。比如“求转发”、“求赞”或者“优惠券”等。质量特征是反映评论文本质量的特征数据。噪声词也可称为低质关键词或者低质评论模式等。
具体地,计算机设备可通过网络模型基于评论文本的词序列及评论文本中的噪声词,处理得到评论文本的质量特征。其中,网络模型可以是基于注意力(Attention)机制的网络模型。该网络模型被训练得具有根据词序列及词序列中的噪声词提取质量特征的能力。网络模型的训练过程可参考后续实施例的描述。
S210,结合情感特征和质量特征,确定评论文本对于目标内容的情感极性。
其中,情感极性是主体对客体主观存在的一种情感倾向。情感极性是主体对客体主观存在的喜恶的体现。情感极性包括正面情感和负面情感。在另外的实施例中,情感极性还包括中性情感。
举例说明,假设内容为文章。用户对文章或作者水平的评论,如,“小编写的好”或者“这篇文章非常精彩”等是用户对文章的正面评论,也就是说用户对文章的情感极性是正面情感。再如“写的不知所云”或者“小编写的烂”等是用户对文章的负面评论,也就是说用户对文章的情感极性时负面情感。
具体地,计算机设备可将情感特征和质量特征分别与各情感极性所对应特征模板进行比对,计算情感特征和各情感极性所对应特征模板的差异度或者相似度,以及情感特征和各情感极性所对应特征模板的差异度或者相似度,然后在各情感极性中确定与情感特征和质量特征的差异度或者相似度共同满足匹配条件的情感极性。其中,匹配条件具体可以是差异度低于或者不超过预设差异度阈值,或者,相似度高于或者达到预设相似度阈值等。
在一个实施例中,计算机设备也可先融合情感特征和质量特征得到目标特征,再根据目标特征确定评论文本对于目标内容的情感极性。其中,目标特征是兼顾了评论文本所反映情感和评论文本自身质量的特征数据。这里的融合具体可以是组合、拼接或者按权重加和等。
在一个实施例中,计算机设备还可采用分类网络对目标特征进行分类,得到评论文本对于目标内容的情感极性。
上述评论文本处理方法,在获取到目标内容的评论文本后,即对该评论文本进行分词,得到该评论文本所对应的词序列。此后,一方面基于词序列及词序列中的情感词,提取评论文本的情感特征;另一方面基于词序列及词序列中的噪声词,提取评论文本的质量特征;再结合这两种特征得到评论文本对于目标内容的情感极性。这样,既考虑了评论所反映的真实情感又兼顾了评论自身的质量,不仅能够有效避免噪声评论的干扰,还能够有效减少误判,极大地提高了评论文本处理的准确性,进而得到更加准确的评论文本对于目标内容的情感极性。
在一个实施例中,该评论文本处理方法还包括:根据词序列得到评论文本的语义特征。结合情感特征和质量特征,确定评论文本对于目标内容的情感极性,包括:结合语义特征、情感特征和质量特征,确定评论文本对于目标内容的情感极性。
其中,语义特征是反映评论文本所表达语义的特征数据。具体地,计算机设备可通过网络模型基于评论文本的词序列处理得到评论文本的语义特征。其中,网络模型可以是基于注意力(Attention)机制的网络模型。该网络模型被训练得具有根据词序列提取语义特征的能力。网络模型的训练过程可参考后续实施例的描述。
进一步地,计算机设备可将语义特征、情感特征和质量特征分别与各情感极性所对应特征模板进行比对,计算语义特征和各情感极性所对应特征模板的差异度或者相似度,情感特征和各情感极性所对应特征模板的差异度或者相似度,以及情感特征和各情感极性所对应特征模板的差异度或者相似度,然后在各情感极性中确定与语义特征、情感特征和质量特征的差异度或者相似度共同满足匹配条件的情感极性。其中,匹配条件具体可以是差异度低于或者不超过预设差异度阈值,或者,相似度高于或者达到预设相似度阈值等。
在一个具体的实施例中,计算机设备也可先融合语义特征、情感特征和质量特征得到目标特征,再根据目标特征确定评论文本对于目标内容的情感极性。其中,目标特征是基于评论所表达的语义兼顾了评论文本所反映情感和评论文本自身质量的特征数据。这里的融合具体可以是组合、拼接或者按权重加和等。
在一个具体的实施例中,计算机设备还可采用分类网络对目标特征进行分类,得到评论文本对于目标内容的情感极性。
上述实施例中,在对评论文本进行处理时,增加考虑了第三方面的特征,即评论文本的语义特征。这样,能够基于评论的语义特征,也就是在评论本身真实蕴含意义的基础上,既结合评论所反映的真实情感又兼顾评论自身的质量,不仅能够有效避免噪声评论的干扰,还能够有效减少误判,极大地提高了评论文本处理的准确性和可信度,进而得到更加准确可靠的评论文本对于目标内容的情感极性。
在一个实施例中,评论文本的数量多于一个;每个评论文本对应一个词序列;根据词序列得到评论文本的语义特征,包括:根据多于一个词序列,得到多于一个评论文本共同对应的语义特征。根据词序列及词序列中的情感词,得到评论文本的情感特征,包括:根据多于一个词序列及多于一个词序列中的情感词,得到多于一个评论文本共同对应的情感特征。根据词序列及词序列中的噪声词,得到评论文本的质量特征,包括:根据多于一个词序列及多于一个词序列中的噪声词,得到多于一个评论文本共同对应的质量特征。
可以理解,一个内容可以有多于一个的评论文本。每个评论文本对应一个词序列。为了得到内容下的这些评论文本对内容的整体情感极性,计算机设备可根据这多于一个词序列得到这些评论文本共同对应的语义特征,根据多于一个词序列及多于一个词序列中的情感词,得到这些评论文本共同对应的情感特征;并根据多于一个词序列及多于一个词序列中的噪声词,得到这些评论文本共同对应的质量特征,从而根据这些评论文本共同对应的语义特征、情感特征和质量特征得到这些评论文本对于目标内容的整体情感极性。
可以理解,在现有技术中,对评论文本进行处理时,通常是对单个的评论文本单独进行处理,也就是分别评估单条评论的情感极性,然后通过投票的方式或者其他方式简单汇聚单条评论的情感结果,显然这种处理方式缺乏对评论的整体分析和把控,通常无法得到较为准确的大量评论整体对于目标内容的情感极性。而在本实施例中,巧妙地基于大量评论进行整体建模,生成这些评论共同对应的总的语义特征、总的情感特征和总的质量特征,然后基于这些总的特征进行分析,能够对整体评论的情感进行有效地分析和把控,从而使得分析结果更加准确可靠。
在一个实施例中,结合语义特征、情感特征和质量特征,确定评论文本对于目标内容的情感极性,包括:将语义特征融入情感特征,得到语义感知的情感特征;基于情感特征进行自融合,得到自感知的情感特征;将质量特征融入情感特征,得到质量感知的情感特征;根据语义感知的情感特征、自感知的情感特征和质量感知的情感特征,得到评论文本对于目标内容的情感极性。
具体地,计算机设备在获取到语义特征、情感特征和质量特征后,由于最终目的是意图获得评论文本对于目标内容的情感极性,那么计算机设备可以将语义特征、情感特征和质量特征分别与情感特征进行融合,得到富有其他方面信息的情感特征。即,计算机设备可将语义特征融入情感特征,得到语义感知的情感特征;基于情感特征进行自融合,得到自感知的情感特征;以及,将质量特征融入情感特征,得到质量感知的情感特征。这样,计算机设备将从不同方面提取到的特征融入到情感特征中,使得情感特征中能够包含更多的有用信息,进而可以基于这样的情感特征进行分析,得到评论文本对于目标内容的情感极性。其中,计算机设备可以基于机器学习模型进行特征之间的融合。比如,可以基于注意力机制的注意力网络进行特征之间的融合。
可以理解,在现有技术中,在基于多个特征进行分析时,通常是直接将这些特征进行拼接,然后基于拼接结果进行处理。而在本申请实施例中,在得到语义特征、情感特征和质量特征后,创造性地增加了将从不同特征层面提取到的特征分别融入到情感特征中的操作,这样可以让情感特征能够融合到其他特征层面的特征信息,进而在基于融合后的情感特征进行分析时,能够基于更多更有用的信息得到更加准确可靠的分析结果。比如,具体可以基于注意力模型将从不同特征层面提取到的特征分别融入到情感特征中,这样巧妙地利用注意力机制可以有选择地专注关注特定信息的能力,可以在特征融合时,让情感特征能够有效地融合到其他特征层面更有用的特征信息。
在一个实施例中,该评论文本处理方法还包括:向量化词序列包括的词,得到评论文本对应的评论向量。根据词序列得到评论文本的语义特征,包括:根据评论向量得到评论文本的语义特征向量。根据词序列及词序列中的情感词,得到评论文本的情感特征,包括:根据评论向量及评论向量中的情感词向量,得到评论文本的情感特征向量。根据词序列及词序列中的噪声词,得到评论文本的质量特征,包括:根据评论向量及评论向量中的噪声词向量,得到评论文本的质量特征向量。结合语义特征、情感特征和质量特征,确定评论文本对于目标内容的情感极性,包括:结合语义特征向量、情感特征向量和质量特征向量,确定评论文本对于目标内容的情感极性。
其中,向量化是指将其他形式的数据以数学形式进行表达。比如,文本形式的“XXX”表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”,此时,“[0 0 0 1 0 0 0 0 0 00...]”即为对“XXX”进行向量化的结果,即为“XXX”的向量。可以理解,这里不限定将其他形式的数据转换为何种表示的向量,只要能够将其他形式的数据进行数学化表示即可。比如,计算机设备可采用双向门控循环单元(Bi-GRU)或基于Transformer的双向编码器表征(BERT)对分得的各词进行编码。
举例说明,参考图5,在一个具体的实施例中,假设目标内容有n条评论:
。计算机设备可将n个评论文本的分词结果(其中一个评论文本
的分词结果为
)均输入编码器(Bi-GRU),得到n个词向量序列
。评论文本
对应的词向量序列
。这n个词向量序列共同组成目标内容的评论向量(或者评论矩阵)
。需要说明的是,从评论文本的各词到评论向量的过程可以认为是词嵌入阶段,目的是捕获词语特征,将评论文本转换为网络模型可处理的数字语言。
在一个实施例中,根据评论向量得到评论文本的语义特征向量,包括:通过多于一个注意力网络分别对评论向量进行处理,得到多于一个子空间下的语义特征子向量;每个子空间对应一个语义特征子向量;根据拼接语义特征子向量的结果,确定评论文本的语义特征向量。
其中,注意力网络是基于注意力机制(Attention Mechanism)的网络模型。注意力机制是基于编码器与解码器的隐藏状态之间的依赖关系建立模型的方式。
多于一个注意力网络分别用来捕获不同表示空间的特征数据。每个注意力网络处理数据后均会得到一个表示空间下的特征数据。
具体地,计算机设备可将评论向量分别输入多于一个注意力网络,各注意力网络分别对评论向量进行运算,得到多于一个子空间下的语义特征子向量。可以理解,不同的注意力网络的参数不同,使得在各个子空间分别获得不同的特征向量,进而在不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的语义特征子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到语义特征向量。
举例说明,继续参考图5,计算机设备可采用Multi-Head Attention(多头注意力)网络对评论向量
进行处理,得到评论文本的语义特征向量
。
在一个具体的实施例中,Multi-Head Attention的运算过程可表示为:
其中,
为一个注意力网络(Attention)的运算过程,该运算过程具体如下:
其中,
为键向量(序列):Key,
为请求向量(序列):Query,
为值向量(序列):Value,
为键向量(序列)和请求向量(序列)之间的逻辑相似度,
为注意力权重分布,
、
和
为可学习的网络参数。
在一个具体的实施例中,计算机设备可计算每个子空间中的请求向量(序列)和键向量(序列)之间的逻辑相似度,根据逻辑相似度计算得到各子空间对应的注意力权重分布,再根据注意力权重分布和值向量(序列)计算得到各子空间对应的输出向量。可以理解,这里计算机设备将评论向量分别作为请求向量、键向量和值向量。评论向量为评论文本所对应词序列向量化的结果,也是一个序列,所以这里请求向量、键向量和值向量也是序列。
如图6所示,图6为一个实施例中Multi-Head Attention(多头注意力)网络的结构示意图。参照图6,对于每一层来说,输入是相同的,经过多个注意力网络(也称多个头,如h个)各自的网络参数分别对子输入进行相同的变换,得到每个注意力网络的输出,最后将这多个输出拼接后进行线性变化作为最终的输出。
其中,注意力网络处理评论向量时,将评论向量分别作为键向量(K)、请求向量(Q)和值向量(X)进行运算,即基于评论向量自身进行运算,可以认为是基于自关注(Self-Attention)机制的运算。
在本实施例中,通过多于一个注意力网络分别对评论向量进行处理,在多个子空间分别关注不同的局部信息,提高了语义特征向量的准确性。
在一个实施例中,根据评论向量及评论向量中的情感词向量,得到评论文本的情感特征向量,包括:通过多于一个注意力网络基于评论向量,生成评论向量的自关注注意力向量;通过多于一个注意力网络基于自关注注意力向量和情感词向量,生成情感词注意力向量;通过多于一个注意力网络根据自关注注意力向量和情感词注意力向量,生成评论文本的情感特征向量。
可以理解,在意图得到评论文本的情感特征向量时,可基于评论向量及评论向量中的情感词向量协同处理。那么,在利用注意力机制处理评论向量及评论向量中的情感词向量时,由于存在评论向量和情感词向量两种角色,可以采用双向注意力网络进行处理。这里可以将情感词向量作为键向量(K)将评论向量作为请求向量(Q),先基于K产生Q的Attention(注意力权重分布),将Q按照该Attention进行加权求和运算得到新的Q;然后基于新Q去产生K的Attention,将K按照该Attention进行加权求和运算得到新的K,再基于新的K和新的Q得到目标结果(情感特征向量)。其中,两次交替生成Attention,可以更好地去捕捉评论文本中与情感特征相关的信息。
在一个实施例中,通过多于一个注意力网络基于评论向量,生成评论向量的自关注注意力向量,包括:将评论向量分别作为键向量、请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的自关注注意力子向量;每个子空间对应一个自关注注意力子向量;根据拼接自关注注意力子向量的结果,确定评论向量的自关注注意力向量。
具体地,计算机设备可在利用注意力网络对评论向量进行处理时,可将评论向量分别作为键向量、请求向量和值向量。各注意力网络再分别基于此种设定下的键向量、请求向量和值向量进行运算,得到多于一个子空间下的自关注注意力子向量。可以理解,不同的注意力网络的参数不同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的自关注注意力子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到自关注注意力向量。
在一个具体的实施例中,自关注注意力向量可通过以下公式得到:
其中,
为评论向量的自关注注意力向量,
是可以学习的网络参数,
是评论向量。
在本实施例中,基于评论向量自身进行自关注运算,可以从评论文本自身获取更多的有用信息,以便于后续的运算。
在一个实施例中,通过多于一个注意力网络基于自关注注意力向量和情感词向量,生成情感词注意力向量,包括:将自关注注意力向量作为键向量,并将情感词向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的情感词注意力子向量;每个子空间对应一个情感词注意力子向量;根据拼接情感词注意力子向量的结果,确定评论文本的情感词注意力向量。
具体地,计算机设备可在得到自关注注意力向量后,将自关注注意力向量作为键向量,并将情感词向量作为请求向量和值向量。各注意力网络再分别基于此种设定下的键向量、请求向量和值向量进行运算,得到多于一个子空间下的情感词注意力子向量。可以理解,不同的注意力网络的参数不同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的情感词注意力子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到情感词注意力向量。
在一个具体的实施例中,情感词注意力向量可通过以下公式得到:
其中,
为情感词注意力向量,
是情感词向量,
为评论向量的自关注注意力向量。
在本实施例中,基于注意力的评论向量对情感词向量进行运算,得到新的基于注意力的情感词向量,可以从评论文本获取更多的与情感特征相关的信息,以便于后续的运算。
在一个实施例中,通过多于一个注意力网络根据自关注注意力向量和情感词注意力向量,生成评论文本的情感特征向量,包括:将情感词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的情感特征子向量;每个子空间对应一个情感特征子向量;根据拼接情感特征子向量的结果,确定评论文本的情感特征向量。
具体地,计算机设备可在得到自关注注意力向量和情感词注意力向量后,将情感词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量。各注意力网络再分别基于此种设定下的键向量、请求向量和值向量进行运算,得到多于一个子空间下的情感特征子向量。可以理解,不同的注意力网络的参数不同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的情感特征子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到情感特征向量。
在一个具体的实施例中,情感特征向量可通过以下公式得到:
其中,
为情感词注意力向量,
为评论向量的自关注注意力向量,
是情感特征向量。
在本实施例中,基于注意力的评论向量和注意力的情感词向量进行运算,得到情感特征向量,可以从评论文本获取更多的有用信息,以便于后续的运算。
举例说明,继续参考图5,计算机设备可采用Co-Attention(双向协同注意力)网络对评论向量
和情感词向量
进行处理,得到情感特征向量
。需要说明的是,上述采用双向协同注意力(Co-Attention)网络进行处理的运算过程,即式(5)、式(6)和式(7)的运算过程,是多次交替多头注意力(Multi-Head Attention)运算过程。这样可以更好地去捕捉和意图提取的特征相关的信息。
上述实施例中,基于评论向量进行自关注运算,得到新的基于注意力的评论向量;然后基于注意力的评论向量和情感词向量进行运算,得到新的基于注意力的情感词向量;再基于注意力的评论向量和注意力的情感词向量进行运算,得到情感特征向量。这样,两次交替生成新的基于注意力的向量,可以从评论文本中获取更多的与情感特征有用的信息,以便于后续的运算。
在一个实施例中,根据评论向量及评论向量中的噪声词向量,得到评论文本的质量特征向量,包括:通过自关注注意力网络基于评论向量,生成评论向量的自关注注意力向量;通过多于一个注意力网络基于自关注注意力向量和噪声词向量,生成噪声词注意力向量;通过多于一个注意力网络根据自关注注意力向量和噪声词注意力向量,生成评论文本的质量特征向量。
可以理解,在意图得到评论文本的质量特征向量时,可基于评论向量及评论向量中的噪声词向量协同处理。那么,在利用注意力机制处理评论向量及评论向量中的噪声词向量时,由于存在评论向量和噪声词向量两种角色,同样可以采用双向注意力网络进行处理。这里可以将质量词向量作为键向量(Key)将评论向量作为请求向量(Query),先基于Key产生Query的Attention(注意力权重分布),得到新的Query;然后基于新Query去产生Key的Attention,得到新的Key,再基于新的Key和新的Query得到目标结果(质量特征向量)。其中,两次交替生成Attention,可以更好地去捕捉评论文本中与质量特征相关的信息。
具体地,计算机设备可将评论向量分别作为键向量、请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的自关注注意力子向量;每个子空间对应一个自关注注意力子向量;根据拼接自关注注意力子向量的结果,确定评论向量的自关注注意力向量。
在一个具体的实例中,计算机设备可按照上述式(5)计算评论向量的自关注注意力向量。
在一个实施例中,通过多于一个注意力网络基于自关注注意力向量和噪声词向量,生成噪声词注意力向量包括:将自关注注意力向量作为键向量,并将噪声词向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的噪声词注意力子向量;每个子空间对应一个噪声词注意力子向量;根据拼接噪声词注意力子向量的结果,确定评论文本的噪声词注意力向量。
具体地,计算机设备可在得到自关注注意力向量后,将自关注注意力向量作为键向量,并将噪声词向量作为请求向量和值向量。各注意力网络再分别基于此种设定下的键向量、请求向量和值向量进行运算,得到多于一个子空间下的情感词注意力子向量。可以理解,不同的注意力网络的参数不同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的噪声词注意力子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到噪声词注意力向量。
在一个具体的实施例中,自噪声词注意力向量可通过以下公式得到:
其中,
为噪声词注意力向量,
是噪声词向量,
为评论向量的自关注注意力向量。
在本实施例中,基于注意力的评论向量对噪声词向量进行运算,得到新的基于注意力的噪声词向量,可以从评论文本获取更多的与质量特征相关的信息,以便于后续的运算。
在一个实施例中,通过多于一个注意力网络根据自关注注意力向量和噪声词注意力向量,生成评论文本的质量特征向量,包括:将噪声词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的质量特征子向量;每个子空间对应一个质量特征子向量;根据拼接质量特征子向量的结果,确定评论文本的质量特征向量。
具体地,计算机设备可在得到自关注注意力向量和噪声词注意力向量后,将噪声词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量。各注意力网络再分别基于此种设定下的键向量、请求向量和值向量进行运算,得到多于一个子空间下的质量特征子向量。可以理解,不同的注意力网络的参数不同,使得各个子空间分别获得不同的特征向量,进而不同的子空间可以关注不同的局部信息。
进一步地,计算机设备可将多于一个子空间下的质量特征子向量进行拼接,再对拼接的结果进行线性运算或者非线性运算,得到质量特征向量。
在一个具体的实施例中,质量特征向量可通过以下公式得到:
其中,
为噪声词注意力向量,
为评论向量的自关注注意力向量,
是质量特征向量。
在本实施例中,基于注意力的评论向量和注意力的噪声词向量进行运算,得到质量特征向量,可以从评论文本获取更多的有用信息,以便于后续的运算。
举例说明,继续参考图5,计算机设备可采用Co-Attention(双向协同注意力)网络对评论向量
和噪声词向量
进行处理,得到质量特征向量
。需要说明的是,上述采用双向协同注意力(Co-Attention)网络进行处理的运算过程,即式(5)、式(8)和式(9)的运算过程,是多次交替多头注意力(Multi-Head Attention)运算过程。这样可以更好地去捕捉和意图提取的特征相关的信息。
需要说明的是,上述图5中,基于评论向量
、情感词向量
和噪声词向量
,得到语义特征向量
、情感特征向量
和质量特征向量
的过程是评论表示阶段。
上述实施例中,基于评论向量进行自关注运算,得到新的基于注意力的评论向量;然后基于注意力的评论向量和情感词向量进行运算,得到新的基于注意力的情感词向量;再基于注意力的评论向量和注意力的情感词向量进行运算,得到情感特征向量。这样,两次交替生成新的基于注意力的向量,可以从评论文本中获取更多的与情感特征有用的信息,以便于后续的运算。
在一个实施例中,结合语义特征向量、情感特征向量和质量特征向量,得到评论文本对于目标内容的情感极性,包括:将语义特征向量作为键向量,并将情感特征向量作为请求向量和值向量;根据键向量、请求向量和值向量,得到语义感知向量;将情感特征向量作为键向量、请求向量和值向量;根据键向量、请求向量和值向量,得到情感感知向量;将质量特征向量作为键向量,并将情感特征向量作为请求向量和值向量;根据键向量、请求向量和值向量,得到质量感知向量;根据语义感知向量、情感感知向量和质量感知向量,得到评论文本对于目标内容的情感极性。
具体地,计算机设备可在得到语义特征向量、情感特征向量和质量特征向量后,为了结合这些特征向量得到评论文本对于目标内容的情感极性,可以将语义特征向量、情感特征向量和质量特征向量分别与情感特征向量进行融合,以将语义特征、质量特征融入到情感特征中,实现情感特征向量的语义感知、情感感知和质量感知。
一方面,计算机设备可将语义特征向量作为键向量,并将情感特征向量作为请求向量和值向量;然后通过注意力网络基于该种设定下的键向量、请求向量和值向量进行运算,得到语义感知的情感特征向量,即语义感知向量。
另一方面,计算机设备可将情感特征向量分别作为键向量、请求向量和值向量;然后通过注意力网络基于该种设定下的键向量、请求向量和值向量进行运算,得到自感知的情感特征向量,即情感感知向量。
另一方面,计算机设备可将质量特征向量作为键向量,并将情感特征向量作为请求向量和值向量;然后通过注意力网络基于该种设定下的键向量、请求向量和值向量进行运算,得到质量感知的情感特征向量,即质量感知向量。
需要说明的是,这里的语义感知向量是前述实施例中“语义感知的情感特征”的向量形式,情感感知向量是前述实施例中“自感知的情感特征”的向量形式,质量感知向量是前述实施例中“质量感知的情感特征”的向量形式。
举例说明,继续参考图5,计算机设备可利用注意力网络(Attention)对语义特征向量和情感特征向量进行运算,得到语义感知向量
。其中,K为语义特征向量,Q和X为情感特征向量。计算机设备可利用注意力网络(Attention)对情感特征向量进行运算,得到情感感知向量
。其中,K、Q和X为均情感特征向量。计算机设备可利用注意力网络(Attention)对质量特征向量和情感特征向量进行运算,得到质量感知向量
。其中,K为质量特征向量,Q和X为情感特征向量。
可以理解,上述图5中从得到语义特征向量、情感特征向量和质量特征向量,到得到评论文本对于目标内容的情感极性的过程,为动态注意力融合阶段。
在本实施例中,在得到语义特征向量、情感特征向量和质量特征向量后,将语义特征向量、情感特征向量和质量特征向量分别与情感特征向量进行融合,得到富有语义感知的情感特征、自感知的情感特征以及富有质量感知的情感特征,基于这样的特征可以更加准确地确定评论文本对于目标内容的情感极性。
在一个实施例中,根据语义感知向量、情感感知向量和质量感知向量,得到评论文本对于目标内容的情感极性,包括:拼接语义感知向量、情感感知向量和质量感知向量,得到目标向量;通过分类网络层对目标向量进行分类,得到评论文本对于目标内容的情感极性。
其中,分类网络层是用于进行特征分类的网络结构。具体地,计算机设备可以拼接语义感知向量、情感感知向量和质量感知向量,得到目标向量,将目标向量输入分类网络层,通过分类网络层对目标向量进行分类,得到评论文本对于目标内容的情感极性。其中,分类层可以包括全连接层和归一化层。归一化层具体可以是Softmax层。
举例说明,继续参考图5,计算机设备在得到语义感知向量、情感感知向量和质量感知向量后,可将这三个向量进行拼接,再经过全连接层和Softmax层,输出评论文本对于目标内容的情感倾向。
上述实施例中,将评论文本转化为计算机设备可操作的数字语言,通过分层注意力网络在词级和句级上对评论文本进行处理,提取出语义特征、情感特征以及质量特征,再在特征上进行相互感知,这样可以更准确地得到评论文本对于目标内容的整体情感极性。
在一个实施例中,计算机设备也可基于注意力机制,根据情感特征和质量特征得到评论文本对于目标内容的情感极性。
具体地,计算机设备可将评论向量分别作为键向量、请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的自关注注意力子向量;每个子空间对应一个自关注注意力子向量;根据拼接自关注注意力子向量的结果,确定评论向量的自关注注意力向量。
一方面可将自关注注意力向量作为键向量,并将情感词向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的情感词注意力子向量;每个子空间对应一个情感词注意力子向量;根据拼接情感词注意力子向量的结果,确定评论文本的情感词注意力向量。将情感词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的情感特征子向量;每个子空间对应一个情感特征子向量;根据拼接情感特征子向量的结果,确定评论文本的情感特征向量。
另一方面可将自关注注意力向量作为键向量,并将噪声词向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的噪声词注意力子向量;每个子空间对应一个噪声词注意力子向量;根据拼接噪声词注意力子向量的结果,确定评论文本的噪声词注意力向量。将噪声词注意力向量作为键向量,并将自关注注意力向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的噪声特征子向量;每个子空间对应一个噪声特征子向量;根据拼接噪声特征子向量的结果,确定评论文本的噪声特征向量。
进一步地,计算机设备可一方面,将情感特征向量分别作为键向量、请求向量和值向量;然后通过注意力网络基于该种设定下的键向量、请求向量和值向量进行运算,得到自感知的情感特征向量,即情感感知向量。另一方面,将质量特征向量作为键向量,并将情感特征向量作为请求向量和值向量;然后通过注意力网络基于该种设定下的键向量、请求向量和值向量进行运算,得到质量感知的情感特征向量,即质量感知向量。计算机设备可以拼接情感感知向量和质量感知向量,得到目标向量,将目标向量输入分类网络层,通过分类网络层对目标向量进行分类,得到评论文本对于目标内容的情感极性。
其中,注意力网络的运算过程可参考前述实施例。
在一个实施例中,该评论文本处理方法的各步骤中所使用到的网络可通过有监督地联合训练得到。可以理解,用户对于内容的赞同率也能反映出用户对内容的情感极性。这样,在训练过程中,可以将网络的训练视为分类任务,根据用户对内容的赞同率得到训练标签。
举例说明,假设目标内容是应用程序推送给用户的文章。如图7所示,该图示出了文章底部的点赞入口和点赞数量,根据该点赞数量和文章的浏览量计算点赞率,再根据点赞率确定用户对文章的情感极性。比如,将用户对文章的情感极性分为两类,“正面情感(点赞率大于1.5%)”和“负面情感(点赞率小于0.2%)”。这里不考虑点赞率在0.2%-1.5%的文章,可以让网络学习差别更明显的正负样本。需要说明的是,这里根据对点赞率的划分对应情感极性仅为举例,不对实际处理造成限定。
具体地,计算机设备可获取大量内容样本,获取各内容样本的评论文本和赞同率。对于每个内容样本,将该内容样本的评论文本进行分词,得到训练网络的训练样本,根据该内容样本的赞同率得到该训练样本的训练标签。这样,计算机设备即可根据训练样本和其相应的训练标签有监督地进行网络训练。
在一个具体的实施例中,该评论文本处理方法的各步骤中所使用到的网络包括:将评论文本的各词进行向量化的双向门控循环单元(Bi-GRU)、基于评论向量提取语义特征向量的多头注意力(Multi-Head Attention)网络、基于评论向量和情感词向量提取情感特征向量的双向协同注意力(Co-Attention)网络、基于评论向量和噪声词向量提取质量特征向量的双向协同注意力(Co-Attention)网络、基于语义特征向量和情感特征向量进行语义感知的注意力(Attention)网络、基于情感特征向量进行自感知的注意力(Attention)网络、基于质量特征向量和情感特征向量进行质量感知的注意力(Attention)网络,以及基于语义感知向量、情感感知向量和质量感知向量的拼接结果进行分类的分类(Fully-connected+softmax)网络。
在一个实施例中,该评论文本处理方法还包括:当情感极性为正面情感时,推荐目标内容;当情感极性为负面情感时,过滤目标内容。
可以理解,当内容被推送给用户后,会接收到用户的反馈,即用户对内容的评论。评论对于内容的情感极性,即是用户对内容的情感极性。而用户对内容的情感极性可以侧面反映内容的质量,那么基于评论对于内容的情感极性进行分析可以实现对内容质量的评估,有助于提高后续内容推荐的质量和效果。比如,将收到正面情感的文章继续进行推送或者优先推送,而收到负面情感的文字滞后推送或者不再予以推送等。
在一个具体的实施例中,计算机设备在向用户推荐内容后,获取用户反馈信息,即评论文本,并基于该评论文本确定其对于内容的情感极性,继而根据用户对于内容的情感极性决定这些内容后续是否继续推送,或者决定这些内容在后续推荐过程中的推荐顺序。
举例说明,终端上安装并运行有应用程序,应用程序所对应的服务器通过该应用程序向用户推送文章。用户通过终端上运行的应用程序浏览文章后,可对该文章发表评论或者表示赞同。服务器则可获取已经推送的文章所收到的评论,基于本申请实施例所提供的评论文本处理方法对获取的评论文本进行处理,得到每个文章所收到的评论文本对其的情感极性,也就是用户对文章的情感极性。对于用户表示出正面情感的文章,可以在一定程度上认为该文章的质量较好,后续可以继续推送给用户;而对于用户表现出负面情感的文章,可以在一定程度上认为该文章的质量较低,后续可以不再推送给用户。这样可以提高应用程序推送给用户的文章的质量,增加用户与应用程序之间的粘度,使得应用程序更受用户所喜爱,提高应用程序的使用率。
在一个实施例中,该评论文本处理方法还包括:结合语义特征、情感特征和质量特征,预测目标内容的赞同率。
其中,赞同率是用户对内容予以赞同的比例。比如,对于一篇文章,N个用户浏览了该文章,其中有M个人表明赞同该内容,则赞同率为M/N。具体地,计算机设备可将确定情感极性的分类任务替换为预测赞同率的回归任务。那么在训练网络设计训练样本的训练标签时,即直接将用户对内容的赞同率设置为训练标签,这样训练完成的模型即可直接预测用户对目标内容的赞同率。
需要说明的是,上述基于语义特征(向量)、情感特征(向量)以及质量特征(向量)进行处理的过程,可以仅是基于情感特征(向量)以及质量特征(向量)进行处理。也就是说,评论文本处理方法可以包括:获取目标内容所对应的评论文本;对评论文本进行分词,得到评论文本所对应的词序列;向量化词序列包括的词,得到评论文本对应的评论向量;根据评论向量及评论向量中的情感词向量,得到评论文本的情感特征向量;根据评论向量及评论向量中的噪声词向量,得到评论文本的质量特征向量;结合语义特征向量、情感特征向量和质量特征向量,确定评论文本对于目标内容的情感极性。
其中,根据评论向量及评论向量中的情感词向量,得到评论文本的情感特征向量;根据评论向量及评论向量中的噪声词向量,得到评论文本的质量特征向量;结合语义特征向量、情感特征向量和质量特征向量,确定评论文本对于目标内容的情感极性,这些步骤的具体实施方式可参考前述实施例中的描述。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图8所示,在一个实施例中,提供了一种评论文本处理装置800。参照图8,该评论文本处理装置800包括:评论获取模块801、分词模块802、特征获取模块803和处理模块804。
评论获取模块801,用于获取目标内容所对应的评论文本。
分词模块802,用于对评论文本进行分词,得到评论文本所对应的词序列。
特征获取模块803,用于根据词序列及词序列中的情感词,得到评论文本的情感特征;根据词序列及词序列中的噪声词,得到评论文本的质量特征。
处理模块804,用于结合情感特征和质量特征,确定评论文本对于目标内容的情感极性。
在一个实施例中,特征获取模块803还用于根据词序列得到评论文本的语义特征。处理模块804还用于结合语义特征、情感特征和质量特征,确定评论文本对于目标内容的情感极性。
在一个实施例中,评论文本的数量多于一个;每个评论文本对应一个词序列。特征获取模块803还用于根据多于一个词序列,得到多于一个评论文本共同对应的语义特征;根据多于一个词序列及多于一个词序列中的情感词,得到多于一个评论文本共同对应的情感特征;根据多于一个词序列及多于一个词序列中的噪声词,得到多于一个评论文本共同对应的质量特征。
在一个实施例中,分词模块802还用于向量化词序列包括的词,得到评论文本对应的评论向量。特征获取模块803还用于根据评论向量得到评论文本的语义特征向量;根据评论向量及评论向量中的情感词向量,得到评论文本的情感特征向量;根据评论向量及评论向量中的噪声词向量,得到评论文本的质量特征向量。处理模块804还用于结合语义特征向量、情感特征向量和质量特征向量,确定评论文本对于目标内容的情感极性。
在一个实施例中,特征获取模块803还用于通过多于一个注意力网络分别对评论向量进行处理,得到多于一个子空间下的语义特征子向量;每个子空间对应一个语义特征子向量;根据拼接语义特征子向量的结果,确定评论文本的语义特征向量。
在一个实施例中,特征获取模块803还用于通过多于一个注意力网络基于评论向量,生成评论向量的自关注注意力向量;通过多于一个注意力网络基于自关注注意力向量和情感词向量,生成情感词注意力向量;通过多于一个注意力网络根据自关注注意力向量和情感词注意力向量,生成评论文本的情感特征向量。
在一个实施例中,特征获取模块803还用于将评论向量分别作为键向量、请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的自关注注意力子向量;每个子空间对应一个自关注注意力子向量;根据拼接自关注注意力子向量的结果,确定评论向量的自关注注意力向量。
在一个实施例中,特征获取模块803还用于通过自关注注意力网络基于评论向量,生成评论向量的自关注注意力向量;通过多于一个注意力网络基于自关注注意力向量和噪声词向量,生成噪声词注意力向量;通过多于一个注意力网络根据自关注注意力向量和噪声词注意力向量,生成评论文本的质量特征向量。
在一个实施例中,特征获取模块803还用于将自关注注意力向量作为键向量,并将噪声词向量作为请求向量和值向量;通过多于一个注意力网络分别基于键向量、请求向量和值向量,得到多于一个子空间下的噪声词注意力子向量;每个子空间对应一个噪声词注意力子向量;根据拼接噪声词注意力子向量的结果,确定评论文本的噪声词注意力向量。
在一个实施例中,处理模块804还用于将语义特征向量作为键向量,并将情感特征向量作为请求向量和值向量;根据键向量、请求向量和值向量,得到语义感知向量;将情感特征向量作为键向量、请求向量和值向量;根据键向量、请求向量和值向量,得到情感感知向量;将质量特征向量作为键向量,并将情感特征向量作为请求向量和值向量;根据键向量、请求向量和值向量,得到质量感知向量;根据语义感知向量、情感感知向量和质量感知向量,得到评论文本对于目标内容的情感极性。
在一个实施例中,处理模块804还用于拼接语义感知向量、情感感知向量和质量感知向量,得到目标向量;通过分类网络层对目标向量进行分类,得到评论文本对于目标内容的情感极性。
如图9所示,在一个实施例中,评论文本处理装置800还包括:应用模块805,用于当情感极性为正面情感时,推荐目标内容;当情感极性为负面情感时,过滤目标内容。
在一个实施例中,处理模块804还用于结合语义特征、情感特征和质量特征,预测目标内容的赞同率。
上述评论文本处理装置,在获取到目标内容的评论文本后,即对该评论文本进行分词,得到该评论文本所对应的词序列。此后,一方面基于词序列及词序列中的情感词,提取评论文本的情感特征;另一方面基于词序列及词序列中的噪声词,提取评论文本的质量特征;再结合这两种特征得到评论文本对于目标内容的情感极性。这样,既考虑了评论所反映的真实情感又兼顾了评论自身的质量,不仅能够有效避免噪声评论的干扰,还能够有效减少误判,极大地提高了评论文本处理的准确性,进而得到更加准确的评论文本对于目标内容的情感极性。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现评论文本处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行评论文本处理方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的评论文本处理装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该评论文本处理装置的各个程序模块,比如,图8所示的评论获取模块801、分词模块802、特征获取模块803和处理模块804。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的评论文本处理方法中的步骤。
例如,图10所示的计算机设备可以通过如图8所示的评论文本处理装置中的评论获取模块801执行获取目标内容所对应的评论文本的步骤。通过分词模块802执行对评论文本进行分词,得到评论文本所对应的词序列的步骤。通过特征获取模块803执行根据词序列及词序列中的情感词,得到评论文本的情感特征;根据词序列及词序列中的噪声词,得到评论文本的质量特征的步骤。通过处理模块804执行结合情感特征和质量特征,确定评论文本对于目标内容的情感极性的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述评论文本处理方法的步骤。此处评论文本处理方法的步骤可以是上述各个实施例的评论文本处理方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述评论文本处理方法的步骤。此处评论文本处理方法的步骤可以是上述各个实施例的评论文本处理方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。