CN109800390B - 一种个性化情感摘要的计算方法与装置 - Google Patents
一种个性化情感摘要的计算方法与装置 Download PDFInfo
- Publication number
- CN109800390B CN109800390B CN201811568554.6A CN201811568554A CN109800390B CN 109800390 B CN109800390 B CN 109800390B CN 201811568554 A CN201811568554 A CN 201811568554A CN 109800390 B CN109800390 B CN 109800390B
- Authority
- CN
- China
- Prior art keywords
- user
- vocabulary
- vector
- filtering
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000001914 filtration Methods 0.000 claims abstract description 58
- 230000007246 mechanism Effects 0.000 claims abstract description 40
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 2
- 239000010410 layer Substances 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101150093411 ZNF143 gene Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种个性化情感摘要的计算方法与装置,用于根据不同用户,自动生成个性化情感摘要。该计算方法包括:基于用户评论数据信息构建数据集;基于预设要素信息对数据集进行过滤,得到过滤结果;通过用户敏感编码器,对过滤结果使用双向LSTM进行编码后,基于用户选择机制从过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对建模结果进行解码,并输入用户向量及用户特定词汇至解码器的词汇预测阶段,使得解码器输出个性化情感摘要。采用本发明的技术方案,在编码阶段采用了基于用户的选择机制在对评论根据用户关注的差异进行过滤,在解码阶段融合了用户相关词汇表以生成个性化的情感摘要。
Description
技术领域
本发明涉及网络信息领域,特别涉及一种个性化情感摘要的计算方法与装置。
背景技术
情感摘要的目的是给一篇或者是多篇评论生成一个简要的摘要。给定一篇评论,由于不同的用户有着不同的经历以及不同的想法,导致他们会关注评论的不同内容。图1给出了酒店评论的一个例子。用户A可能是商务出行,他对酒店的位置和房间的关注多于对酒店价格的关注,而用户B可能是穷游,因此在选择酒店时更关注于酒店的价格。不仅如此,不同用户也有他们各自的用词习惯,用户C可能就经常总结会用一些显示表达他情感的词来总结他的评论,然而用户A和用户B却不这么做。
传统的情感摘要系统仅仅关注评论内容,生成的摘要对于所有的用户都是一样的。而个性化的情感摘要可以针对不同的读者,生成不同的摘要。这些摘要可以直接反映读者对产品要素的不同偏好,应该能更有助于他们选择产品。
鉴于此,提出本发明。
发明内容
本发明提供个性化情感摘要的计算方法与装置,用于解决传统的情感摘要系统仅仅关注评论内容,生成的摘要对于所有的用户都是一样,而不具备个性化的问题。
为了达到上述目的,根据本发明的第一个方面,提供一种个性化情感摘要的计算方法,并采用如下具体方案:
一种个性化情感摘要的计算方法包括:基于用户评论数据信息构建数据集;基于预设要素信息对所述数据集进行过滤,得到过滤结果;通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。
根据本发明的另外一个发明,提供一种个性化情感摘要的计算装置,并采用如下技术方案:
一种情感摘要的个性化计算装置包括:构建模块,用于基于用户评论数据信息构建数据集;过滤模块,用于基于预设要素信息对所述数据集进行过滤,得到过滤结果;编码模块,用于通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;解码模块,用于通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。
本发明的通过用户敏感编码器与用户敏感解码器,对红红评论数据信息进行编码解码处理,在生成情感摘要时增添用户向量及用户特定词汇,生成个性化情感摘要。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明背景技术个性化情感摘要示例;
图2为本发明实施例所述的个性化情感摘要的计算方法流程图;
图3为本发明实施例所述的用户敏感的序列结构图;
图4为本发明实施例所述的用户特定词表现规模对模型的影响示意图;
图5为本发明实施例所述的个性化情感摘要的计算装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图2为本发明实施例所述的个性化情感摘要的计算方法流程图。
参见图2所示,一种个性化情感摘要的计算方法包括:
S101:基于用户评论数据信息构建数据集;
S103:基于预设要素信息对所述数据集进行过滤,得到过滤结果;
S105:通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;
S107:通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。
具体而言,步骤S101中,基于用户评论数据信息构建数据集,本步骤构建了一个数据集并将其命名为TripSet。TripSet可以从网站上抓取,例如猫途鹰网站,用户在猫途鹰网站上经常会写评论并给评论一个标题。评论的标题可以看成是发表评论的用户对评论内容的一个精炼的总结,因此可以将这个标题作为该评论的摘要内容。从猎途鹰网站上抓取了2832872用户-评论-摘要三元组。在步骤S103中,基于预设要素信息对所述数据集进行过滤,得到过滤结果;由于数据集中的这些数据存在着大量的噪音,由于用户在撰写标题时并没有任何约束,用户可以任意的给出标题,这就导致了很多没有意义的标题,例如″not myfirst choice″,″i will be back again″和″twice in one trip″等。为了过滤这些噪音样本,在步骤S103中提出了三个过滤器:
要素过滤器:要素过滤器是为了过滤那些没有描述任何要素的标题。对于酒店领域,可以人工定义了6类要素及其种子词:位置、服务、房间、价格、设施和食物,详细信息可参见表1。然后采用文献提出的要素分割算法,自动拓展种子词,并标注评论标题的要素类别。最后过滤掉那些没有被标注任何要素的题目。长度过滤器:长度过滤器是为了过滤那些过短的题目,这里设定如果评论的题目的词汇数目小于5,则删除它。压缩比过滤器:压缩比过滤器是为了过滤那些评论长度与题目长度比值过大的评论数据,这里设置的压缩比阈值为50,如果评论的长度与评论题目长度比值大于这个阈值,则删除它。
表1人工定义的要素及其关键词
使用完这些过滤器之后,只保留了那些发表评论超过20篇用户的评论,最终得到了536255的用户-评论-摘要三元组的TripSet数据集。表2中给出了的一些统计信息。随机从TripSet中选取了1000条评论进行人工分析,来查看摘要中涉及的要素是否全都在评论中出现过。最终发现90%以上的摘要涉及的要素全都在评论中出现过,这也就明TripSet的可靠性。随机从这个数据集抽取5000篇做测试集,500篇做开发集剩下的做训练集。
表2 TripSet的统计信息
通过上述过滤后,在步骤S105中,通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果。首先,数据集D是由m个用户-评论-摘要三元组,每个三元组包含了一条评论x,评论的发布者u,以及u对x总结形成的摘要y。评论x包含了n个词汇,分别是{x,x2,...,xn},其中xi∈Vs并且V是源端词表。摘要y包含了I≤n个汇,它们分别是{y1,y2...,yl},其中yi∈Vt并且V是目标端的词表。个性化情感摘要的目的是从评论x自动生成摘要y并考虑用户u在对评论摘要过程中的特定习惯。
具体参见图3所示,给定评论x,编码器首先将评论内部的词汇xi映射成词向量xi,然后评论内部所有词汇的词向量将依次进入编码模块(一个单层的双向LSTM),从而得到词汇xi的隐层表示hi。
具体来说,基于用户的选择机制网络的输入是用户向量u和编码端的隐层状态hi,输出的是一个门向量来过滤hi。
gatei=σ(Wk[hi;u]+bk) (1)
其中wk和bk是这个选择机制的参数,[;]是连接符号,σ表示的是sigmoid活函数,并且指的是逐位相乘的操作。h’i指的是保留hi信息的量,称为源端隐层向量。
从式(1)可以知道gatei是一个每个维度值都属于0到1的一个向量。因此,可以利用||gatei||2来刻画这个过滤器对hi的过滤程度,称之为2范数门值。这个值越高表明hi′保留了大部分hi的信息,也就意味着词汇xi,对用户u是重要的。反之则意味着h’i只保留了很少的hi信息,也就意味着词汇xi被过滤了,对用户u是不重要的。
在步骤S107中,通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。
具体仍然参见图3所示,在使用用户敏感的编码器对源端信息过滤之后,对于评论x中的词汇xi而言,可以得到新的源端隐层向量h’i。在t时刻的解码过程中,解码器仍然可以通过首先接受上一时刻解码出的词向量生成t时刻的解码状态st,然后用该向量去关注源端的所有新的隐层状态h’i得到t时刻的上下文向量c’t,具体计算公式如(3)所示。
其中,Wc,W’c,bc和vTa是这个注意力层的参数。et,i使用用户敏感编码器过滤后编码器顶层的隐藏状态,包含了待输入到连接层的隐藏向量。ct,t时刻的上下文向量,和要素at相关的句子i的表示。
当用户对评论进行摘要时,不同用户有着各自的词表,因此很自然的想法是将用户特定词汇表融入到词汇预测模块,影响词汇的概率分布Pvoc,然而用户特定词汇表中各个词汇的作用应该也有所差异,因此这里使用一个注意力机制来从U中抽取重要的词汇并得到用户词表表示mt。
mt=∑kβt,kUk (8)
其中,wm,W’m,bm和是模型参数。gt,k,将含有用户特定词汇表的隐藏向量输入全连接层。βt,i为t时刻对第i个隐状态的归一化权重。
接下来,将mt和用户向量u都融入读出状态rt中,并得到式(9)与(10)
rt′=Wr′[c′t;st;u;mt]+br′ (9)
Pvoc=softmax(Wort+bo) (10)
其中,Wr′和br′是模型参数。r′t:融入用户词表表示mt和用户向量u更新过的rt
P′voc:利用新的rt′更新过的t时刻生成词汇的概率。分别将用户向量u和用户词表表示mt添加进r’t的策略称为用户预测策略(User Prediction strategy)和用户记忆预测策略(User Memory Prediction strategy),如图3中的②和③所示。为了验证上述技术方案的有效性,从猫途鹰网站上抓取并构建了一个新的情感摘要数据集,称为TripSet。TripSet包含了19400个用户发布的536255条评论及其摘要。定量以及人工评测的结果显示UASN在情感摘要上取得了好的结果,主要优势具有以下三点:(1)第一次提出个性化情感摘要这个问题,并提出了一个基于Seq2Seq的用户敏感模型来解决它。(2)本章提出了基于用户的选择机制在对评论进行摘要过程中对评论内容根据用户关注的差异进行过滤。(3)为每一个用户构建了一个用户特定词汇表,并首次将它应用到个性化情感摘要中,使得个性化情感摘要系统在对评论生成摘要时可以充分考虑用户的用词习惯。作为优选的实施方式,在所述通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要之后,所述个性化计算方法还包括:使用软复制机制,在生成所述个性化情感摘要时,从所述用户评论信息中复制所述个性化情感摘要。所述使用软复制机制,在生成所述个性化情感摘要时,从所述用户评论信息中复制所述个性化情感摘要包括:t时刻词汇生成的概率为pmgn∈[0,1],由上下文向量c’t,解码状态向量st,和词表状态向量mt,通过式(11)计算得到:pmgn=σ(Wmg[c′t;st;mt]+bmg))11)其中Wmg,bmg是模型参数;词汇生成概率pmgn作为一个软开关,用于决定是从目标端词表中Vt生成一个词汇,还是从用户特定词汇表中拷贝一个词汇,(12)其中式(12)用于从目标端词表中Vt生成一个词汇。具体而言,UASN使用了一个软复制的机制,在生成摘要时直接从用户相关的词汇中复制,这是我们第四种考虑用户的策略,称为用户记忆生成策略(User Memory Generation strategy),如图3中的④所示。t时刻词汇生成的概率为pmgn∈[0,1],可以由上下文向量c’t,解码状态向量st,和词表状态向量mt,通过式(11)计算得到。
pmgn=σ(Wmg[c′t;st;mt]+bmg) (11)
其中Wmg,bmg是模型参数。接下来,词汇生成概率pmgn可以作为一个软开关,它来决定是从目标端词表中Vt生成一个词汇(见式(12)的第一部分)还是从用户特定词汇表中拷贝一个词汇(式(12)第二部分)。
作为优选的实施方式,所述用户特定词汇表的构建方法包括:将训练集中各个用户发布的所有评论和摘要合并在一起组成一篇大文档,每个用户一篇文档;计算文档中出现的每个词汇的tf-idf值,进而为用户u选出该值最高的K个词汇组成该用户的用户特定词汇表。
具体来说,本发明实施例从两个角度对用户进行建模:(1)用户向量,我们将u编码成向量u,并把u考虑进UASN。(2)用户特定词汇表,它是从用户u发布过的评论和摘要中整理和收集了K个用户u最相关的词汇组成
为了构建首先将训练集中各个用户发布的所有评论和摘要合并在一起组成一篇大文档,每个用户一篇文档。然后可以计算文档中出现的每个词汇的tf-idf值,进而为用户u选出该值最高的K个词汇组成他的用户特定词汇表。使用tf-idf值区分不同的词汇是希望能够选择一些用户特定并且广泛使用的词汇。得到这K个词汇之后,将它们映射成向量/>那么U就是对于用户u构建的用户特定词汇表。
本发明提供的一种情感摘要的个性化计算装置包括:构建模块50,用于基于用户评论数据信息构建数据集。过滤模块52,用于基于预设要素信息对所述数据集进行过滤,得到过滤结果;编码模块54,用于通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;解码模块56,用于通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户特定词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要。所述编码模块54还用于:基于用户的选择机制网络的输入是用户向量u和编码端的隐层状态hi,输出的是一个门向量来过滤hi:
gatei=σ(Wk[hi;u]+bk) (1)
其中wk和bk是这个选择机制的参数,[;]是连接符号,σ表示的是sigmoid活函数,并且指的是逐位相乘的操作,h′i指的是保留hi信息的量,称为源端隐层向量。
为了验证上述技术方案的效果,以下从评价指标、对比方法、实现细节以及模型的效果进行说明。
(1)评价指标
本发明采用ROUGE的F1值作为评价指标,并通过PyROUGE工具包来计算该值。
(2)对比方法
大部分情感摘要的工作都关注于多文档的情感摘要,而本发明关注的单文档情感摘要,因此UASN无法与这些情感摘要的工作进行对比,这里比较传统文本摘要比较流行的几种方法:
A、Lead-1是一种抽取式的方法,它从评论中抽取第一句话作为摘要。
B、LexRank是一种基于PageRank算法计算文本重要程度的无监督学习方法,也是一种很流行的抽取式的方法。
C、Seq2Seq+Att是基于注意力机制的序列到序列模型。
D、SEASS采用了一个选择性编码网络来从评论中选择重要的句子或词汇帮助文本摘要,并在句子摘要这个任务取得了当时最好的效果。
E、PGN采用了一个拷贝机制从评论中直接复制词汇来生成摘要,并在文档级别摘要上取得了当时最好的效果。
(3)细节实现
在实验中,词向量和用户向量维度都设为128,并将LSTM内部所有隐层状态的大小设为256。为了提高系统的鲁棒性,本发明采用了概率为0.2的dropout策略。训练过程中,利用开发集的损失来使用早期停止策略(early stopping)。测试时,摘要结果是通过搜索空间大小为5的柱搜索算法得到。
批处理的大小设置为128,并采用学习率为0.001的Adam算法进行参数更新。对源端和目标端使用了同一个词表,其规模为30000。对于过长的评论,我们截取了前200个词,这样做是为了对训练和测试进行加速。然而实验表明发现,该操作也能提升模型的效果。
通过开发集来选择用户特定词表的规模,并设置它为200。
(4)实验结果
表3给出了实验结果,其中″RG″表示ROUGE,该表格上半部分的模型是基于抽取式的方法,下半部分的模型都是基于生成式的方法。最好的结果用加粗显示,符号“*”表示UASN模型显著优于所有基线系统。
表3各个系统的实验结果
对抽取式方法,Lead-1取得了最好的结果。但尽管如此,它在ROUGE-1,ROUGE2和ROUGE-L上也仅取得了12.77%,2.98%和11.27%的F1值。主要的原因是TripSet里面的摘要都比较简短并且内容一般都会覆盖很多句子。这也正是为什么本章提出的用户敏感的情感摘要模型要基于生成式的方法来实现的原因。
对生成式的方法而言,Seq2Seq+Att比其他抽取式的方法都好。将选择机制添加到Seq2Seq+Att之后,SEASS的效果反而下降的。主要的原因是SEASS提出的选择机制是为了句子摘要服务的,可能并不适合文档摘要。文献里输入句子的平均长度都小于40个词,然而TripSet中评论的输入平均长度为154。尽管如此,这种选择机制对于摘要系统非常关键,因此我们提出了基于用户的选择机制来对输入进行过滤。当将拷贝机制加入到Seq2Seq+Att之后,PGN取得了更好的结果。
最后,在将本章提出的4种基于用户的策略融入到Seq2Seq+Att之后,UASN在ROUGE-1,ROUGE-2和ROUGE-L上取得了24.78%,7.75%和22.66%的F1值,显著优于其他方法。与Seq2Seq+At对比,UASN在ROUGE1,ROUGE2和ROUGE-L上分别有2.69%,1.36%和2.3%提升,这显示对用户相关特点进行建模可以很有效的提高情感摘要的质量。我们的模型也在ROUGE-1,ROUGE-2和ROUGE-L分别超过PGN 2.27%,0.86%和1.87%,并取得了情感摘要最好的结果。
(5)关于要素覆盖度的人工评测
前面的实验表明UASN生成的摘要在词汇和短语级别的自动评价上要优于其他模型,但UASN是一个融入了用户的个性化模型,我们想观察它生成的摘要在要素层面的评价是否也能优于其它模型。因为用户关注的要素一般会出现在参考摘要中,如果UASN生成摘要描述的要素与参考摘要描述的要素一致性优于其他模型,则可以推断出UASN不仅对用户的用词偏好进行了建模,也考虑了用户对不同要素的关注差异。基于此,于是设计了该关于要素覆盖度的人工实验。
要素标签的组成是由表1提供的6个要素(位置、服务、房间、价格、设施和食物)和1个描述酒店整体领域的″酒店″要素组成。给定一个摘要,我们需要从这7个要素标签中人工对其进行标注。以下是人工标注的两个例子
例子1:friendly staff with good room(服务、房间)
例子2:a great hotel in city center(酒店、位置)
表4各个系统要素层的准确率、召回率和F1
为了进行人工实验,首先从测试集中随机抽取1000个用户-评论-摘要三元组。然后利用Seq2Seq+Att,PGN和UASN这三个模型对这1000个三元组的评论生成情感摘要,并邀请了两个同学对这些系统生成的摘要以及参考摘要进行要素标注。最后,统计了要素层各个系统的准确率、召回率和F值,并在表4中给出各个系统的效果。实验结果表明UASN很大幅度优于其他的模型(Seq2Seq+Att和PGN),这也就表明U可以捕捉到要素层面的用户偏好。
(6)模型分析
A.不同用户策略的效果
本发明提出了4种基于用户的策略来构建用户敏感的情感摘要系统,这4种策略分别是用户选择策略(USelect)、用户预测策略(UPre)、用户记忆预测策略(UMP)、用户记忆生成策略(UMG)。为了测试各种策略对于个性化情感摘要的影响,本小节对UASN进行了消融测试,将这四种策略分别从UASN中删除、或者分别只添加这四个策略的某一种,查看实验结果并进行对比分析。表5给出了实验结果,其中每一行是UASN的一个变体,对于每一种策略会对应符号“√”或者是“_”,前者表明该变体考虑了这种策略,后者则没有考虑。当这四种策略都没有考虑时,UASN就退化成了Seq2Seq+Att(即表中的第1行)。
表5各种策略对情感摘要的影响
首先,当只添加一种用户策略的模型(第2-5行)都会比Seq2Seq+At在ROUGE1,ROUGE-2和ROUGE-L至少有0.83%,0.41%和0.77%的提升。这也就意味着这些用户策略都能提升情感摘要的效果。其中用户预测策略和用户记忆预测策略是两种最有效的用户策略,主要原因是它们能直接影响UASN的词汇预测模块。
其次,当从UASN中删除一种用户策略时(第6-9行),所有的模型相比UASN都基本有下降。也就意味着我们这4种策略是互补的,它们之间没有冗余。其中互补最为明显的策略是用户选择策略,当它被删除时,UASN在ROUGE-1ROUGE2和ROUGE-L分别有了1.55%,1.11%和1.49%的下降。主要原因是本章提出的4种策略中,只有这种策略作用在UASN的编码模块中,其他策略都作用在UsSN的解码模块中。
最后,当所有基于用户的策略都考虑进Seq2Seq+Att,UASN能取得最好的实验结果。
B.用户特定词表规模对模型的影响
表5中给出了用户特定词表的规模对用户记忆预测策略(UMP)和用户记忆生成策略(UMG)的影响,发现:
首先,不管通过UMP还是UMG的方式将用户特定词表融入Seq2Seq+Att,都会取得情感摘要的效果提升,即使在这个词表规模很小的时候(比如说只有50个词)。其次,UMP的效果总是要比UMG的效果好,主要原因是UMP能直接影响解码器的词汇预测模块。最后,将用户词表规模大小设为200,因为Seq2Seq+Att+UMP+UMG在这个词表规模下在开发集上取得最好的效果。C.基于用户选择机制的可视化
为了验证UASN能从评论中为用户选择重要的词汇,本小节在表6中给出了基于用户选择机制的可视化,其中,词汇的背景色越深意味着该词汇对应的2范数门值余越高,表明基于用户的选择机制对该词的过滤程度越低,意味着这个词汇越重要。
表6基干用户选择机制的可视化
从用户A给出的标准摘要可以看出,用户A比较关注服务和房间,而基于用户的选择机制选出来比较重要的词汇是“impressed”、“staff”、“bed”和“perfect”,也就反映这个用户A对这两个要素的体验,这也就说明UASN可以从评论中挖掘出对用户重要的词汇。
D.示例分析
表7中给出了来自TripSet测试集的一个样例的各个模型的输出结果。
表7示例分析
首先,尽管评论描述了用户B关于房间、食物、服务和位置的态度,而参考摘要中只包含了关于房间和位置的描述,也就意味着用户B更关注这两类要素,实际上,我们从训练集中观祭了用户B发布的所有评论,也发现了这个规律,他的评论和参考摘要的80%内容都会描述这两类要素。已有的方法没有对用户进行建模(Seq2Seq+At和PGN),因此也就无法捕捉到用户B对这两类要素的偏好,这也就导致了它们的输出结果会生成一些描述其他要素的词汇,如描述服务的“staf”。然而本章提出的个性化模型可以捕捉到这样的用户偏好,能正确生成用户摘要。
其次,由于词汇“comfortable”没有出现在评论内容中,这个词相对来说较难生成。但是,它出现在用户B特定词表中,考虑了这个词表之后的UASN模型可以准确的生成这个词汇。
本发明提出了情感摘要的个性化问题。给定同一篇评论,可以为根据不同用户对评论内容的关注差异以及他们的用词习惯生成不同的摘要。为了解决这个问题,本章提出了用户敏感的序列网络,该模型在编码阶段采用了基于用户的选择机制在对评论根据用户关注的差异进行过滤,在解码阶段融合了用户相关词汇表以生成个性化的情感摘要。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种个性化情感摘要的计算方法,其特征在于,包括:
基于用户评论数据信息构建数据集;
基于预设要素信息对所述数据集进行过滤,得到过滤结果;
通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;
通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要;
其中,所述通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果包括:
基于用户选择机制的网络输入是用户向量u和编码端的隐层状态,输出是通过一个门向量gatei进行过滤后得到的源端隐层向量:
(1)
(2)
其中和/>是选择机制的参数,[;]是连接符号,σ表示的是 sigmoid活函数,并且指的是逐位相乘的操作,/>指的是保留/>信息的量,称为源端隐层向量;
其中,所述通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要包括:
在 t 时刻的解码过程中,解码器通过接受上一时刻解码出的词向量生成 t 时刻的解码状态,然后用所述解码状态/>去关注所述源端隐层向量/>,得到 t 时刻的上下文向量/>,具体计算公式如(3)(4)(5)所示:
(3)
(4)
(5)
其中,W c ,, b c 和/>是注意力层的参数,/>度量的是编码隐层状态/>和当前解码状态/>的重要性得分,/>为使用用户敏感编码器过滤后编码器顶层的隐藏状态,包含了待输入到连接层的隐藏向量、t 时刻的上下文向量、以及要素/>相关的句子 i 的表示;
将用户关注词汇表融入到词汇预测模块,得到影响词汇的概率分布P voc ,使用注意力机制来从用户关注词汇表中抽取词汇得到用户词表,用表示;
(6)
(7)
(8)
其中,W m ,,b m 和/>是模型参数;/>为将含有用户关注词汇表的隐藏向量输入全连接层;/>为 t 时刻对第 i 个隐状态的归一化权重;/>为 t 时刻对第k个隐状态的归一化权重;U k 为用户关注词汇表的向量化表示;
将和用户向量u融入读出状态/>中,并得到式(9)及(10):
(9)
(10)
其中,,/>,/>和bo是模型参数;/>为将/>和用户向量u融入读出状态/>之后得到的;/>为利用新的/>更新过的 t 时刻生成词汇的概率。
2.根据权利要求1所述的计算方法,其特征在于,所述基于用户评论数据信息构建数据集包括:
从目标网站抓取所述用户评论数据信息;
将所述用户评论数据信息按照用户-评论-摘要三元组形式构建所述数据集。
3.根据权利要求1所述的计算方法,其特征在于,所述基于预设要素信息对所述数据集进行过滤,得到过滤结果包括:
基于目标网站定义所述预设要素信息;
根据要素分割算法将所述预设要素信息自动拓展种子词;
基于所述预设要素信息及所述种子词对所述数据集进行第一次过滤,得到第一次过滤结果;
对所述第一次过滤结果进行长度过滤,过滤掉题目词汇小于预设数量的用户评论数据信息,得到第二次过滤结果;
对所述第二次过滤结果进行压缩比过滤,过滤掉评论长度与题目长度比值大于预设阈值的所述用户评论数据信息,得到所述过滤结果。
4.根据权利要求3所述的计算方法,其特征在于,在所述通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要之后,个性化计算方法还包括:
使用软复制机制,在生成所述个性化情感摘要时,从所述用户评论数据信息中复制所述个性化情感摘要。
5.根据权利要求1至4任一项所述的计算方法,其特征在于,所述用户词汇表的构建方法包括:
将训练集中各个用户发布的所有评论和摘要合并在一起组成一篇大文档,每个用户一篇文档;
计算文档中出现的每个词汇的 tf-idf值,进而为用户选出该值最高的K个词汇组成该用户的用户词汇表。
6.一种情感摘要的个性化计算装置,其特征在于,包括:
构建模块,用于基于用户评论数据信息构建数据集;
过滤模块,用于基于预设要素信息对所述数据集进行过滤,得到过滤结果;
编码模块,用于通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果;
解码模块,用于通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要;
其中,所述通过用户敏感编码器,对所述过滤结果使用双向LSTM进行编码后,基于用户选择机制从所述过滤结果中,获取用户关注度高的评论内容进行建模,得到建模结果包括:
基于用户选择机制的网络输入是用户向量u和编码端的隐层状态,输出是通过一个门向量gatei进行过滤后得到的源端隐层向量:
(1)
(2)
其中和/>是选择机制的参数,[;]是连接符号,σ表示的是 sigmoid活函数,并且指的是逐位相乘的操作,/>指的是保留/>信息的量,称为源端隐层向量;
其中,所述通过用户敏感解码器对所述建模结果进行解码,并输入用户向量及用户词汇至所述解码器的词汇预测阶段,使得所述解码器输出个性化情感摘要包括:
在 t 时刻的解码过程中,解码器通过接受上一时刻解码出的词向量生成 t 时刻的解码状态,然后用所述解码状态/>去关注所述源端隐层向量/>,得到t时刻的上下文向量/>,具体计算公式如(3)(4)(5)所示:
(3)
(4)
(5)
其中,W c ,,b c 和/>是注意力层的参数,/>度量的是编码隐层状态/>和当前解码状态/>的重要性得分,/>为使用用户敏感编码器过滤后编码器顶层的隐藏状态,包含了待输入到连接层的隐藏向量、 t 时刻的上下文向量、以及要素/>相关的句子 i 的表示;
将用户关注词汇表融入到词汇预测模块,得到影响词汇的概率分布P voc ,使用注意力机制来从用户关注词汇表中抽取词汇得到用户词表,用表示;
(6)
(7)
(8)
其中,W m ,,b m 和/>是模型参数;/>为将含有用户关注词汇表的隐藏向量输入全连接层;/>为 t 时刻对第 i 个隐状态的归一化权重;/>为 t 时刻对第 k 个隐状态的归一化权重;U k 为用户关注词汇表的向量化表示;
将和用户向量u融入读出状态/>中,并得到式(9)及(10):
(9)
(10)
其中,,/>,/>和bo是模型参数;/>为将/>和用户向量u融入读出状态/>之后得到的;/>为利用新的/>更新过的 t 时刻生成词汇的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568554.6A CN109800390B (zh) | 2018-12-21 | 2018-12-21 | 一种个性化情感摘要的计算方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568554.6A CN109800390B (zh) | 2018-12-21 | 2018-12-21 | 一种个性化情感摘要的计算方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800390A CN109800390A (zh) | 2019-05-24 |
CN109800390B true CN109800390B (zh) | 2023-08-18 |
Family
ID=66557266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811568554.6A Active CN109800390B (zh) | 2018-12-21 | 2018-12-21 | 一种个性化情感摘要的计算方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800390B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222342B (zh) * | 2019-06-13 | 2023-05-02 | 哈尔滨工业大学(深圳) | 结合情感原因发现的文本情感预测学习系统 |
CN110287278B (zh) * | 2019-06-20 | 2022-04-01 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN110532463A (zh) * | 2019-08-06 | 2019-12-03 | 北京三快在线科技有限公司 | 推荐理由生成装置及方法、存储介质以及电子设备 |
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN111192567B (zh) * | 2019-12-27 | 2023-05-02 | 青岛海信智慧生活科技股份有限公司 | 一种智能设备的交互信息的生成方法及装置 |
CN111680151B (zh) * | 2020-05-06 | 2022-02-11 | 华东师范大学 | 一种基于层次化transformer的个性化商品评论摘要生成方法 |
CN111639175B (zh) * | 2020-05-29 | 2023-05-02 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN111930930B (zh) * | 2020-07-10 | 2022-09-23 | 浙江大学 | 一种基于商品方面对齐的抽象式评论摘要生成方法 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
CN114494980B (zh) * | 2022-04-06 | 2022-07-15 | 中国科学技术大学 | 多样化视频评论生成方法、系统、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5273735B2 (ja) * | 2009-10-13 | 2013-08-28 | 日本電信電話株式会社 | テキスト要約方法、その装置およびプログラム |
CN105912644A (zh) * | 2016-04-08 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种网络评论产生式摘要方法 |
CN108804495B (zh) * | 2018-04-02 | 2021-10-22 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN108427771B (zh) * | 2018-04-09 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
-
2018
- 2018-12-21 CN CN201811568554.6A patent/CN109800390B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109800390A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800390B (zh) | 一种个性化情感摘要的计算方法与装置 | |
Plank et al. | Personality traits on twitter—or—how to get 1,500 personality tests in a week | |
CN110825876A (zh) | 电影评论观点情感倾向性分析方法 | |
Burns et al. | Women also snowboard: Overcoming bias in captioning models | |
Keith et al. | Modeling financial analysts' decision making via the pragmatics and semantics of earnings calls | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Al-Kabi et al. | An opinion analysis tool for colloquial and standard Arabic | |
CN108897871B (zh) | 文档推荐方法、装置、设备及计算机可读介质 | |
TW201033823A (en) | Systems and methods for analyzing electronic text | |
JP5346327B2 (ja) | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 | |
Fu et al. | Contrastive transformer based domain adaptation for multi-source cross-domain sentiment classification | |
CN110795411B (zh) | 一种基于类别门机制的文本分类方法 | |
CN113312449A (zh) | 基于关键字和深度学习的文本审核方法、系统及介质 | |
Li et al. | Attribute-aware sequence network for review summarization | |
Bernardi et al. | Social media analytics for nonprofit marketing:# Downsyndrome on Twitter and Instagram | |
Wu et al. | Context-aware style learning and content recovery networks for neural style transfer | |
Wang et al. | User and topic hybrid context embedding for finance-related text data mining | |
Karsdorp et al. | Keepin’it real: Linguistic models of authenticity judgments for artificially generated rap lyrics | |
Alvarez-Carmona et al. | A comparative analysis of distributional term representations for author profiling in social media | |
Li et al. | Aspect-aware unsupervised extractive opinion summarization | |
Fišer et al. | The compilation, processing and analysis of the Janes corpus of Slovene user-generated content | |
CN114677165A (zh) | 上下文在线广告投放方法、装置、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |