CN108256968A - 一种电商平台商品专家评论生成方法 - Google Patents

一种电商平台商品专家评论生成方法 Download PDF

Info

Publication number
CN108256968A
CN108256968A CN201810028986.1A CN201810028986A CN108256968A CN 108256968 A CN108256968 A CN 108256968A CN 201810028986 A CN201810028986 A CN 201810028986A CN 108256968 A CN108256968 A CN 108256968A
Authority
CN
China
Prior art keywords
comment
comments
commodity
word
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810028986.1A
Other languages
English (en)
Other versions
CN108256968B (zh
Inventor
姜文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201810028986.1A priority Critical patent/CN108256968B/zh
Publication of CN108256968A publication Critical patent/CN108256968A/zh
Application granted granted Critical
Publication of CN108256968B publication Critical patent/CN108256968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种电商平台商品专家评论生成方法,提出一种基于序列到序列生成模型的专家评论总结生成技术,提取某商品所有用户评论中的重要信息,生成一段总结性的话语来描述商品的特性。消费者可以根据生成的专家评论来了解商品的优缺点,考虑是否购买;商家可以根据生成的专家评论来改进自己的商品。本发明可以抽取出具有代表商品特性的重要评论,能够为商家改进商品提供很好的参考,让商家提升产品的用户体验,提高销量,增加收益。同时它能够为消费者提供购买参考,提升消费者的购物体验;还可以帮助电商平台吸引更多的粘性用户,扩大自身的影响力。

Description

一种电商平台商品专家评论生成方法
技术领域
本发明涉及一种电商平台商品专家评论生成方法,属于自然语言处理技术领域。
背景内容
用户产生的商品评论对于消费者购买商品和商家改进商品都有着很重要的参考价值。但大量的评论往往会造成信息过载,而现有的评论总结技术大多是基于评论中高频词语的聚类和相应评论的情感词标注,来生成重要的总结性词语或者短语,借以概括大家对某个商品的观点、反映某商品的特性,从而为消费者购买商品和商家改进产品提供参考。因此大多现有的评论总结技术还停留在短语级别,对于消费者和商家的参考价值有限,现有的电商平台对产品评论的挖掘利用尚不充分。为了充分挖掘利用电商平台对产品的评论,本发明使用用户产生的评论,通过情感分析、语义相似度、语言生成等技术总结生成可供消费者和商家参考的专家评论。所提出的专家评论生成技术既可以帮助商家改善产品和服务,又可以为消费者购买商品提供参考,本发明可以应用到购物网站和其他网络消费平台。
名词解释:
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(InverseDocument Frequency)。
GRU语言模型:一种循环神经网络语言模型,语言模型最主要的功能就是生成合乎语言规则的句子或者段落。循环神经网络的语言模型可以按序生成单词,组成合乎语言规则的句子。GRU(gated recurrent unit,门限递归单元)是一种循环神经网络的变体。
TextRank算法:基于PageRank的一种自动提取文本摘要的图排序算法。
情感词典匹配技术:使用情感词典匹配文本中情感词的技术,情感词典记录了现存词语的一些情感指数。
语义重要性检测:通过语义理解的方式(基于语义的相似度检测算法)来判断每一条评论的重要程度。
循环神经网络模型:一种时间递归神经网络,区别于一般的神经网络,它有时间状态,下一时刻的神经元都和上一时刻的神经元相互连接,每一个时刻记录的神经元信息都会传播给下一时刻的神经元。
解码层的隐藏信息:这里的解码层的隐藏信息(hyt),可以理解成接受了t时刻文本向量和上一时刻隐藏信息生成的隐藏信息,因为是神经网络内部的信息,而神经网络又被称为黑盒,所以称之为隐藏信息。
停用词:停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。
PageRank图:与本专利要保护的关系不大,不作附加,附加图4解释TextRank公式。
发明内容
本发明克服现有技术存在的不足,本发明公开了一种电商平台商品专家评论生成方法。本专利可以抽取出具有代表商品特性的重要评论,同时归纳总结生成专家评论,专家评论能够帮助商家改进产品,提升产品的用户体验,提高销量,增加收益。同时它也能为消费者提供购买参考,提升消费者的购物体验;还可以帮助电商平台吸引更多的粘性用户,扩大自身的影响力。
为解决上述技术问题,本发明所采用的技术方案为:
一种电商平台商品专家评论生成方法,其主要特征在于评论重要信息抽取和总结生成摘要,包括如下步骤:
步骤一:输入商品评论,对商品评论进行预处理;
步骤二:将商品评论表示成计算机能够识别的数值表示的词向量,对商品评论中的所有词语进行词频统计,形成每个词语的词权重,然后,针对每一条评论,使用带权重的词向量相加的方式完成句子向量的表示;
步骤三:进行商品评论分析:采用情感词典匹配技术,对商品评论中的每一个词语进行相应的匹配,得出相应词语的情感指数,然后计算出每条评论的情感指数。
步骤四:将每条商品评论作为一个节点,评论之间的相似关系作为边,所有的商品评论可以表示成一个带权值的无向图。评论之间边的权值由语义相似衡量算法计算得出,然后,迭代计算无向图各个节点的重要性,得到每条商品评论的语义重要性指数;
步骤五:评论重排序和Top-N抽取。综合商品评论的情感指数和语义重要性指数,可以得到一个综合指标;将一个商品的所有评论按照综合指标进行降序排序,然后抽取前N个商品评论作为评论生成模型的输入,其中N为设定值;
步骤六:将抽取的Top-N商品评论作为序列到序列(Sequence To Sequence)生成模型的输入,生成专家评论。
进一步的改进,所述步骤一中对商品评论进行预处理的方法为:1.1)对所有的商品评论进行字符长度的统计,根据评论长度出现的频率选择合适长度的评论,过于短的评论删除,过于长的评论按句拆分成多条评论,保证在对比相似度的时候评论长度相当。
1.2)对所有的商品评论进行分词;
1.3)去除无意义的标点符号;
1.4)去除数字、表情、其他语言的表示符号;
1.5)去除停用词。
如权利要求1所述的电商平台商品专家评论生成方法,所述步骤二中,使用GRU语言模型将商品评论训练表示成计算机能够识别的数值表示的词向量;使用TF-IDF技术对对商品评论中的所有词语进行词频统计,形成每个词语的词权重;使用带权重的词向量相加的方式完成句子向量的表示的方法为:v表示句向量;
s代表的是句子的单词数;
w代表的是词向量;
a为设定阈值;
P()计算的是单词的出现频率。
进一步的改进,所述步骤三中,情感指数的计算方法为:
其中δi表示情感指数,i表示评论的编号数;softmax是一个函数,目的是把情感指数限制在0-1之间;countpos(si)表示第i个评论中带有积极情感的单词个数;si表示第i个评论;countneg(si)表示第i个评论中带有消极情感的单词个数;count(si)表示第i个评论中所有的单词数。
进一步的改进,所述步骤四中,语义重要性指数计算方法如下:
γi=softmax(WS(vi))
其中,vi、vj、vk分别表示第i、j、k条评论形成的句子结点,本质是评论的句向量;WS(vi)、WS(vj)表示结点vi、vj的重要性得分;d表示阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率;In(vi)表示指向结点vi的结点集合;Out(vj)表示结点vj指向结点的集合;wji表示结点vi和vj之间的相似度;γi表示经过softmax函数计算过控制在0-1之间的第i条评论的语义重要性指数。
进一步的改进,所述步骤六包括如下步骤:
6.1)抽取的商品评论的词向量输入循环神经网络,循环神经网络将词向量编码成为句向量;
6.2)使用循环神经网络将句向量编码成文本向量Hc
6.3)为解码器抽取文本向量重要的信息:采用注意力机制完成文本向量中重要信息的定位;使用解码层的隐藏信息hyt和编码层的隐藏信息hi的相似程度来作为重要性权重衡量每一个评论的重要性;
重要性权重计算公式如下:
其中,表示第i条评论对t时刻生成词语的影响程度,也就是评论级别的注意力权值,代表的是t时刻生成词语对第i条评论的关注度;i表示第i条评论,t代表的是生成词语的时刻;
softmax是一个函数,目的是把值限制在0-1之间;
表示第i条评论中的第j个单词对t时刻生成词语的影响程度,也就是词语级别的注意力权值,代表的是t时刻生成的词语对第i条评论的第j个词语的关注度;i代表第i条评论,j代表第j个词语,t代表的是生成词语的时刻;
Hc,t代表的是t时刻生成词语时应该接受的文本向量,c代表文本;
hi,j代表的是第i条评论的第j个词语编码后的隐藏信息;
6.4)使用循环神经网络模型对文本向量进行解码,完成解码工作,生成专家评论。
进一步的改进,步骤6.4)中,Hc,t作为每一时刻的输入,则每一时刻解码出相应的单词yt=argmaxP(yt|y1,...,yt-1,Hc,t;θ)
其中,argmaxP()代表的是使得概率p最大的yt的值;
yt代表的是t时刻生成的词语;y1表示初始时刻生成的词语;
θ代表的是我们模型需要训练的参数。
进一步的改进,所述综合指标由情感指数和语义重要性指数相乘得到。
附图说明
图1为现有的商品评论总结技术流程图;
图2为本发明的步骤流程示意图;
图3为词向量和句向量的模型构建步骤示意图。
其中,SIM表示(similar的缩写),SA表示(sentiment analysis的缩写)。SIM代表的是基于相似度的语义重要性检测;SA代表的就是基于情感分析技术的情感指数检测。
具体实施方式
结合图2、图3,下面进行本专利完整技术方案的详细介绍:
一、评论表示
在将评论表示成计算机能够设别的数据之前,我们需要对评论进行一定程度的预处理。预处理的部分主要是去掉一些没有意义的数据,让评论表示更加规整。主要的预处理包括以下几个方面。
1、对所有的商品评论进行字符长度的统计,根据评论长度出现的频率选择合适长度的评论,过于短的评论删除,过于长的评论按句拆分成多条评论,保证在对比相似度的时候评论长度相当。
2、对所有的商品评论进行分词;
3、去除无意义的标点符号;
4、去除数字、表情、其他语言的表示符号;
5、去除停用词。
完成字符级别的预处理之后,我们将采用最新的句向量表示技术,将所有的商品评论表示成计算机能够识别的数值向量。具体的表示过程分为两个部分(图2的SentenceEmbeddings),首先是采用语言模型(GRU语言模型)去训练所有评论的词向量(图2中的w代表的便是词向量),不同于传统的词向量表示,这里的词向量在比较小的维度里面隐含了比较多的语义信息,词向量可以使用维基百科的语料库去训练,然后对所有词语进行词频统计(TF-IDF),形成每个词语的词权重(这里的权重来源于相应的评论数据集,使用TF-IDF的来计算)。
针对每一条评论,使用带权重的词向量相加的方式完成句子向量的表示。每一个评论都按照相同的方式形成相应的句向量表示。计算公式如下:
所有评论经过向量表示,变成计算机可以设别的数据,以便之后的相关处理。这里的词向量服务于句向量,句向量仅仅用于相似度检测算法。
一个简单的例子:我今天很开心!
计算过程如下:
分词:(我,今天,很,开心)
计算每一个词的向量:(w1,w2,w3,w4)w为n维向量
通过TF-IDF(还有其他方法)计算每个词的重要性:(p1,p2,p3,p4)
句向量:v=(p1*w1+p2*w2+p3*w3+p4*w4)/4
二、评论分析
这一部分主要是分析相关的评论,提取出每条评论的重要程度,为下一步评论重排序做好相应的准备,这一部分涉及的主要技术包括情感指数检测和语义重要性检测。
1.情感指数检测(SA)
这一部分(如图2中的SA方块所示)的主要目的就是分析得出每一条评论的情感指数,用户使用评论去表达自己的观点,观点明确的评论往往是情感指向明确的评论,而这些评论才应该是我们专家评论生成技术应该关心的评论。所以我们采用情感词典(一种囊括了绝大部分情感词的词典)匹配技术,具体的操作便是,对评论中的每一个词语去进行相应的匹配,得出相应的情感指数。这里并不需要词向量的辅助,简单的字符匹配就能完成评论情感指数的计算,为了避免消极词和积极词之间的相互抵消,我们采用情感词(消极,积极)的数量统计来表示评论的具体情感指数。
计算公式如下:
包含情感词(消极,积极)越多的评论,我们认为它的情感指数越高。
一个简单的例子:句1:手机续航很不错,外形很漂亮,但是相机太垃圾
句2:手机续航三个小时,外形像板砖
情感词匹配:句1(不错,漂亮,垃圾)
句2(无)
情歌指数:softmax(情感词/句子总词)
2.语义重要性检测(SIM)
这一部分(如图2中的SIM方块所示)的主要目的就是分析得出每一条评论的重要性,采用相似度检测技术的主要原因是,重复越多的评论重要性越高。从直观感受上,同一类评论出现的频率越高就代表着某一类对商品的观点就越强烈,当然单是从频率上来反应某一种强烈的观点并不是最稳妥的一种方式,所以我们采用类似TextRank的图排序方式来完成每一条评论的重要性检测。此部分有一个重要的技术点,也是我们整个技术方案中需要保护的第一个重要的技术点:首先,就是句子之间的相似度计算,传统的相似度计算方法主要采用相似字(或者短语)的个数来衡量两句话的相似性,还停留在字面统计的相似上。不同于传统的相似度计算方法,我们采用了一种新的相似度计算方法,它是一种比较适合于句向量表示的相似度计算方式。它能够从语义层面去计算句子之间的相似度。我们使用预处理部分的句向量在语义空间中彼此的距离来衡量两句话之间的相似度。
词向量是可以理解为高维语义空间里的每个词的坐标点,不同的坐标代表着不同的含义,相近的坐标拥有着相近的含义,同样经过我们加权计算的句子向量也是如此(不同的方法计算出来的权重对相似度的计算也有着不同程度的影响),坐标相近的句子我们就认为它们意思相近,所以我们通过计算它们之间的距离来表示它们之间的相似度,计算公式采用余弦相似度的计算公式,相似度为:cos(v1,v2)。v1表示的是一个句向量,v2表示另一个句向量。cos是计算相似度的函数。
当我们有了计算评论之间相似度的方法之后,我们就可以使用相应的重要性检测算法去衡量每一条评论的重要性。这里的算法也是我们要保护的第二个子技术点。我们将每个句子看成PageRank图中的一个节点,不同于一般的PageRank算法,也是我们技术的创新点之一,我们使用两句的语义相似度来表示节点之间的权重。这样,我们就能将所有的评论表示成一个带权值的无向图。每个节点都有一个初始化的重要性分值(这边是随机初始化的)。最后,我们通过TextRank算法不停的计算各个节点的重要性,各个节点都会收敛到一个定植,最终的值就是我们基于相似度检测技术得出的评论重要性指标。而这个指标代表的就是语义级别的重要性衡量。
计算公式如下:
γi=softmax(WS(vi))
wjk代表的就是句j和句k的语义相似度,也就是cos(vk,vj)。γi就是重要性指标。
到这里,我们就完成了评论分析的部分,接下来就是评论重排序和重要评论信息的抽取。
三、评论重排序和抽取
这个部分主要是原始评论的重新排序和重要信息抽取。也是我们的第三个要保护的子技术点,对于我们的专家评论总结生成技术来说,原始的评论产生往往是无序的,不太适合应用文本摘要的方式去生成短文本。所以经过相应的评论分析,我们就可以应用上面的情感指数和重要性指数去重排序评论,我们的评论重排序方法综合了评论数据的多种特性,能够让原始的评论变得适合于我们的文本生成模型。
我们的重排序技术最主要的依据就是情感指数和语义重要性指数(融合了大量的语义信息)得出来的指标。为了兼顾这两个指标来进行排序。我们将这两个指标相乘,得到一个最终的指标,然后我们根据这个指标的大小去排序。这样,我们就能得到语义上重要性比较高同时情感指数又比较高的评论。基于相似度语义信息融合的重要性指标生成和评论情感的指标生成相互作用,我们的重排序算法可以做到其他算法无法完成的重要信息提取。
重新排序过后的评论,我们抽取综合指标最高的N组评论(N的大小视具体的数据量去设置)用来作为我们生成模型的输入。这组评论基本上就展示了一个商品的重要特性。即使是作为中间结果,我们也可以使用它来作为初略的评论总结,为消费者和商家提供参考。
四、生成模型
这一部分的主要目的就是根据之前抽取的重要评论来生成相应的专家评论总结。序列到序列生成模型是生成专家评论的重要部分,也是本专利的核心部分,这里采用了最新的深度学习技术。同时,序列到序列生成模型也是我们要保护的第三个子技术点,首先,专家评论生成本身就是一个没有被应用到电商平台评论挖掘的技术。第二,生成模型加入了独特的分层编码机制和多重注意力机制,表现优于一般的生成模型。关于生成模型部分,总共包括三个重要的组成部分,分别是编码部分,解码部分,注意力机制三个主要部分。
首先是编码部分(Encoder),这部分的主要目的就是将抽取出来的重要评论编码成计算机可以识别出来的语言。这里采用多层编码的机制,可以更好地应对较长的文本数据,也是重要的技术点,需要保护的子技术点之一。编码主要是三个步骤,第一步就是将词编码成词向量,这边我们可以采用评论表示部分的已经生成的词向量,不再另外去训练词向量(w)。第二步是使用GRU(一种循环神经网络)去编码这些词向量每一条评论里面的词向量:
hi,j=GRU(hi,j-1,wi,j);hi,j代表的是第i条评论的第j个词语编码后的隐藏信息;wi,j表示第i评论的第j个单词的词向量;GRU(hi,j-1,wi,j)表示的是通过GRU(一种循环神经网络)去接受前一个词语编码的隐藏信息hi,j-1和当词语的词向量wi,j生成我们需要的编码隐藏信息。
经过GRU的编码之后(如图2Encoder部分的下半部分所示)会形成代表每条评论的隐藏含义vi=hi,end,vi表示第i条评论的句向量;hi,end表示的是第i条评论的最后一个单词的编码的隐藏信息,因为GRU编码保留了前面单词的信息,所以可以采用它来表示整个句子的信息,可以用作为句向量,简单来说就是将评论编码成为了句向量,不同于之前的评论表示产生的句向量,这边的句向量包含的语义信息更加的丰富。完成前两步的编码之后,我们将进行最后的编码,同样是采用GRU去完成最后的编码:
hi=GRU(hi-1,vi);hi表示第i条评论的隐藏信息;hi-1表示第i条评论前面的一条评论的隐藏信息。
对于生成的每一条评论的句向量,GRU会将它们一个接着一个的编码成文本向量Hc(如图2的上半部分所示,关于Hc的计算在注意力机制部分会提到),到此我们就完成了相应的编码工作。
然后就是注意力机制部分(Attention Mechanism),这里使用了多种注意力机制,可以更好地识别重要的信息,也是重要的技术点,需要保护的子技术点之一。这一部分在图2中没有直接体现出来。但确实是沟通编码和解码的重要部分,注意力机制的主要目的就是从编码的所有信息中为解码器抽取出重要的信息,为生成专家评论做好准备。注意力机制主要受人类视野机制的启发,人的眼睛可能更加关注重要的信息。如图2所示,我们使用解码层的隐藏信息(hyt)和编码层的隐藏信息(hi)的相似程度来作为重要性权重来衡量每一个评论的重要性。不同于传统的注意力机制,这里采用多种注意力机制去完成重要信息的定位。我们使用解码层的隐藏信息(hyt))和编码层的隐藏信息(hi,j)的相似程度来作为重要性权重来衡量每一个评论中的每一个词语的重要性。Hc就是编码部分的隐藏信息的句子、单词重要性的加权和。这些计算出来的权值和可以定位出重要的信息,用来解码。
权值计算公式如下:
最后是生成模型的解码部分(Decoder),解码器的实质便是一个语言模型,为我们生成合适的专家评论总结。同样是使用循环神经网络模型(GRU)来完成相应的解码工作。如图2的Decoder部分所示,Hc,t作为每一时刻的输入,相关的信息都是不同的,每一时刻我们都会解码出相应的单词:
yt=argmaxP(yt|y1,...,yt-1,Hc,t;θ)
当我们解码到合适长度的文本信息之后,我们就可以生成相应的专家评论了。
上述实施例仅仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。

Claims (6)

1.一种电商平台商品专家评论生成方法,其主要特征在于评论重要信息抽取和总结生成摘要,包括如下步骤:
步骤一:输入商品评论,对商品评论进行预处理;
步骤二:将商品评论表示成计算机能够识别的数值表示的词向量,对商品评论中的所有词语进行词频统计,形成每个词语的词权重,然后,针对每一条评论,使用带权重的词向量相加的方式完成句子向量的表示;
步骤三:进行商品评论分析:采用情感词典匹配技术,对商品评论中的每一个词语进行相应的匹配,得出相应词语的情感指数,然后计算出每条评论的情感指数;
步骤四:将每条商品评论作为一个节点,评论之间的相似关系作为边,所有的商品评论可以表示成一个带权值的无向图;评论之间边的权值由语义相似衡量算法计算得出,然后,迭代计算无向图各个节点的重要性,得到每条商品评论的语义重要性指数;
步骤五:评论重排序和Top-N抽取:综合商品评论的情感指数和语义重要性指数,得到一个综合指标;将一个商品的所有评论按照综合指标进行降序排序,然后抽取前N个商品评论作为评论生成模型的输入,其中N为设定值;
步骤六:将抽取的前N个商品评论作为序列到序列生成模型的输入,生成专家评论。
2.如权利要求1所述的电商平台商品专家评论生成方法,所述步骤一中对商品评论进行预处理的方法为:
1.1)对所有的商品评论进行字符长度的统计,根据评论长度出现的频率选择合适长度的评论,过于短的评论删除,过于长的评论按句拆分成多条评论,保证在对比相似度的时候评论长度相当。
1.2)对所有的商品评论进行分词;
1.3)去除无意义的标点符号;
1.4)去除数字、表情、其他语言的表示符号;
1.5)去除停用词。
3.如权利要求1所述的电商平台商品专家评论生成方法,所述步骤二中,使用GRU语言模型将商品评论训练表示成计算机能够识别的数值表示的词向量;使用TF-IDF技术对对商品评论中的所有词语进行词频统计,形成每个词语的词权重;使用带权重的词向量相加的方式完成句子向量的表示的方法为:v表示句向量;
s代表的是句子的单词数;
w代表的是词向量;
a为设定阈值;
P()计算的是单词的出现频率。
4.如权利要求1所述的电商平台商品专家评论生成方法,所述步骤三中,情感指数的计算方法为:
其中δi表示情感指数,i表示评论的编号数;softmax是一个函数,目的是把情感指数限制在0-1之间;countpos(si)表示第i个评论中带有积极情感的单词个数;si表示第i个评论;countneg(si)表示第i个评论中带有消极情感的单词个数;count(si)表示第i个评论中所有的单词数。
5.如权利要求1所述的电商平台商品专家评论生成方法,所述步骤四中,语义重要性指数计算方法如下:
γi=sof tmax(WS(vi))
其中,vi、vj、vk分别表示第i、j、k条评论形成的句子结点,本质是评论的句向量;WS(vi)、WS(vj)表示结点vi、vj的重要性得分;d表示阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率;In(vi)表示指向结点vi的结点集合;Out(vj)表示结点vj指向结点的集合;wji表示两点vi和vj之间的相似度;γi表示经过sof tmax函数计算过的控制在0-1之间的第i条评论的语义重要性指数。
6.如权利要求1所述的电商平台商品专家评论生成方法,所述步骤六包括如下步骤:
6.1)抽取的商品评论的词向量输入循环神经网络,循环神经网络将词向量编码成为句向量;
6.2)使用循环神经网络将句向量编码成文本向量Hc
6.3)为解码器抽取文本向量重要的信息:采用注意力机制完成文本向量中重要信息的定位;使用解码层的隐藏信息hyt和编码层的隐藏信息hi的相似程度来作为重要性权重衡量每一个评论的重要性;
重要性权重计算公式如下:
其中,表示第i条评论对t时刻生成词语的影响程度,也就是评论级别的注意力权值,代表的是t时刻生成词语对第i条评论的关注度;i表示第i条评论,t代表的是生成词语的时刻;
sof tmax是一个函数,目的是把值限制在0-1之间;
表示第i条评论中的第j个单词对t时刻生成词语的影响程度,也就是词语级别的注意力权值,代表的是t时刻生成的词语对第i条评论的第j个词语的关注度;i代表第i条评论,j代表第j个词语,t代表的是生成词语的时刻;
Hc,t代表的是t时刻生成词语时应该接受的文本向量,c代表文本;
hi,j代表的是第i条评论的第j个词语编码后的隐藏信息;
6.4)使用循环神经网络模型对文本向量进行解码,完成解码工作,生成专家评论。具体来说,Hc,t作为每一时刻的输入,则每一时刻解码出相应的单词yt=argmaxP(yt|y1,...,yt-1,Hc,t;θ)
其中,argmaxP()代表使概率P最大的yt的值;
yt代表的是t时刻生成的词语;y1表示初始时刻生成的词语;
θ代表的是我们模型需要训练的参数。
CN201810028986.1A 2018-01-12 2018-01-12 一种电商平台商品专家评论生成方法 Active CN108256968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810028986.1A CN108256968B (zh) 2018-01-12 2018-01-12 一种电商平台商品专家评论生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810028986.1A CN108256968B (zh) 2018-01-12 2018-01-12 一种电商平台商品专家评论生成方法

Publications (2)

Publication Number Publication Date
CN108256968A true CN108256968A (zh) 2018-07-06
CN108256968B CN108256968B (zh) 2022-03-18

Family

ID=62726612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810028986.1A Active CN108256968B (zh) 2018-01-12 2018-01-12 一种电商平台商品专家评论生成方法

Country Status (1)

Country Link
CN (1) CN108256968B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657212A (zh) * 2018-12-13 2019-04-19 武汉大学 一种基于词移距离结合词向量的音乐文案生成方法
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN110264315A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 介绍信息生成方法和装置
CN110866800A (zh) * 2019-09-23 2020-03-06 车智互联(北京)科技有限公司 评论生成方法及计算设备
CN111783445A (zh) * 2019-06-26 2020-10-16 北京沃东天骏信息技术有限公司 数据生成方法、装置、介质及电子设备
CN112149924A (zh) * 2019-06-26 2020-12-29 北京京东尚科信息技术有限公司 描述信息处理方法、装置、设备及计算机可读存储介质
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
CN113051928A (zh) * 2021-03-17 2021-06-29 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880631A (zh) * 2012-07-05 2013-01-16 湖南大学 一种基于双层分类模型的中文作者识别方法及其装置
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
CN104298785A (zh) * 2014-11-12 2015-01-21 中南大学 一种众搜资源搜索方法
US9262688B1 (en) * 2011-09-24 2016-02-16 Z Advanced Computing, Inc. Method and system for analyzing and recognition of an emotion or expression from multimedia, text, or sound track
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262688B1 (en) * 2011-09-24 2016-02-16 Z Advanced Computing, Inc. Method and system for analyzing and recognition of an emotion or expression from multimedia, text, or sound track
CN102880631A (zh) * 2012-07-05 2013-01-16 湖南大学 一种基于双层分类模型的中文作者识别方法及其装置
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
CN104298785A (zh) * 2014-11-12 2015-01-21 中南大学 一种众搜资源搜索方法
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
MOMENI, ELAHEH 等: "Leveraging Semantic Facets for Adaptive Ranking of Social Comments", 《PROCEEDINGS OF THE 2017 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL》 *
NAYAK, RICHI 等: "XML schema clustering with semantic and hierarchical similarity measures", 《KNOWLEDGE-BASED SYSTEMS》 *
ZHAO, QINLU 等: "Commented Content Classification with Deep Neural Network Based on Attention Mechanism", 《2017 IEEE 2ND ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE》 *
冯仓龙: "商品细粒度评价的识别与分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
姜文君: "在线社会网络中个性化信任评价基础与应用研究", 《中国博士学位论文全文数据库 信息科技辑》 *
王波 等: "基于深度特征的句子级文本情感分类", 《现代计算机》 *
谢秋妹: "故事事件语义建模及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
阮光册: "网络用户评论的语义挖掘研究", 《情报科学》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN109657212A (zh) * 2018-12-13 2019-04-19 武汉大学 一种基于词移距离结合词向量的音乐文案生成方法
CN109657212B (zh) * 2018-12-13 2022-04-15 武汉大学 一种基于词移距离结合词向量的音乐文案生成方法
CN110264315A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 介绍信息生成方法和装置
CN111783445A (zh) * 2019-06-26 2020-10-16 北京沃东天骏信息技术有限公司 数据生成方法、装置、介质及电子设备
CN112149924A (zh) * 2019-06-26 2020-12-29 北京京东尚科信息技术有限公司 描述信息处理方法、装置、设备及计算机可读存储介质
CN110866800A (zh) * 2019-09-23 2020-03-06 车智互联(北京)科技有限公司 评论生成方法及计算设备
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
CN113051928A (zh) * 2021-03-17 2021-06-29 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备
CN113051928B (zh) * 2021-03-17 2023-08-01 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备

Also Published As

Publication number Publication date
CN108256968B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN108256968B (zh) 一种电商平台商品专家评论生成方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN110502626B (zh) 一种基于卷积神经网络的方面级情感分析方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN112100344A (zh) 一种基于知识图谱的金融领域知识问答方法
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
CN107180247A (zh) 基于选择性注意力卷积神经网络的关系分类器及其方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN111325571B (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN107357793A (zh) 信息推荐方法和装置
CN107944911A (zh) 一种基于文本分析的推荐系统的推荐方法
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN107818084A (zh) 一种融合点评配图的情感分析方法
Li et al. Accurate recommendation based on opinion mining
Mozafari et al. Emotion detection by using similarity techniques
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN106250365A (zh) 基于文本分析的消费者评论中商品属性特征词的提取方法
CN107818173A (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115712731A (zh) 一种基于ernie和多特征融合的多模态情感分析方法
Mahima et al. A text-based hybrid approach for multiple emotion detection using contextual and semantic analysis
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Jiang Wenjun

Inventor after: Ding Xiaofei

Inventor after: Ren Desheng

Inventor before: Jiang Wenjun

GR01 Patent grant
GR01 Patent grant