CN110717338A - 一种基于用户评论的典型意见生成装置 - Google Patents
一种基于用户评论的典型意见生成装置 Download PDFInfo
- Publication number
- CN110717338A CN110717338A CN201911060455.1A CN201911060455A CN110717338A CN 110717338 A CN110717338 A CN 110717338A CN 201911060455 A CN201911060455 A CN 201911060455A CN 110717338 A CN110717338 A CN 110717338A
- Authority
- CN
- China
- Prior art keywords
- topic
- user comments
- function
- words
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本申请属于语义分析技术领域,公开了一种基于用户评论的典型意见生成装置,该装置包括:抽取模块,用于基于所述用户评论抽取多个主题词;生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。本申请能够帮助基于用户评论进行动机挖掘,获得更精准效果。
Description
技术领域
本发明涉及语义分析领域,尤其涉及一种基于用户评论的典型意见生成装置。
背景技术
在当前线上交易(如购物)已经成为大众主流消费方式的情况下,用户的评论对于产品具有非常重要的影响。
例如,在车辆领域,众多的车辆线上平台或资源中,如各类门户网站、论坛或app,存在大量的用户评价信息。用户在了解、购买、使用某款车辆的全过程中都会浏览这些线上的用户评价信息,从而结合自己的感觉来对该款车辆进行评价,从而发生连锁效应。
通过上述示例可知,对于各类产品来说,通过大量用户评价信息的积累,会产生海量的用户意见线上数据,进而逐渐形成占据主流地位的典型意见。这对于该产品的市场竞争有着关键性的影响力。
目前通过用户评论来挖掘用户的典型意见,主要通过两个途径:一是通过人工浏览相关网站评论进行总结,二是通过问卷公司对用户进行问卷调查,汇总问卷结果。上述主要通过人工处理用户评论的方式,难以对巨大数据量的评论意见进行数据处理,并且需耗费大量人力、时间,且还可能存在覆盖不全面或区分不精细等问题。
有鉴于此,如何高效且准确地对线上的用户评论进行分析处理,进而获得典型意见,成为本领域需要解决的技术问题。
发明内容
有鉴于此,本申请提出了一种基于用户评论的典型意见生成装置,以通过对用户评论自然语言的构成进行分析的技术手段来实现用户的动机挖掘。
根据本申请的一个方面,提出了一种基于用户评论的典型意见生成装置,该装置包括:
抽取模块,用于基于所述用户评论抽取多个主题词;
生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。
优选地,所述抽取模块,利用编码器-解码器模型抽取所述多个主题词,其中编码器应用注意力机制,解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。
优选地,所述生成模块,还用于针对所述多个主题词使用注意力模型生成所述用户评论的典型意见;其中所述注意力模型为:
gtj=covt-1,jva T tanh(Waht-1+Uatopicj)
gtj为第j个主题topicj在时间为t时的注意力系数,t-1为t的前一时间,T={topic1,topic2,…topick},va T、Wa、Ua为随机初始化矩阵,N表示生成的文本的词的个数,σ为sigmoid函数,k表示主题的数量,dw表示每个主题向量的维度,Uf表示k个dw维主题向量的合并。
优选地,所述编码器模型为:
ht=f(xt,ht-1);
c=q(h1,h2,…,hM);
h=(h1,h2,…,hM);
其中,输入序列X=(x1,x2,…,xM),f是GRU函数,语境向量c作为输入序列经过非线性函数q后的全部表达,向量c的每个维度经过q函数得到。
优选地,所述解码器模型为:
St=f(yt-1,St-1,c);
p(yt|y1,…,t-1,X)=g(yt-1,St,c);
其中,St为解码器在t时刻的隐状态,输出序列y=(y1,y2,…,yM′),非线性函数g是柔性最大值传输函数分类器,a(si-1,hj)是测量si-1和hj相似度的柔性对齐函数,si-1表示位置i的输出内容,hj表示位置硐的输入内容,ci表示向量c的第i个维度,M表示隐状态向量的个数。
优选地,p(yt|y1,…,t-1,X)=pg(yt|y1,…,t-1,X)+pc(yt|y1,…,t-1,X);其中,
pg(yt|y1,…,t-1,X)=g(yt-1,St,c);
优选地,该装置还包括初始化模块,用于对原始用户评论进行数据过滤和数据标准化。
根据本申请的技术方案,通过对海量的线上用户评价信息进行筛选、标记进而根据分析模型的语义结构处理,从而准确地获取用户评论的典型意见。通过上述方式可以以有效处理更大体量的数据,自动生成方式比人工更快速高效,短时间内生成大量典型意见,从而能够高效地实现典型意见的获取。另一方面,由于用户评价信息数据量较大,因此覆盖评论更广,利用本申请的技术手段能够过滤掉人为的情感因素,从而获得更精准的分析结果。
本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:
图1为本申请实施例提供的基于用户评论的典型意见生成方法示意图;
图2为本申请实施例提供的基于用户评论的典型意见生成装置。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
下面将参考附图并结合实施方式来详细说明本申请。
图1示出了本申请提供的基于用户评论的典型意见生成方法流程,该方法包括:
步骤105,数据初始化。数据初始化主要包括数据过滤和数据标准化。用户评论中有些词出现频率高,但是与主题无关,不适合用来生成典型意见,需要过滤掉。另外,在数据处理过程中需要用到字典,字典规模过大会使得数据处理变得困难,例如低频词会由于其稀疏性导致错误,因而需要将低频词过滤掉,低频词可以为出现频次小于一定数据的词。
例如,{DW1,DW2,…,DWn}是一簇不同用户发表的语义相似的评论的词汇集,n为原始评论中词汇数,其可以表征原始用户评论。首先,进行数据过滤,将评论中停用词和“是”、“的”等出现频率高但与主题无关的词删除;再次,进行数据标准化,将出现频次小于3次的稀疏词删去,使数据更加简洁清晰,得到{DW1′,DW2′,…,DWm′},称为“信息池”,其中m为过滤后的文章词汇数,可以表征源用户评论。后续生成标题时,直接从“信息池”中抽取信息,可有效排除频率高但与主题无关的词干扰,防止低频词造成词汇稀疏,避免标题偏离正确主题。
步骤110,关键短语抽取。关键短语抽取可以通过数据处理模型来实现,本申请实施例采用带有复制机制的编码器-解码器模型抽取评论中的关键短语。编码器-解码器模型可以通过机器学习的方式来实现。
编码器-解码器模型中,编码器将源用户评论压缩为隐藏的表示形式,解码器用来生成对应的关键短语。编码器和解码器可以使用常用词典,该词典中国可以包含最常出现的5000个词。
优选地,编码器使用带有注意力机制的双向门限循环单元(GRU)。编码器将变长的输入序列X=(x1,x2,…,xM)转换成一组隐藏表达h=(h1,h2,…,hM),在时间为t时按照下列等式迭代:
ht=f(xt,ht-1)
其中,f是表示GRU函数。语境向量c作为输入X经过非线性函数q后的全部表达。
c=q(h1,h2,…,hM)
优选地,解码器使用另一个前向GRU,采用注意力机制来提高性能。它通过一个条件语言模型,将语境向量解压,逐词生成一个变长序列y=(y1,y2,…,yM′)。条件语言模型为:
St=f(yt-1,St-1,c)
p(yt|y1,…,t-1,X)=g(yt-1,St,c)
其中,St是解码器RNN在时间t时的隐状态。非线性函数g是一个柔性最大值传输函数(softmax)分类器,输出在词典中所有词的概率。yt是在时间t时,运用函数g计算预测词概率,以获得的概率值最大的词作为最后的预测词。
语境向量c作为隐状态h=(h1,h2,…,hM)的加权和来计算
其中a(Si-1,hj)是测量Si-1和hj相似度的柔性对齐函数,也就是用来测量输入位置硐附近和输出位置i的相似程度。
为了保证学习到的表达的质量并且减少辞典规模引入,可以是使用复制机制,从而有效预测未登录词汇。为了结合复制机制,预测的每一个新词的概率yt包含两部分,第一部分是生成概率,第二部分是从源文件复制的概率:
p(yt|y1,…,t-1,X)=pg(yt|y1,…,t-1,X)+pc(yt|y1,…,t-1,X)
其中,pc(yt|y1,…,t-1,X)只考虑源文本中的词汇。这样,结合了复制机制的RNN,既可以预测没有出现在词典,但是出现在源文本中的词,又会优先考虑出现在源文本中的词。
步骤115,多主题感知模型生成典型意见。步骤110中得到的关键短语作为多主题感知模型的输入,T={topic1,topic2,…topick},其中k表示短语中的词汇数量。
为了使用多主题感知模型,本申请中针对传统的注意力模型进行改进,引入了变量covi,用来表示每个主题词有多少信息已经被生成,同时还有多少信息没有被生成。对于一个主题词,初始值为1,即cov0,k=1(表示主题词k未生成的信息为1,已生成的信息为0)。covi会对注意力计算过程产生影响,对于剩余信息还很多的主题词应会相应增大它的注意力系数,反之对于生成信息较多的主题词应该减小它的注意力系数,主题硐在时间为t时的注意力系数计算公式如下:
gtj=covt-1,j va T tanh(Waht-1+Uatopicj)
其中,va T、Wa、Ua为三个随机初始化,是需要在训练中逐步优化的矩阵;topicj表示第硐个主题;
covi的更新公式如下:
其中αt,j表示主题词k最终所要生成文本的多少。
N表示生成的文本的词的个数,σ为sigmoid函数,k表示主题的数量,
dw表示每个主题向量的维度,Uf表示k个dw维主题向量的合并。
每生成一个词,covi都会发生变化。对于不同主题词有不同的估计值,这样可以有效保证有一个最主要的主题词被更好表达。
优选地,对于步骤115输出的典型意见,可以进行人工检验和校对,并进行润色,最终确定这一簇评论的典型意见,从而使生成的意见更加准确,并具有良好可读性。
相应地,本申请实施例提供了一种基于用户评论的典型意见生成装置,如图2所示,具体包括:抽取模块,用于基于所述用户评论抽取多个主题词;生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。
优选地,抽取模块利用编码器-解码器模型抽取所述多个主题词,其中编码器添加注意力机制,解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。生成模块,还用于针对多个主题词使用注意力模型生成所述用户评论的典型意见;其中所述注意力模型为:
gtj=covt-1,j va T tanh(Waht-1+Uatopicj);
gtj为第j个主题topicj在时间为t时的注意力系数,t-1为t的前一时间,T={topic1,topic2,…topick},va T、Wa、Ua为随机初始化矩阵,N表示生成的文本的词的个数,σ为sigmoid函数,k表示主题的数量。
优选地,编码器模型为:
ht=f(xt,ht-1);
c=q(h1,h2,…,hM);
h=(h1,h2,…,hM);
其中,输入序列X=(x1,x2,…,xM),f是GRU函数,语境向量c作为输入序列经过非线性函数q后的全部表达,向量c的每个维度经过q函数得到,M表示隐状态向量的个数。
优选地,所述解码器模型为:
St=f(yt-1,St-1,c);
p(yt|y1,…,t-1,X)=g(yt-1,St,c);
其中,St为解码器在t时刻的隐状态,输出序列y=(y1,y2,…,yT′),非线性函数g是柔性最大值传输函数分类器,a(si-1,hj)是测量si-1和hj相似度的柔性对齐函数。si-1表示位置i的输出内容,hj表示位置j的输入内容,ci表示向量c的第i个维度。
p(yt|y1,…,t-1,X)=pg(yt|y1,…,t-1,X)+pc(yt|y1,…,t-1,X);其中,
优选地,该装置还包括初始化模块,用于对原始用户评论进行数据过滤和数据标准化。
以上所述仅为本申请的较佳实施方式而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.一种基于用户评论的典型意见生成装置,其特征在于,该装置包括:
抽取模块,用于基于所述用户评论抽取多个主题词;
生成模块,用于根据所述多个主题词生成所述用户评论的典型意见。
2.根据权利要求1所述的装置,其特征在于,所述抽取模块,利用编码器-解码器模型抽取所述多个主题词,其中编码器应用注意力机制,解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。
4.根据权利要求3所述的装置,其特征在于,所述编码器模型为:
ht=f(xt,ht-1);
c=q(h1,h2,…,hM);
h=(h1,h2,…,hM);
其中,输入序列X=(x1,x2,…,xM),f是GRU函数,语境向量c作为输入序列经过非线性函数q后的全部表达,向量c的每个维度经过q函数得到。
7.根据权利要求1-6任意一项所述的装置,其特征在于,该装置还包括初始化模块,用于对原始用户评论进行数据过滤和数据标准化。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689929 | 2019-07-29 | ||
CN2019106899292 | 2019-07-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717338A true CN110717338A (zh) | 2020-01-21 |
CN110717338B CN110717338B (zh) | 2020-07-14 |
Family
ID=69213663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911060455.1A Active CN110717338B (zh) | 2019-07-29 | 2019-11-01 | 一种基于用户评论的典型意见生成装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717338B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
CN109005238A (zh) * | 2018-08-18 | 2018-12-14 | 冼钇冰 | 一种微博话题推送方法、装置、终端及计算机存储介质 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN109947894A (zh) * | 2019-01-04 | 2019-06-28 | 北京车慧科技有限公司 | 一种文本标签提取系统 |
CN110362817A (zh) * | 2019-06-04 | 2019-10-22 | 中国科学院信息工程研究所 | 一种面向产品属性的观点倾向性分析方法及系统 |
-
2019
- 2019-11-01 CN CN201911060455.1A patent/CN110717338B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
CN109005238A (zh) * | 2018-08-18 | 2018-12-14 | 冼钇冰 | 一种微博话题推送方法、装置、终端及计算机存储介质 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN109947894A (zh) * | 2019-01-04 | 2019-06-28 | 北京车慧科技有限公司 | 一种文本标签提取系统 |
CN110362817A (zh) * | 2019-06-04 | 2019-10-22 | 中国科学院信息工程研究所 | 一种面向产品属性的观点倾向性分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
JIATAO GU等: "Incorporating Copying Mechanism in Sequence-to-Sequence Learning", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ACL》 * |
JSONG1122: "一文教你挖掘用户评论典型意见", 《HTTPS://WWW.JIANSHU.COM/P/9B3786674E4D》 * |
ZHAOPENG TU 等: "Modeling Coverage for Neural Machine Translation", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ACL》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110717338B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN107608956B (zh) | 一种基于cnn-grnn的读者情绪分布预测算法 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN110147452B (zh) | 一种基于层级bert神经网络的粗粒度情感分析方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN110263147A (zh) | 推送信息的生成方法及装置 | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
CN112287197A (zh) | 动态记忆案件描述的涉案微博评论讽刺句检测方法 | |
CN116543406A (zh) | 多特征融合的双目标自监督医疗问题文本聚类方法及系统 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
Rajalakshmi et al. | Sentimental analysis of code-mixed Hindi language | |
Wang et al. | Deep learning sentiment classification based on weak tagging information | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN110717338B (zh) | 一种基于用户评论的典型意见生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |