CN108763390A - 基于滑动窗口技术的细粒度主题提取方法 - Google Patents
基于滑动窗口技术的细粒度主题提取方法 Download PDFInfo
- Publication number
- CN108763390A CN108763390A CN201810485599.0A CN201810485599A CN108763390A CN 108763390 A CN108763390 A CN 108763390A CN 201810485599 A CN201810485599 A CN 201810485599A CN 108763390 A CN108763390 A CN 108763390A
- Authority
- CN
- China
- Prior art keywords
- sliding window
- word
- theme
- local
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于滑动窗口技术的细粒度主题提取方法,解决了现有技术的不足,技术方案为:步骤S1,把评论作为滑动窗口的集合;步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。
Description
技术领域
本发明涉及电子商务平台的评论数据主题抽取,具体涉及一种电子商务平台的基于滑动窗口技术的细粒度主题提取方法。
背景技术
随着移动互联网和电子商务技术的发展,各种类型的购物网站层次不穷,极大的方便了消费者的生活。但是由于线上购物不同于线下实体店购物,消费者无法感知产品质量、切身体验商品。与此同时,电子商务网站上出现了海量的产品在线评论,随着网购群体数量的迅猛增长,产品评论数据呈现爆发式增长,这些评论数据存在着巨大的商业价值。一方面,消费者在进行购物决策时,可以把这些评论内容作为参考,更加深入的了解所关注的产品,以做出更好的购物决策,另一方面,商家或者行业组织等可以通过挖掘消费者反馈的评论内容。类似的专利百度腾讯等都已有所申请,在此不做具体展开。
然而,目前现有针对主题抽取的方法有基于人工定义的方法、基于频率的方法以及基于有监督学习方法。但是,随着海量数据的增长,这些方法在进行主题抽取都存在着一定的局限性。例如,基于人工定义的方法时间和人力成本较大,且针对不同领域定义时,需要不同领域内的专家参与特征词定义,适应力较差;基于频率的方法存在着无法将相关特征词进行聚类等问题。因此,基于滑动窗口技术的细粒度主题抽取方法研究是十分有必要的。
发明内容
本发明的目的在于解决上述现有技术缺少一种除了满足消费者从整体上感知产品或服务的好坏,还能让消费者具体感知到自己所想了解到某个方面的具体评价信息,做出理性的消费决策,对商家来说,通过消费者评论内容了解产品或服务存在的缺点以及消费者的偏好,从而改进产品设计,优化服务,做出更好的营销方案的问题,提供了一种电子商务平台的基于滑动窗口技术的细粒度主题抽取方法。
本发明解决其技术问题所采用的技术方案是:基于滑动窗口技术的细粒度主题提取方法,包括以下步骤:
步骤S1,把评论作为滑动窗口的集合;
步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;
步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;
步骤S4,分别计算词wd.n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;
步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。
本发明主要是采用滑动窗口技术对电商产品评论数据的细粒度主题进行提取,本发明是将词共现信息从文级变为句子级,将几个句子组成一个滑动窗口,评论文档中的主题词从滑动窗口中提取,其中主题主要分为全局主题和局部主题。全局主题指的是由主题模型识别出的某一具体类型的被评价实体,如手机的品牌;局部主题指的是某一具体类型的被评价实体的某一方面,表示主题粒度更细,如手机的屏幕。由于目前的方法都没有将主题分为细粒度的全局主题和局部主题,导致在提取局部主题时存在着一定的局限性。因此,本文为了进行细粒度的主题,采用了基于滑动窗口技术,把评论作为滑动窗口的集合。假设每一个评论都包含S个句子,则可以选取其中T个相邻的句子组成一个滑动窗口。假设设文档d中每一个滑动窗口v上分别有两种分布:第一是在局部主题上的分布;第二是在主题选择(选择全局主题或局部主题)分布,则词可从包含它的句子s的任一滑动窗口抽样,窗口根据主题分类分布选择。
作为优选,所述步骤S2中,通过计算条件概率分布函数,获得采样词的主题是属于全局主题还是局部主题以及所属窗口的条件概率分布:P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)
上式中v′表示滑动窗口向量,r表示是所在的滑动窗口是全部主题还是局部主题,r′表示上下文或全局或局部的向量,z指的是文档的全部主题还是局部主题,z′表示主题向量。
作为优选,步骤S3中,构建关于滑动窗口、全部/局部主题的联合概率分布函数:
P(w,v,r,z)=P(w|r,z)P(v,r,z)
上式中,w表示词向量。
作为优选,P(v,r,z)=P(v)P(r|v)P(z|r,v)。
上式中的W表示词汇表的大小,代表的是词w出现在全局主题z中的次数,nw loc,z代表的是词w出现在局部全局主题z中的次数,ngl,z和nloc,z分别表示的是分配到全局主题和局部主题z中的总数,Γ是Gmma函数,全局主题的数量或局部主题的数量由Kr表示,K表示滑动窗口v中相邻的句子的个数。
作为优选,
上式中Ns代表集合中句子中的数量,nd,s表示文档d中句子s的长度,nv d,s表示一个词被分配到v中的句子s的次数;
上式中Nv指的是集合中滑动窗口的总数,nd,v指的是被分配到滑动窗口v中词的数量,表示一个词被分配到全局主题的滑动窗口v中的次数,表示一个词被分配到局部主题的滑动窗口v中的次数;
上式中D表示文档的数量,表示的是文档d中的一个词被分配到某个全局主题中的次数,表示的是文档d中的一个词被分配到全局主题中的次数,指的是文档d中的一个词被分配到滑动窗口v中的某个局部主题的次数,指的是文档d中的一个词被分配到滑动窗口v中的局部主题z的次数,α gl为全局主题的狄利克雷分布参数,αloc为局部主题的狄利克雷分布参数。具体参数由Dmdp模型设定时确定。
作为优选,通过以下公式,在步骤S5完成全部主题提取,
P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)
上式中s表示词n出现的句子,βg1为先验狄利克雷分布参数,γ狄利克雷随机分布参数。
作为优选,通过以下公式,在步骤S5完成局部主题的提取,
本发明的实质性效果是:本发明提出了一种快速、高效的细粒度主题提取的方法。除了满足消费者从整体上感知产品或服务的好坏,而且还让消费者具体感知到自己所想了解到某个方面的具体评价信息,做出理性的消费决策。除此之外,对商家来说,还可以通过消费者评论内容了解产品或服务存在的缺点以及消费者的偏好,从而改进产品设计,优化服务,做出更好的营销方案。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面通过具体实施例,对本发明的技术方案作进一步的具体说明。
实施例1:
基于滑动窗口技术的细粒度主题提取方法,本实施例首先获取原始数据,并对原始数据进行预处理,去除非必要的词汇后获得符合要求的干净的评论数据,然后执行以下步骤:
采用了基于滑动窗口技术,把评论作为滑动窗口的集合。假设每一个评论都包含S个句子,则可以选取其中K个相邻的句子组成一个滑动窗口。假设设文档d中每一个滑动窗口v上分别有两种分布:第一是在局部主题上的分布;第二是在主题选择(选择全局主题或局部主题)分布,则词可从包含它的句子s的任一滑动窗口抽样,窗口根据主题分类分布选择。
具体步骤如下:
步骤S1,把评论作为滑动窗口的集合;
步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;
步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;
步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;
步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。
更具体描述如下:
所述步骤S2中,通过计算条件概率分布函数,获得采样词的主题是属于全局主题还是局部主题以及所属窗口的条件概率分布:
P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)
上式中v′表示滑动窗口向量,r表示是所在的滑动窗口是全部主题还是局部主题,r′表示上下文或全局或局部的向量,z指的是文档的全部主题还是局部主题,z′表示主题向量。
步骤S3中,构建关于滑动窗口、全部/局部主题的联合概率分布函数:
P(w,v,r,z)=P(w|r,z)P(v,r,z)
上式中,w表示词向量。
P(v,r,z)=P(v)P(r|v)P(z|r,v);
上式中的W表示词汇表的大小,nw gl,z代表的是词w出现在全局主题z中的次数,nw loc,z代表的是词w出现在局部全局主题z中的次数,ngl,z和nloc,z分别表示的是分配到全局主题和局部主题z中的总数,Γ是Gmma函数,全局主题的数量或局部主题的数量由Kr表示,K表示滑动窗口v中相邻的句子的个数。
上式中Ns代表集合中句子中的数量,nd,s表示文档d中句子s的长度,nv d,s表示一个词被分配到v中的句子s的次数;
上式中Nv指的是集合中滑动窗口的总数,nd,v指的是被分配到滑动窗口v中词的数量,表示一个词被分配到全局主题的滑动窗口v中的次数,表示一个词被分配到局部主题的滑动窗口v中的次数;
上式中D表示文档的数量,表示的是文档d中的一个词被分配到某个全局主题中的次数,表示的是文档d中的一个词被分配到全局主题中的次数,指的是文档d中的一个词被分配到滑动窗口v中的某个局部主题的次数,指的是文档d中的一个词被分配到滑动窗口v中的局部主题z的次数。
通过以下公式,在步骤S5完成全部主题提取,
P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)
上式中s表示词n出现的句子。
通过以下公式,在步骤S5完成局部主题的提取,
本实施例,提出了一种快速、高效的细粒度主题提取的方法。除了满足消费者从整体上感知产品或服务的好坏,而且还让消费者具体感知到自己所想了解到某个方面的具体评价信息,做出理性的消费决策。除此之外,对商家来说,还可以通过消费者评论内容了解产品或服务存在的缺点以及消费者的偏好,从而改进产品设计,优化服务,做出更好的营销方案。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
Claims (7)
1.一种基于滑动窗口技术的细粒度主题提取方法,其特征在于,包括以下步骤:
步骤S1,把评论作为滑动窗口的集合;
步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;
步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;
步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;
步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。
2.根据权利要求1所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,所述步骤S2中,通过计算条件概率分布函数,获得采样词的主题是属于全局主题还是局部主题以及所属窗口的条件概率分布:P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)
上式中v′表示滑动窗口向量,r表示是所在的滑动窗口是全部主题还是局部主题,r′表示上下文或全局或局部的向量,z指的是文档的全部主题还是局部主题,z′表示主题向量。
3.根据权利要求1所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,步骤S3中,构建关于滑动窗口、全部/局部主题的联合概率分布函数:
P(w,v,r,z)=P(w|r,z)P(v,r,z)
上式中,w表示词向量。
4.根据权利要求3所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,P(v,r,z)=P(v)P(r|v)P(z|r,v);
上式中的W表示词汇表的大小,nw gl,z代表的是词w出现在全局主题z中的次数,nw loc,z代表的是词w出现在局部全局主题z中的次数,ngl,z和nloc,z分别表示的是分配到全局主题和局部主题z中的总数,Γ是Gmma函数,全局主题的数量或局部主题的数量由Kr表示,K表示滑动窗口v中相邻的句子的个数。
5.根据权利要求4所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,
上式中Ns代表集合中句子中的数量,nd,s表示文档d中句子s的长度,nv d,s表示一个词被分配到v中的句子s的次数;
上式中Nv指的是集合中滑动窗口的总数,nd,v指的是被分配到滑动窗口v中词的数量,表示一个词被分配到全局主题的滑动窗口v中的次数,表示一个词被分配到局部主题的滑动窗口v中的次数;
上式中D表示文档的数量,表示的是文档d中的一个词被分配到某个全局主题中的次数,表示的是文档d中的一个词被分配到全局主题中的次数,指的是文档d中的一个词被分配到滑动窗口v中的某个局部主题的次数,指的是文档d中的一个词被分配到滑动窗口v中的局部主题z的次数,αg1为全局主题的狄利克雷分布参数αloc为局部主题的狄利克雷分布参数。
6.根据权利要求5所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,通过以下公式,在步骤S5完成全部主题提取,
上式中s表示词n出现的句子,βg1为先验狄利克雷分布参数,γ狄利克雷随机分布参数。
7.根据权利要求5所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,通过以下公式,在步骤S5完成局部主题的提取,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810485599.0A CN108763390A (zh) | 2018-05-18 | 2018-05-18 | 基于滑动窗口技术的细粒度主题提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810485599.0A CN108763390A (zh) | 2018-05-18 | 2018-05-18 | 基于滑动窗口技术的细粒度主题提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763390A true CN108763390A (zh) | 2018-11-06 |
Family
ID=64007153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810485599.0A Pending CN108763390A (zh) | 2018-05-18 | 2018-05-18 | 基于滑动窗口技术的细粒度主题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763390A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857942A (zh) * | 2019-03-14 | 2019-06-07 | 北京百度网讯科技有限公司 | 用于处理文档的方法、装置、设备和存储介质 |
CN109918503A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
US20170206466A1 (en) * | 2016-01-20 | 2017-07-20 | Fair Isaac Corporation | Real Time Autonomous Archetype Outlier Analytics |
CN107203513A (zh) * | 2017-06-06 | 2017-09-26 | 中国人民解放军国防科学技术大学 | 基于概率模型的微博文本数据细粒度话题演化分析方法 |
-
2018
- 2018-05-18 CN CN201810485599.0A patent/CN108763390A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
US20170206466A1 (en) * | 2016-01-20 | 2017-07-20 | Fair Isaac Corporation | Real Time Autonomous Archetype Outlier Analytics |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
CN107203513A (zh) * | 2017-06-06 | 2017-09-26 | 中国人民解放军国防科学技术大学 | 基于概率模型的微博文本数据细粒度话题演化分析方法 |
Non-Patent Citations (1)
Title |
---|
郑玉桂: "面向电商评论细粒度观点挖掘的拓展主题模型研究", 《中国优秀硕士学位论文经济与管理科学辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918503A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
CN109918503B (zh) * | 2019-01-29 | 2020-12-22 | 华南理工大学 | 基于动态窗口自注意力机制提取语义特征的槽填充方法 |
CN109857942A (zh) * | 2019-03-14 | 2019-06-07 | 北京百度网讯科技有限公司 | 用于处理文档的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740229B (zh) | 关键词提取的方法及装置 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN111563164A (zh) | 一种基于图神经网络的特定目标情感分类方法 | |
CN110019286B (zh) | 一种基于用户社交关系的表情推荐方法及装置 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
WO2019056628A1 (zh) | 关注点文案的生成 | |
CN112231584B (zh) | 基于小样本迁移学习的数据推送方法、装置及计算机设备 | |
CN105512326A (zh) | 一种图片推荐的方法及系统 | |
CN103970806B (zh) | 一种建立歌词感情分类模型的方法及装置 | |
CN107807914A (zh) | 情感倾向的识别方法、对象分类方法及数据处理系统 | |
CN107944911A (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN110446065A (zh) | 一种视频召回方法、装置及存储介质 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN109902229B (zh) | 一种基于评论的可解释推荐方法 | |
CN107993126B (zh) | 一种基于挖掘评论修正用户评分的改进协同过滤方法 | |
CN108573041A (zh) | 基于加权信任关系的概率矩阵分解推荐方法 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN107103093B (zh) | 一种基于用户行为和情感分析的短文本推荐方法及装置 | |
TWI525456B (zh) | Choose font, font determination, recommendation, generation method and device | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN104715049A (zh) | 基于本体词库的商品评论属性词抽取方法 | |
CN106598942A (zh) | 基于表情分析和深度学习的社交网络情感分析方法 | |
CN106776859A (zh) | 基于用户偏好的移动应用App推荐系统 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |