CN106204140A - 一种基于kl距离的群体观点迁移检测方法 - Google Patents
一种基于kl距离的群体观点迁移检测方法 Download PDFInfo
- Publication number
- CN106204140A CN106204140A CN201610544119.4A CN201610544119A CN106204140A CN 106204140 A CN106204140 A CN 106204140A CN 201610544119 A CN201610544119 A CN 201610544119A CN 106204140 A CN106204140 A CN 106204140A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- kld
- comment
- data
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于KL距离的群体观点迁移检测方法,包括如下步骤:获取评论数据,评论数据包括评论者、评论时间、评论分数、文本信息和投票信息;根据收集数据中的评论时间对评分进行排序,并统计各个单位时间内的评分等级所占比例,得到二维的评分分布矩阵;根据Kullback‑Leibler Divergence公式计算两个单位时间内数据概率分布的距离,得到一维的KLD序列;使用基于KL距离的群体观点迁移检测算法,利用按评论时间滑动的时间窗口,对时间窗口内的KLD序列进行检测直到时间线的末尾,输出时间窗口内KLD的最大值作为观点改变点。
Description
技术领域
本发明属于数据挖掘领域,尤其涉及一种基于KL距离的群体观点迁移检测方法。
背景技术
随着互联网的发展,淘宝,亚马逊,Yelp等网上购物与评论平台成了人们生活中不可或缺的部分。通过这些在线购物平台,用户发表了大量的评论数据。这些在线评论数据为用户提供了历史客户关于相关产品或服务有价值的信息反馈,进而影响着用户的决策过程。开发并展示这些数据是一个购物平台中的一项关键功能。除了为客户可以从这些评论数据中获取参考性的价值,公司和商家也可以从中受益,例如,使用评论数据检测产品的缺陷,检查客户满意度的变化等。现有研究中主要把重点放在对垃圾评论的识别上,其主要方法是检测评分异常点和分析评论的文本信息以识别垃圾评论。目前也有研究在做商品的方向观点识别,以获取评论者对商品各个方面的观点。本发明主要解决的问题是识别评论群体对商品整体的观点转变情况。
为了克服上述缺陷,本发明提出了一种基于KL距离的群体观点迁移检测方法一个方法来分析这些评论数据流所包含数据的时序特征。通过提供产品或服务的时间标定的评论数据,利用统计评分求得单位时间内的评分分布图,并使用本发明提出的基于滑动窗口的KLD观点变化检测算法就可以检测出用户观点发生迁移变化的时间点。
发明内容
本发明提出了一种基于KL距离的群体观点迁移检测方法,包括如下步骤:
步骤一:获取评论数据,所述评论数据包括评论者、评论时间、评论分数、文本信息和投票信息;根据收集数据中的评论时间对评分进行排序,并统计各个单位时间内的评分等级所占比例,得到二维的评分分布矩阵;根据Kullback-Leibler Divergence公式计算两个单位时间内数据概率分布的距离,得到一维的KLD序列;
步骤二:使用基于KL距离的群体观点迁移检测算法,利用按评论时间滑动的时间窗口,对所述时间窗口内的KLD序列进行检测直到时间线的末尾,输出所述时间窗口内KLD的最大值作为观点改变点。
本发明提出的所述基于KL距离的群体观点迁移检测方法中,所述步骤一中进一步包括:使用拉普拉斯平滑方法,将步骤一中的评分分布矩阵中的零值调整为极小的非零值。
本发明提出的所述基于KL距离的群体观点迁移检测方法中,所述非零值为0.00001%。
本发明提出的所述基于KL距离的群体观点迁移检测方法中,所述步骤一中进一步包括:将评分数据的概率和大于1的比例值平均分配到非零比例中。
本发明提出的所述基于KL距离的群体观点迁移检测方法中,利用基于滑动窗口的Kullback-Leibler Divergence观点迁移检测算法对所述KLD序列进行检测,包括如下步骤:
I)设置变量的初始值,并初始化时间窗口W大小为N,记时间序列为t,记时间t的评分等级分布为xt,时间t所在时间窗口的评分等级分布数据记为xwi,(i=1,2,,...,N);
II)移动所述时间窗口,对于当前时刻t的评分等级分布数据xt,计算xt与xt-1之间的KLD值,放入所述时间窗口的前端,其中K为特征个数;
III)计算所述时间窗口中的KLD均值,记为avgkld,若当前时刻t的kld值xt大于avgkld则删除所述窗口中末端的数据,否则时间窗口的大小N值加一;
IV)计算当前时间窗口体xwi中的KL距离的最大值作为观点改变点,并输出;
V)返回进行步骤II),直到遍历完所有数据。
本发明的有益效果在于:本发明利用基于KL距离的群体观点迁移检测算法来检测用户在评论数据流中的观点迁移变化点。该方法可以有效地检测出观点迁移点。通过该方法检测出来的变化点,可以及时地从大量的评论数据流中获取用户对产品或服务的信息反馈,及时发现相关产品的缺陷与优点。
附图说明
图1为数据收集与基于KL距离的群体观点迁移检测算法的流程图
图2为用户评分概率分布柱状图
图3为KL距离时序图
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提供一种基于KL距离的群体观点迁移检测方法,检查用户对产品或服务的观点变化。具体包括以下步骤:
步骤一:数据预处理,具体为:
ⅰ)收集商务平台上的用户评论数据。其中评论数据主要包括五个部分:评论者,评论时间,评论分数,评论的文本数据和评论的投票信息。在本发明中,主要利用评论时间与分数数据,这里记单位时间为z。其中对于评论分数不同的网站有不同的规格,如:五分制,十分制,百分制。这里记评分级数为L。
本发明实施例中,收取了Yelp网站上Mon Amin Gubi餐馆的评论数据。考虑到餐馆的运营特点,本实施例中取单位时间z为一个月。因为Yelp网站上的评论分数为五分制,所以评分等级L=5。进而收集并统计得到了116个单位时间内的各个评分段的分布矩阵,记为D116×5。
ⅱ)根据收集数据中评分的时间游标对评分进行排序,设定单位时间大小为T,并统计每个单位时间T内,各个评分等级所占比例,从而得到二维的评分分布矩阵。通过计算相邻行的评分分布来进一步得到一维的KLD序列。为避免除数为零的情况,优选地使用拉普拉斯平滑的方法,将所占比例为零的的评分修改为极小的非零值,如取值为0.00001%,同时为了保证各个评分概率和为一的特征,将多出来的比例值平摊到非零比例中;评分分布柱状图见图2,图2中横坐标为时间,单位为月;纵坐标为1、2、3、4、5分的评分统计分布。
iii)根据KLD计算公式,计算相邻两个时间单位间数据概率分布的距离,从而得到一维的KLD序列。
步骤二:使用基于KL距离的群体观点迁移检测算法,对KLD时间序列值进行检测。检测出来的点就是观点迁移的点。具体为:
I)初始化算法变量的初始值:记窗口为W,W的大小为N,记时间为t,此时的评分分布数据记为xt,时间窗口W中的评分数据记为xwi;其中w为0,1,2...;i=1,2,,...,N;设置N=6;设窗口的最大值为Wmax=12;
II)对于任输入的xt,计算xt与xt-1之间的KL距离,并将之放入窗口W的头部。其中K为特征个数,这里K取值为0,1,2,3,4。其中,当t=1时取KL距离的值为0。
III)计算窗口W中的KLD均值,记为avgkld。a.输入时间t的KL距离值xt,若新加入的xt值大于avgkld则删除窗口W中的末尾数据,此时N值不变,否则窗口增大N=N+1;t=t+1;若N>Wmax则保留窗口W中的前Wmax个KL距离值。b.若无新的KL距离输入则退出,算法结束。
IV)计算窗口W中的最大值,并输出这个最大值点作为用户观点迁移点。
V)回到步骤II)
步骤三:Top-N检测算法。具体为:
I)本实验设置N为10。
II)计算步骤一中的KLD序列的前N个最大值作为观点变迁点输出。
经过本发明方法检测之后,获得了如图3所示的用于表征用户群体对产品观点转变点的KL距离时序图。其中圆点为检测出的对应的群体观点变化的时间点。通过对这些时间点下的文字评论进行审核,发现这些时间点内的评论观点相较于之前时间的评论观点发生了观点变化。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (5)
1.一种基于KL距离的群体观点迁移检测方法,其特征在于,包括如下步骤:
步骤一:获取评论数据,所述评论数据包括评论者、评论时间、评论分数、文本信息和投票信息;根据收集数据中的评论时间对评分进行排序,并统计各个单位时间内的评分等级所占比例,得到二维的评分分布矩阵;根据Kullback-Leibler Divergence公式计算两个单位时间内数据概率分布的距离,得到一维的KLD序列;
步骤二:使用基于KL距离的群体观点迁移检测算法,利用按评论时间滑动的时间窗口,对所述时间窗口内的KLD序列进行检测直到时间线的末尾,输出所述时间窗口内KLD的最大值作为观点改变点。
2.如权利要求1所述的基于KL距离的群体观点迁移检测方法,其特征在于,所述步骤一中进一步包括:使用拉普拉斯平滑方法,将步骤一中的评分分布矩阵中的零值调整为极小的非零值。
3.如权利要求2所述的基于KL距离的群体观点迁移检测方法,其特征在于,所述非零值为0.00001%。
4.如权利要求1或2所述的基于KL距离的群体观点迁移检测方法,其特征在于,所述步骤一中进一步包括:将评分数据的概率和大于1的比例值平均分配到非零比例中。
5.如权利要求1所述的基于KL距离的群体观点迁移检测方法,其特征在于,利用基于滑动窗口的Kullback-Leibler Divergence观点迁移检测算法对所述KLD序列进行检测,包括如下步骤:
I)设置变量的初始值,并初始化时间窗口W大小为N,记时间序列为t,记时间t的评分等级分布为xt,记时间t所在时间窗口的评分等级分布数据记为xwi,(i=1,2,,...,N);
II)移动所述时间窗口,对于当前时刻t的评分等级分布数据xt,计算xt与xt-1之间的KLD值,放入所述时间窗口的前端,其中K为特征个数;
III)计算所述时间窗口中的KLD均值,记为avgkld,若当前时刻t的kld值xt大于avgkld则删除所述窗口中末端的数据,否则时间窗口的大小N值加一;
IV)计算当前时间窗口体xwi中的KL距离的最大值作为观点改变点,并输出;
V)返回进行步骤II),直到遍历完所有数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610544119.4A CN106204140A (zh) | 2016-07-12 | 2016-07-12 | 一种基于kl距离的群体观点迁移检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610544119.4A CN106204140A (zh) | 2016-07-12 | 2016-07-12 | 一种基于kl距离的群体观点迁移检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106204140A true CN106204140A (zh) | 2016-12-07 |
Family
ID=57477871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610544119.4A Pending CN106204140A (zh) | 2016-07-12 | 2016-07-12 | 一种基于kl距离的群体观点迁移检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106204140A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194022A (zh) * | 2017-02-20 | 2017-09-22 | 浙江工商大学 | 基于多维和参数动态变动的群体极化分析方法 |
CN107491490A (zh) * | 2017-07-19 | 2017-12-19 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN109408782A (zh) * | 2018-10-18 | 2019-03-01 | 中南大学 | 基于kl距离相似性度量的研究热点演变行为检测方法 |
CN110677478A (zh) * | 2019-09-29 | 2020-01-10 | 山东浪潮人工智能研究院有限公司 | 一种基于kl距离的边缘端数据传输方法 |
CN113792552A (zh) * | 2021-08-23 | 2021-12-14 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
-
2016
- 2016-07-12 CN CN201610544119.4A patent/CN106204140A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194022A (zh) * | 2017-02-20 | 2017-09-22 | 浙江工商大学 | 基于多维和参数动态变动的群体极化分析方法 |
CN107194022B (zh) * | 2017-02-20 | 2020-04-10 | 浙江工商大学 | 基于多维和参数动态变动的群体极化分析方法 |
CN107491490A (zh) * | 2017-07-19 | 2017-12-19 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN107491490B (zh) * | 2017-07-19 | 2020-10-13 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN109408782A (zh) * | 2018-10-18 | 2019-03-01 | 中南大学 | 基于kl距离相似性度量的研究热点演变行为检测方法 |
CN110677478A (zh) * | 2019-09-29 | 2020-01-10 | 山东浪潮人工智能研究院有限公司 | 一种基于kl距离的边缘端数据传输方法 |
CN113792552A (zh) * | 2021-08-23 | 2021-12-14 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
CN113792552B (zh) * | 2021-08-23 | 2023-05-09 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106204140A (zh) | 一种基于kl距离的群体观点迁移检测方法 | |
CN103294800B (zh) | 一种信息推送方法及装置 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN103176962B (zh) | 文本相似度的统计方法及系统 | |
CN104915846A (zh) | 一种电子商务时间序列数据的异常检测方法及系统 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN105654201B (zh) | 一种广告流量预测方法及装置 | |
CN104090882B (zh) | 一种广告订单的快速聚类方法及系统、服务器 | |
JP6182478B2 (ja) | 解析装置及び解析方法 | |
WO2016169411A1 (zh) | 一种信息处理方法及其设备 | |
CN103092826A (zh) | 一种根据用户的输入信息构建输入词条的方法与设备 | |
CN106506327A (zh) | 一种垃圾邮件识别方法及装置 | |
CN103309976B (zh) | 一种基于用户性格提高社交引荐效率的方法 | |
CN106570763A (zh) | 用户影响力评估的方法及系统 | |
CN102184240B (zh) | 基于移动通讯设备终端的网页页面排版方法及系统 | |
CN107391365A (zh) | 一种面向软件缺陷预测的混合特征选择方法 | |
CN104834990B (zh) | 旅客信息化编码的方法及装置 | |
CN104462462B (zh) | 基于业务变化频度的数据仓库建模方法和建模装置 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
CN103678280A (zh) | 翻译任务碎片化的方法 | |
CN103389981B (zh) | 网络标签自动识别方法及其系统 | |
CN102456176A (zh) | 一种物料清单工程变更的方法及装置 | |
CN104750609B (zh) | 确定界面布局兼容度的方法及装置 | |
CN104516956B (zh) | 一种网站信息增量爬取方法 | |
CN110968570A (zh) | 面向电商平台的分布式大数据挖掘系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161207 |