CN111292167A - 基于大数据的竞品分析方法、系统、存储介质及电子设备 - Google Patents
基于大数据的竞品分析方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111292167A CN111292167A CN202010078435.3A CN202010078435A CN111292167A CN 111292167 A CN111292167 A CN 111292167A CN 202010078435 A CN202010078435 A CN 202010078435A CN 111292167 A CN111292167 A CN 111292167A
- Authority
- CN
- China
- Prior art keywords
- comment
- products
- comments
- product
- competitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002860 competitive effect Effects 0.000 title claims abstract description 137
- 238000004458 analytical method Methods 0.000 title claims abstract description 88
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 81
- 238000004140 cleaning Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000002996 emotional effect Effects 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 7
- 230000001737 promoting effect Effects 0.000 claims description 4
- 238000012552 review Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 5
- 238000009434 installation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的竞品分析方法、系统、存储介质及电子设备,属于大数据及竞品分析技术领域,本发明要解决的技术问题为如何利用大数据分析并挖掘网民对指定产品及其竞品的情感走向实现竞品分析,采用的技术方案为:该方法依靠完全公开的社交网络平台评论数据,通过分析海量评论,从网络评论中挖掘网民对指定产品及其相关竞品的情感走向,通过对评论进行包括情感分析在内的多种分析方式得到网民对产品的态度看法,实现竞品分析的目的。该系统包括产品及其相关竞品确定单元、话题生成及评论采集存储单元、评论去噪清洗单元、评论分词及去停用词单元、评论的情感得分获得及标签化单元及评论分析及产品优化升级单元。
Description
技术领域
本发明涉及大数据及竞品分析技术领域,具体地说是一种基于大数据的竞品分析方法、系统、存储介质及电子设备。
背景技术
在各行业中,针对竞品的研究一般都会极受重视,竞品分析或者品牌分析是很多企业在市场做品牌市场战略研究的重要手段之一,而且也是企业对晶振对手市场经营情况最好的研究分析。每个企业都需要分析改进自身产品来占领更多市场,因此竞品分析是市场上最普遍,也是最重要的分析途径。产品研发上线后,所有企业或者品牌都需要竞品分析,对现有或潜在的竞争产品优势劣势进行评价。根据这个分析来对吱声产品进行更全面、更专业的战略定位和产品优化。竞品分析主要从几个维度对比分析:战略定位、盈利模式、用户群体、产品功能、产品操作性能体验等。
对任何企业来说,忠诚的客户是利润的来源之一。为了提升客户满意度和对产品的忠诚度,了解和满足客户需求,对客户提出的产品缺点进行及时反馈改进是增加客户忠诚度的重要手段;此外,为了增强产品的竞争力和扩大产品市场份额,需要对市场中同类型的产品做到定期了解分析,比较竞品和自身产品各自的优势和劣势,取长补短,推动产品进行优化升级。
综上所述,如何利用大数据分析并挖掘网民对指定产品及其竞品的情感走向实现竞品分析是目前亟待解决的技术问题。
专利号为CN107481066A的专利文献公开了一种基于大数据的竞品分析方法及系统,该方法包括:获取采样用户群中各用户的互联网历史行为数据,通过漏斗分析法对互联网历史行为数据进行分析,得到目标产品的同类产品,同类产品为与目标产品的市场定位相同的产品;分别获取同类产品中各个产品与目标产品的关联度;选取对应的关联度大于第一预设阈值的产品作为目标产品的竞品;对与所述目标产品和所述竞品相关的互联网历史行为数据进行分析,生成目标产品相对于竞品的攻防策略。该技术方案能够有效、准确地实现竞品的定位和分析,为目标产品提供更为有效的竞争策略制定依据,同时也通过用户的关注倾向从而制定更有效的投放策略,但是不能利用大数据分析并挖掘网民对指定产品及其竞品的情感走向实现竞品分析。
专利号为CN110675205A的专利文献公开了一种基于应用的竞品分析方法、装置及计算机可读存储介质。其中基于应用的竞品分析方法包括:确定指定应用的候选竞品;获取用户的应用安装信息;根据获取的所述应用安装信息,计算所述候选竞品对所述指定应用的侵占度;和/或,根据获取的所述应用安装信息,计算所述指定应用与所述候选竞品之间的用户流向信息。该技术方案依靠用户安装数据,客观地挖掘出对应的竞品情况,全面了解应用市场上所有的竞争对手,同时该技术方案依据可靠且数据全面,有利于帮助公司扩大其服务品种,增长其服务目标,但是不能利用大数据分析并挖掘网民对指定产品及其竞品的情感走向实现竞品分析。
发明内容
本发明的技术任务是提供一种基于大数据的竞品分析方法、系统、存储介质及电子设备,来解决如何利用大数据分析并挖掘网民对指定产品及其竞品的情感走向实现竞品分析的问题。
本发明的技术任务是按以下方式实现的,一种基于大数据的竞品分析方法,该方法依靠完全公开的社交网络平台评论数据,通过分析海量评论,从网络评论中挖掘网民对指定产品及其相关竞品的情感走向,通过对评论进行包括情感分析在内的多种分析方式得到网民对产品的态度看法,实现竞品分析的目的;具体如下:
确定产品及其相关竞品;
生成话题,采集评论并存储评论;
对评论去噪清洗作为数据准确;
评论分词,去停用词;
使用情感分析工具包获得评论的情感得分,根据阈值将得分标签化;
对两极标签用户评论重点分析,优化升级产品。
作为优选,所述确定产品及其相关竞品是根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称。
更优地,所述生成话题,采集评论并存储评论具体如下:
根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;
对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源。
更优地,所述对评论去噪清洗作为数据准确具体如下:
对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;
对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间。
更优地,所述评论分词,去停用词具体如下:
对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;
生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;
统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词。
更优地,所述使用情感分析工具包获得评论的情感得分,根据阈值将得分标签化具体如下:
对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;
设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签。
更优地,所述对两极标签用户评论重点分析,优化升级产品具体如下:
对于情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
一种基于大数据的竞品分析系统,该系统包括,
产品及其相关竞品确定单元,用于确定产品及其相关竞品是根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称;
话题生成及评论采集存储单元,用于根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;再对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源;
评论去噪清洗单元,用于对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;再对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间;
评论分词及去停用词单元,用于对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;并生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;同时统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词;
评论的情感得分获得及标签化单元,用于对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;并设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签;
评论分析及产品优化升级单元,用于对情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的基于大数据的竞品分析方法的步骤。
一种电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的基于大数据的竞品分析方法、系统、存储介质及电子设备具有以下优点:
(一)互联网社交平台使用用户规模大、活跃度高、推广成本低,是进行市场营销推广的理想地点;此外,留言互动评论的形式使得公司和消费者能进行零距离高效的沟通互动,扩大了公司获得反馈的渠道,这些评论信息是网民对于产品功能真实直观的评价,为竞品分析提供了真实丰富的数据,而目前对于互联网评价数据没有进行很好的使用;并且当市场上出现相关竞品时,可以通过高活跃度的互联网数据做到即刻响应,不必依赖第三方公司,对于自身产品和其相关竞品,尝试使用社交网络公开评论数据进行竞品分析,本发明依靠完全公开的社交网络平台评论数据,通过分析海量评论,力求从网络评论中挖掘网民对指定产品及其竞品的情感走向,通过对评论进行包括情感分析在内的多种分析方式得到网民对产品的态度看法,从另一个角度实现竞品分析的目的;
(二)对于竞品分析,充分利用海量且活跃度高的互联网数据,从用户范围广、规模大的社交评论平台,通过搜索产品及其竞品相关话题,获得网民对于产品有效真实的评论数据;通过对数据进行清洗去噪分词操作,得到产品评论直观可视化词云;统计评论中出现的高频词语,得到各个产品评论关键词;对评论进行情感分析,得到用户评论情感得分,将情感的分依据预先设定的阈值,分为负面情感、低好感度、中好感度、高好感度四个标签,给评论用户增加情感标签;对于标签化后的用户,可以具体分析其评论内容,针对评论反映的问题进行及时处理,推动产品优化升级;
(三)本发明通过主观确定竞品,采集互联网与目标产品和竞品相关的评论收据作为竞品分析的数据来源,通过对评论数据进行情感分析,生成目标产品与竞品的情感标签,对标签为负面情感和高好感度的用户的评论进行重点分析,推动产品优化升级;
(四)本发明对于海量社区平台话题评论数据进行充分利用,在确定竞品的情况下,使用竞品名称及其衍生生成话题的方式,在公开平台对该话题进行自动搜索,使用爬虫技术爬取相应话题下的网民评论数据并进行相应存储。对于爬取的评论数据进行数据清洗,去除其中一些图片、表情对评论分析的影响,再对处理后的数据进行分词、去除停用词,然后对处理好的产品及其竞品分别生成对应词云,将评论进行可视化展示;对于分好词的评论,设置一个阈值,统计评论中出现频率高于这个阈值的词语,作为产品及其竞品的评论关键词;对于清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其竞品生成情感得分分布直方图,查看其情感分布情况;设定多个阈值,将情感得分分为:负面情感、低好感度、中好感度、高好感度四个标签,对于情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论提出的产品痛点进行相应改进;
(五)本发明对评论进行分词,参考中文停用词词典去除其中停用词,减少无用词语对竞品分析的影响。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于大数据的竞品分析方法流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于大数据的竞品分析方法、系统、存储介质及电子设备作以下详细地说明。
实施例1:
如附图1所示,本发明的基于大数据的竞品分析方法,该方法依靠完全公开的社交网络平台评论数据,通过分析海量评论,从网络评论中挖掘网民对指定产品及其相关竞品的情感走向,通过对评论进行包括情感分析在内的多种分析方式得到网民对产品的态度看法,实现竞品分析的目的;具体如下:
S1、确定产品及其相关竞品:根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称;
S2、生成话题,采集评论并存储评论;具体如下:
S201、根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;
S202、对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源;
S3、对评论去噪清洗作为数据准确;具体如下:
S301、对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;
S302、对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间;
S4、评论分词,去停用词;具体如下:
S401、对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;
S402、生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;
S403、统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词。
S5、使用情感分析工具包获得评论的情感得分,根据阈值将得分标签化;具体如下:
S501、对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;
S502、设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签。
S6、对两极标签用户评论重点分析,优化升级产品:对于情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
实施例2:
本发明的基于大数据的竞品分析系统,该系统包括,
产品及其相关竞品确定单元,用于确定产品及其相关竞品是根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称;
话题生成及评论采集存储单元,用于根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;再对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源;
评论去噪清洗单元,用于对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;再对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间;
评论分词及去停用词单元,用于对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;并生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;同时统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词;
评论的情感得分获得及标签化单元,用于对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;并设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签;
评论分析及产品优化升级单元,用于对情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
该系统的工作过程如下:
(1)、确定产品及其相关竞品,并且考虑与产品及其竞品相关的多个主题,如产品简称、昵称,由此生成话题,在微博中进行相关话题搜索操作;
(2)、对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并且对爬取的数据进行存储,作为竞品分析的数据源;
(3)、对于存储的评论数据进行初步的清洗,由于微博评论内容复杂,包含大量的图片、表情、超链接以及各种语言,并且由于微博的显示设置以及网络卡顿延迟等问题,评论中可能包含少量重复评论,需要对这些内容进行剔除,只保留有实际语义价值的文字;对清洗后的评论数据进行整理,生成包含用户id,评论内容,评论时间等字段;
(4)、对评论进行分词,参考中文停用词词典去除其中停用词,减少无用词语对竞品分析的影响;
(5)、对于处理后的评论分别生成自身产品及其竞品的词云,将微博产品评论进行直观可视化展示;设置一个阈值,统计产品及其竞品词语出现频率高于该阈值的N个词语,作为该产品及其竞品的评论关键词;
(6)、对于清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其竞品生成情感得分分布直方图,查看其情感分布情况;设定多个阈值,将情感得分分为:负面情感、低好感度、中好感度、高好感度四个标签,给评论用户增加情感标签;
(7)、对于情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
实施例3:
基于实施例1的存储介质,其中存储有多条指令,所述指令由处理器加载,执行实施例1的基于大数据的竞品分析方法的步骤。
实施例4:
基于实施例3的电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行实施例3存储介质中的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于大数据的竞品分析方法,其特征在于,该方法依靠完全公开的社交网络平台评论数据,通过分析海量评论,从网络评论中挖掘网民对指定产品及其相关竞品的情感走向,通过对评论进行包括情感分析在内的多种分析方式得到网民对产品的态度看法,实现竞品分析的目的;具体如下:
确定产品及其相关竞品;
生成话题,采集评论并存储评论;
对评论去噪清洗作为数据准确;
评论分词,去停用词;
使用情感分析工具包获得评论的情感得分,根据阈值将得分标签化;
对两极标签用户评论重点分析,优化升级产品。
2.根据权利要求1所述的基于大数据的竞品分析方法,其特征在于,所述确定产品及其相关竞品是根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称。
3.根据权利要求2所述的基于大数据的竞品分析方法,其特征在于,所述生成话题,采集评论并存储评论具体如下:
根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;
对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源。
4.根据权利要求3所述的基于大数据的竞品分析方法,其特征在于,所述对评论去噪清洗作为数据准确具体如下:
对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;
对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间。
5.根据权利要求4所述的基于大数据的竞品分析方法,其特征在于,所述评论分词,去停用词具体如下:
对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;
生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;
统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词。
6.根据权利要求5所述的基于大数据的竞品分析方法,其特征在于,所述使用情感分析工具包获得评论的情感得分,根据阈值将得分标签化具体如下:
对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;
设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签。
7.根据权利要求6所述的基于大数据的竞品分析方法,其特征在于,所述对两极标签用户评论重点分析,优化升级产品具体如下:
对于情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
8.一种基于大数据的竞品分析系统,其特征在于,该系统包括,
产品及其相关竞品确定单元,用于确定产品及其相关竞品是根据与产品及其相关竞品相关的多个主题确定,主题具体包括产品简称和产品昵称;
话题生成及评论采集存储单元,用于根据与产品及其相关竞品相关的多个主题生成话题,在微博中进行相关话题搜索操作;再对于搜索出来的相关页面,使用网络爬虫技术爬取话题下方相应评论,并对爬取的数据进行存储,作为竞品分析的数据源;
评论去噪清洗单元,用于对存储的评论数据进行初步的清洗,初步的清洗包括去除评论中的图片、表情、超链接、各种语言以及重复评论,保留有实际语义价值的文字;再对清洗后的评论数据进行整理,生成评论字段,评论字段包括用于id、评论内容及评论时间;
评论分词及去停用词单元,用于对评论进行分词,参考中文停用词词典去除评论中的停用词,减少无用词语对竞品分析的影响;并生成词云,直观展示:对于分词处理后的评论分别生产自身产品及其相关竞品的词云,将微博产品评论进行直观可视化展示;同时统计词频,得到高频关键词:设置一个阀值,统计产品及其相关竞品词语出现频率高于阀值的N个词语作为该产品及其相关竞品的评论关键词;
评论的情感得分获得及标签化单元,用于对清洗后的评论,使用情感分析工具包获得评论的情感得分,对产品及其相关竞品生成情感得分分布直方图,查看其情感分布情况;并设定多个阈值,将情感得分分为负面情感、低好感度、中好感度和高好感度四个标签,给评论用户增加情感标签;
评论分析及产品优化升级单元,用于对情感标签是负面情感和高好感度的用户评论进行重点关注,针对评论反映的问题进行及时处理,推动产品优化升级。
9.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1-7中所述的基于大数据的竞品分析方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括:
权利要求9所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078435.3A CN111292167A (zh) | 2020-02-03 | 2020-02-03 | 基于大数据的竞品分析方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010078435.3A CN111292167A (zh) | 2020-02-03 | 2020-02-03 | 基于大数据的竞品分析方法、系统、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111292167A true CN111292167A (zh) | 2020-06-16 |
Family
ID=71029988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010078435.3A Pending CN111292167A (zh) | 2020-02-03 | 2020-02-03 | 基于大数据的竞品分析方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292167A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380419A (zh) * | 2020-10-29 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种竞品数据查询方法、系统及电子设备 |
CN112463915A (zh) * | 2021-02-02 | 2021-03-09 | 冠传网络科技(南京)有限公司 | 美妆产品社交媒体评论挖掘的方法、系统及存储介质 |
CN112598405A (zh) * | 2021-02-20 | 2021-04-02 | 汇正(广州)企业管理咨询有限公司 | 一种基于大数据的商业项目数据管理方法及系统 |
CN113010639A (zh) * | 2021-02-26 | 2021-06-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于电商平台的商品分析方法及装置 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
WO2022081267A1 (en) * | 2020-10-15 | 2022-04-21 | Pattern Inc. | Product evaluation system and method of use |
CN114493687A (zh) * | 2022-01-14 | 2022-05-13 | 广东好太太智能家居有限公司 | 一种晾衣设备产品痛点分析方法、装置及可读介质 |
CN118552235A (zh) * | 2024-07-29 | 2024-08-27 | 深圳前海浩方科技有限公司 | 基于数智系统的商品数据资源分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544327A (zh) * | 2013-11-14 | 2014-01-29 | 金蝶软件(中国)有限公司 | 一种微博话题的热度统计方法及相关装置 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
-
2020
- 2020-02-03 CN CN202010078435.3A patent/CN111292167A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544327A (zh) * | 2013-11-14 | 2014-01-29 | 金蝶软件(中国)有限公司 | 一种微博话题的热度统计方法及相关装置 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022081267A1 (en) * | 2020-10-15 | 2022-04-21 | Pattern Inc. | Product evaluation system and method of use |
CN112380419A (zh) * | 2020-10-29 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种竞品数据查询方法、系统及电子设备 |
CN112380419B (zh) * | 2020-10-29 | 2024-02-09 | 中国人寿保险股份有限公司 | 一种竞品数据查询方法、系统及电子设备 |
CN112463915A (zh) * | 2021-02-02 | 2021-03-09 | 冠传网络科技(南京)有限公司 | 美妆产品社交媒体评论挖掘的方法、系统及存储介质 |
CN112598405A (zh) * | 2021-02-20 | 2021-04-02 | 汇正(广州)企业管理咨询有限公司 | 一种基于大数据的商业项目数据管理方法及系统 |
CN112598405B (zh) * | 2021-02-20 | 2021-11-05 | 苏州天合启信科技有限公司 | 一种基于大数据的商业项目数据管理方法及系统 |
CN113010639A (zh) * | 2021-02-26 | 2021-06-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于电商平台的商品分析方法及装置 |
CN113743721A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 营销策略生成方法、装置、计算机设备及存储介质 |
CN114493687A (zh) * | 2022-01-14 | 2022-05-13 | 广东好太太智能家居有限公司 | 一种晾衣设备产品痛点分析方法、装置及可读介质 |
CN118552235A (zh) * | 2024-07-29 | 2024-08-27 | 深圳前海浩方科技有限公司 | 基于数智系统的商品数据资源分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292167A (zh) | 基于大数据的竞品分析方法、系统、存储介质及电子设备 | |
US20220156643A1 (en) | Using Machine Learning to Predict Outcomes for Documents | |
JP6511487B2 (ja) | 情報プッシュ用の方法及び装置 | |
US10268670B2 (en) | System and method detecting hidden connections among phrases | |
CN104281622B (zh) | 一种社交媒体中的信息推荐方法和装置 | |
US8799260B2 (en) | Method and system for generating web pages for topics unassociated with a dominant URL | |
JP5311378B2 (ja) | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 | |
US11468481B2 (en) | Structured informational link annotations | |
US20160299891A1 (en) | Matching of an input document to documents in a document collection | |
US20110313842A1 (en) | System and methods thereof for providing an advertisement placement recommendation based on trends | |
US11941073B2 (en) | Generating and implementing keyword clusters | |
US11809505B2 (en) | Method for pushing information, electronic device | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
US20180247240A1 (en) | Judgment support system and judgment support method | |
CN113901308A (zh) | 基于知识图谱的企业推荐方法及推荐装置、电子设备 | |
CN108470289B (zh) | 基于电商购物平台的虚拟物品发放方法及设备 | |
CN112818230A (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
US20140025479A1 (en) | Systems And Methods For Keyword-Ad Pairing | |
US20140025480A1 (en) | Systems And Methods For Keyword-Based Traffic Refinement | |
US20130086036A1 (en) | Dynamic Search Service | |
US10255246B1 (en) | Systems and methods for providing a searchable concept network | |
CN107085573B (zh) | 热点信息的获取方法及装置 | |
tong et al. | Mining and analyzing user feedback from app reviews: An econometric approach | |
CN115098766B (zh) | 一种电子招投标交易平台招投标信息推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200616 |