CN112115262A - 网络评论数据收集与分析方法 - Google Patents

网络评论数据收集与分析方法 Download PDF

Info

Publication number
CN112115262A
CN112115262A CN202010929329.1A CN202010929329A CN112115262A CN 112115262 A CN112115262 A CN 112115262A CN 202010929329 A CN202010929329 A CN 202010929329A CN 112115262 A CN112115262 A CN 112115262A
Authority
CN
China
Prior art keywords
data
module
data processing
word
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010929329.1A
Other languages
English (en)
Inventor
申旻
冯妍雯
张聪信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingke Technology Co ltd
Original Assignee
Shanghai Jingke Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingke Technology Co ltd filed Critical Shanghai Jingke Technology Co ltd
Priority to CN202010929329.1A priority Critical patent/CN112115262A/zh
Publication of CN112115262A publication Critical patent/CN112115262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网络评论数据收集与分析方法,该方法包括先通过数据处理装置取得多个来源评论数据,再通过该数据处理装置处理该来源评论数据,接着通过该数据处理装置,依据默认的分析规则及预测规则,将该经过处理的来源评论数据,划归到对应的数据分析模块或数据预测模块。

Description

网络评论数据收集与分析方法
技术领域
本发明涉及一种网络评论数据处理技术,尤指一种利用数据处理装置建立预测分析模块及产生预测分析数据的处理技术。
背景技术
以往消费者或利用计算器通过互联网,将自身的消费经验在个人博客(blog)、微型博客或社交网站的贴吧或论坛等网络媒介上分享,并利用留言或上载照片或视频的方式与他人互动交流。以美食消费经验分享为例,当消费者到某一商店或餐厅购买或享用一个新的甜点商品后,可以通过所述的社交网站,发表对于该项甜点的购买过程的体验、食用感想或该项甜点的商品信息。由于该些网络媒介具有强大且快速的信息传播速度以及扩散度,若有众多信息跟随者的意见领袖或名人推波助澜,某项商品很有可能在一夕之间成为众人追逐购买消费的商品。这类商品也称的为「网红商品」。
随着智能型移动电话的普及以及无线通信网络数据传输的传输速率提升,消费者不单是通过计算器连上互联网做讯息分享,利用智能型移动电话,实时的分享消费或餐饮体验,遂成为普遍的习惯。另一方面,消费者也更依赖他人的消费或餐饮体验,作为首次消费或推荐他人的参考依据。经过或长或短的时间推移,各种网红商品便应运而生。
目前,在计算器数据处理的技术上,并没有可以有效利用计算器或智能型移动电话等数据处理装置,搜集、处理用户通过计算器或智能型移动电话于互联网的网络论坛、智能型移动电话饮食外卖应用程序或通讯应用程序等所建构的商品点评与论坛上所留下评论内容,并利用这些处理过的数据,对于未来一定期间内,网红或热销商品的预估技术。因此,如何能够提供一种网红或热销商品的预估技术,让企业决策者能够更早一步的预估网红或热销商品,甚至相关的原物料、销售渠道等信息,成为业界亟待解决的技术问题。
发明内容
为解决前述现有技术的种种问题,本发明提供一种网络评论数据收集与分析方法,该方法包括:通过数据处理装置取得多个来源评论数据;通过该数据处理装置处理该来源评论数据;以及通过该数据处理装置,依据默认的分析规则及预测规则,将该经过处理的来源评论数据,划归到对应的数据分析模块或数据预测模块。
于本发明的一种实施型态中,所述的网络评论数据收集与分析方法,所述通过数据处理装置,处理该来源评论数据的步骤,还包括以下步骤:通过该数据处理装置,除去该来源评论数据的空值;以及通过该数据处理装置,除去该来源评论数据中非默认或停用的语文编码。
于本发明的一种实施型态中,所述通过数据处理装置,处理该来源评论数据的步骤,还包括通过该数据处理装置,将该来源评论数据分割成多个来源字词模块的步骤。
于本发明的一种实施型态中,所述的网络评论数据收集与分析方法还包括通过该数据处理装置,定义各该字词模块的情绪属性值的步骤。
于本发明的一种实施型态中,所述的网络评论数据收集与分析方法还包括以下步骤:通过该数据处理装置,建立包括基准字词模块的多个字词数据库;通过该数据处理装置,依据默认的比对规则,将该来源字词模块与各该字词数据库中的基准字词模块进行比对,并判断所述比对结果是否符合任一该基准字词模块,若是,则将该经比对的来源字词模块设定对应的字词标签,若否,则将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块;以及通过该数据处理装置,将该待归纳字词模块新增至其中一个相对应的该字词数据库。
于本发明的一种实施型态中,所述将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块的步骤还包括以下步骤:通过该数据处理装置,判断待归纳字词模块是否符合默认的字词模块出现频率或次数,若是,则该待归纳字词模块新增至其中一个相对应的该字词数据库,若否,则结束流程步骤。
于本发明的一种实施型态中,所述的网络评论数据收集与分析方法,还包括通过该数据处理装置,依据该数据分析模块或该数据预测模块执行数据分析或预测的步骤。
于本发明的一种实施型态中,所述通过该数据处理装置,依据该数据分析模块或该数据预测模块执行数据分析或预测的步骤前,还包括以下步骤;通过该数据处理装置,将该来源评论数据进行评论内容特征的撷取或选择;以及通过该数据处理装置,建立该数据预测模块。
通过本发明的网络评论数据收集与分析方法的该些数据处理流程,可以通过数据处理装置,更有效率的搜集、处理使用者通过计算器或智能型移动电话于互联网的网络论坛、智能型移动电话饮食外卖应用程序或通讯应用程序等所建构的商品点评与论坛上所留下评论内容,并利用经过本发明的网络评论数据收集与分析方法处理过的数据建立预测分析模块,借以大幅提升对于未来一定期间内,网红或热销商品的预估准确度以及预测效率。
附图说明
图1为本发明的网络评论数据收集与分析方法一实施例的流程图。
图2为本发明的网络评论数据收集与分析方法一实施例的流程图。
图3为本发明的网络评论数据收集与分析方法一实施例的流程图。
图4为本发明的网络评论数据收集与分析方法一实施例的流程图。
图5为本发明的网络评论数据收集与分析方法一实施例的流程图。
图6为本发明的网络评论数据收集与分析方法一实施例的预测分析示意图。
图7为本发明的网络评论数据收集与分析方法一实施例的预测分析示意图。
图8为本发明的网络评论数据收集与分析方法一实施例的预测分析示意图。
图9为本发明的网络评论数据收集与分析方法一实施例的流程图。
符号说明:
S1-S3 步骤
S21-S24、S26 步骤
S251-S255 步骤
S2541-S2542 步骤
S271-S272 步骤
具体实施方式
以下借由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭示的内容轻易地了解本发明的其他优点与功效。本发明亦可借由其他不同的具体实施例加以施行或应用。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技艺的人士的了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如
Figure BDA0002669636340000051
Figure BDA0002669636340000052
Figure BDA0002669636340000053
等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴,合先叙明。
请参阅图1,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图1所示,本发明的网络评论数据收集与分析方法包括以下步骤:首先进入步骤S1,于步骤S1中,通过数据处理装置取得多个来源评论数据,接着进入步骤S2。于步骤S2中,通过该数据处理装置处理该来源评论数据,接着进入步骤S3。于步骤S3中,通过该数据处理装置,依据默认的分析规则及预测规则,将该经过处理的来源评论数据,划归到对应的数据分析模块或数据预测模块。
于所述实施例中,本发明的网络评论数据收集与分析方法,其结果有助于通过数据处理装置获得某一期间某一商品的销售预测,以下实施例将以预测2020年销售前10的甜品面包等烘焙商品为例加以说明。于步骤S1中,可例如为通过计算器、笔记本计算器、平板计算器或智能型移动电话等具有数据处理功能的装置,通过例如网际网络、通讯网络,取得多个来源评论数据。所述来源评论数据的来源,可例如,但不限于架设于互联网的网络论坛、智能型移动电话饮食外卖应用程序或通讯应用程序等所建构的商品点评与论坛。于本实施例中,所述评论数据的来源,具体可例如为美食店评应用程序及其所建构的商品或饮食分享评论的论坛,而来源评论数据可包括评论日期或时间、评论项目分类、评论等级、商品及饮食消费的价格、消费的地点(例如但不限于各级省、市、乡村等等)。于一实施例中,原始的商品或饮食分享评论内容如下:
表1
Figure BDA0002669636340000061
接着,于步骤S2中,通过数据处理装置处理该来源评论数据。承前所述,于本步骤中,可以通过数据处理装置,将表1的来源评论数据整理成以下待处理数据形式:
表2
Figure BDA0002669636340000062
Figure BDA0002669636340000071
如上表2所示,可通过数据处理装置,将评论的目标默认设置有三个分类层级,第一级为「美食」,第二级分类为第一级「美食」下的次一级分类「烘焙食品」,第三级分类则为第二级「烘焙食品」下的再次一级分类「甜点」或「面包」等等。表2中的「城市(省)编号」可通过默认的城市(省)名称对应的编号查找表取得。
于步骤S3中,通过数据处理装置,以依据默认的分析规则及预测规则,将经过处理的来源评论数据,划归到对应的数据分析模块或数据预测模块。于一实施例中,所述的数据分析模块或数据预测模块,可例如为「网红指数走势分析模块」、「渠道分析模块」、「相关原物料分析模块」、「区域分析模块」、「价格带分析模块」、「好/差评分析模块」及「关注点分析模块」,但不以该些模块为限。其中,「网红指数走势分析模块」用以通过某项商品在来源评论数据上被讨论的次数与时间演进,判断是否有机会成为网红商品。依据步骤S2所取得的经过处理的来源评论数据,若法棍商品随着时间的演进讨论的次数增加呈上升趋势,则可能被判断为2020年网红商品的机率较高。「渠道分析模块」用以通过某项商品在来源评论数据出现的销售渠道,例如实体直营商店、购物商场、网络商家等等,判断特定商品通过那些渠道销售最受消费者喜爱与排斥。依据步骤S2所取得的经过处理的来源评论数据,通过实体直营商店购买的甜点或面包,消费者评价较高,则可认为实体直营商店为消费者较为偏好的购买渠道。「相关原物料分析模块」用以通过来源评论数据上被讨论的某项商品,其所组成的原物料,依据步骤S2所取得的经过处理的来源评论数据,甜点或面包,则其涉及的原物料包括面粉、糖、奶油、盐等等,借以判断用以构成特定网红商品的原物料种类,被认定为网红商品者,其原物料亦间接地可视为热门的原物料商品。「区域分析模块」用以通过来源评论数据上被讨论的某项商品,消费者购买取得商品的区域,亦即消费所在地,借以判断特定网红商品所对应的特定销售区域。依据步骤S2所取得的经过处理的来源评论数据,一线城市对于甜点面包的评论较多评价较高,则可以评论甜点面包等商品,在一线城市成为网红商品的机率相对高。「价格带分析模块」用以通过来源评论数据上被讨论的某项商品,消费者购买取得商品所花费的价额,借以判断特定网红商品的消费者可接受的价格区间。依据步骤S2所取得的经过处理的来源评论数据,借由判断同类型商品消费者对于商品售价的接受度,借以判断网红商品成立的商品价格区间带。「好/差评分析模块」用以通过来源评论数据上被讨论的某项商品,消费者对于特定商品及消费体验所给予的评价,借以判断特定商品是否有机会成为网红商品。依据步骤S2所取得的经过处理的来源评论数据,可以将获得评论星等5-4星的商品归类于好评商品,相对的评论星等2-1星的商品归类于差评商品。「关注点分析模块」用以通过来源评论数据上被讨论的某项商品,消费者于评论内容中所关注的商品特点,依据步骤S2所取得的经过处理的来源评论数据,可例如甜点或面包的口感、新鲜度、外观等等,借以判断特定网红商品的消费者关注点。
请参阅图2,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图2所示,所述步骤S2,通过该数据处理装置处理该来源评论数据的步骤,还包括以下步骤:于步骤S21中,通过该数据处理装置,除去该来源评论数据的空值,接着进入步骤S22。于步骤S22中,通过该数据处理装置,除去该来源评论数据中非默认或停用的语文编码。于一实施例中,于所述步骤S22后,还可包括步骤S23。于步骤S23中,通过该数据处理装置,将该来源评论数据分割成多个来源字词模块。于另一实施例中,于所述步骤S23后,还可包括步骤S24。于步骤S24中,通过该数据处理装置,定义各该字词模块的情绪属性值。
承前所述,于一实施例中,所述步骤S2的通过该数据处理装置处理该来源评论数据的步骤,进一步包括步骤S21,通过该数据处理装置,除去该来源评论数据的空值。于一实施例中,若表2中,如评论时间、评论星等或城市(省)编号等字段数据,并无法通过数据处理装置从表1的来源评论数据整理出来,则对应特定字段的数据即为空值。于一实施例中,所述步骤S2的通过该数据处理装置处理该来源评论数据的步骤,进一步包括步骤S22,通过该数据处理装置,除去该来源评论数据中的特殊符号、非默认或停用的语文编码。于一实施例中,若表2中,如评论时间、评论星等或城市(省)编号等字段数据出现非默认或停用的语文编码,例如默认的语文编码为「GB/T 2312」,则若出现于所述该些字段的数据编码非「GB/T2312」编码数据,或如「%、&、#、^」等特殊符号,则予以删除。通过所述步骤S21及S22,可令数据处理装置更有效率的处理数据并建立所述的数据分析模块或数据预测模块。
较佳者,于所述步骤S22后,还可包括步骤S23,于步骤S23中,通过该数据处理装置,将该来源评论数据分割成多个来源字词模块。于前述实施例中,可通过数据处理装置,将表1第1项商品消费评论内容,切割成「第一次」、「AA省aa市」、「XXX烘焙坊」、「500元」、「8吋」、「苹果派」、「不好吃」、「焦糖」、「烤」、「糊」、「口感」、「风味」、「商品状态」等来源字词模块。更佳者,于另一实施例中,于所述步骤S23后,还可包括步骤S24。于步骤S24中,通过该数据处理装置,定义各该字词模块的情绪属性值。于一实施例中,数据处理装置可执行自然语言处理工具套件(例如但不限于SnowNLP)分析数据内容的正负面情绪,例如情绪属性值接近1分为正面,情绪属性值接近0分为负面。通过情绪属性值的处理,可以影响所述「网红指数走势分析模块」或「好/差评分析模块」。
请参阅图3,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图3所示,于一实施例中,于所述步骤S22后,还可包括以下步骤:于步骤S251中,通过该数据处理装置,建立包括基准字词模块的多个字词数据库,接着进入步骤S252。于步骤S252中,通过该数据处理装置,依据默认的比对规则,将该来源字词模块与各该字词数据库中的基准字词模块进行比对,并判断所述比对结果是否符合任一该默认的基准字词模块,若是,则进入步骤S253;若否,则进入S254。于步骤S253中,通过该数据处理装置,将该经比对的来源字词模块设定对应的字词标签。于步骤S254中,通过该数据处理装置,则将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块,接着进入步骤S255。于步骤S255中,通过该数据处理装置,将该待归纳字词模块新增至其中一个相对应的该字词数据库。
于前述步骤S22的实施例中,还可预先执行步骤S251,通过数据处理装置,建立包括基准字词模块的多个字词数据库。所述的字词数据库可例如为「食材字词数据库」、「酱料字词数据库」、「口味字词数据库」、「菜品字词数据库」、「料理手法数据库」等等。接着于执行步骤S23之后,可接着执行步骤S252,通过步骤S252,令该数据处理装置,依据默认的比对规则,将该来源字词模块与各该字词数据库中的基准字词模块进行比对,并判断所述比对结果是否符合任一该基准字词模块。于所述步骤S23中,可将表1第1项商品消费评论内容,切割成「第一次」、「AA省aa市」、「XXX烘焙坊」、「500元」、「8吋」、「苹果派」、「不好吃」、「焦糖」、「烤」、「糊」、「口感」、「风味」、「商品状态」等来源字词模块后,依据默认的比对规则,判断该些字词模块是否符合任一该默认的基准字词模块,若是,则通过步骤S253,令该数据处理装置,将该经比对的来源字词模块设定对应的字词标签,如下表3所示。
表3
默认字词数据库(字词卷标) 来源字词模块
食材 苹果、派
酱料 焦糖
口味 不好吃、糊、口感、风味
菜品 苹果派
料理手法
若否,则进行步骤S254,令该数据处理装置,则将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块,接着进入步骤S255,通过该数据处理装置,将该待归纳字词模块新增至其中一个相对应的该字词数据库。具体可例如为下表4所示的结果。
表4
新增字词数据库(字词卷标) 来源字词模块
尺寸重量 8吋
价格 500元
请参阅图4,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图4所示,于所述通过该数据处理装置,则将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块的步骤254中,还可包括以下步骤:步骤S2541中,通过该数据处理装置,判断待归纳字词模块是否符合默认的字词模块出现频率或次数,若是,则进入步骤S2542;若否,则结束流程步骤。于步骤S2542中,通过该数据处理装置,将该待归纳字词模块新增至其中一个相对应的该字词数据库。
承前所述,于步骤S2541中,通过该数据处理装置,判断待归纳字词模块是否符合默认的字词模块出现频率或次数,所述默认的待归纳字词模块出现频率或次数可例如为每100篇出现特定默认待归纳字词「XXX烘焙坊」超过20次,或出现特定默认字词「XXX烘焙坊」次数超过100次。若符合默认的字词模块出现频率或次数,则进行步骤S2542,通过该数据处理装置,将该待归纳字词模块「XXX烘焙坊」新增至其中一个相对应的该字词数据库,例如「通路名称」。反之,若不符合默认的字词模块出现频率或次数,则结束流程步骤。
请参阅图5,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图5所示,于一实施例中,于所述步骤S23之后,还可包括步骤S26,于步骤S26中,通过该数据处理装置,依据该数据分析模块或该数据预测模块执行数据分析或预测。
承前所述,于前述实施例中,进行步骤S26所取得的所述「网红指数走势分析模块」、「渠道分析模块」、「相关原物料分析模块」、「区域分析模块」、「价格带分析模块」、「好/差评分析模块」及「关注点分析模块」等数据分析模块或数据预测模块,再通过该数据处理装置,执行包括但不限于Xgboost,Arima,Sarima预测模型,即可得到如图6至图8的量化网红商品分析指针图表。通过该些分析指针图表,可供决策者预测特定时间区段中可能成为网红的商品,甚至进一步预测分析获得该网红商品的原物料、价格带、销售渠道等信息,以有利于及早作市场规划、营销活动、原物料准备、渠道铺设等等商业活动的规划。
请参阅图9,其为本发明的网络评论数据收集与分析方法实施例的流程图,如图9所示,于步骤S26执行前,还可包括步骤S271及S272。于步骤S271中,通过该数据处理装置,将该来源评论数据进行评论内容特征的撷取或选择,接着进入步骤S272。于步骤S272中,通过该数据处理装置,建立该数据预测模块。
承前所述,为能提升预测分析未来某一时间区段网红商品相关信息,于步骤S26执行前,可先进行步骤S271中,通过该数据处理装置,将该来源评论数据进行评论内容特征的撷取或选择。于前述实施例中,可将通过该数据处理装置进行步骤S2所取得如表2所示的待处理数据,再通过该数据处理装置,进一步删除默认无意义或参考价值的数据,或默认重复的数据。于本实施例中,可通过默认城市(省)编号跟甜品热门程度无关,并默认一级分类为重复字段,故将表2的数据简化成以下表5所列的数据内容。
表5
评论时间 二级分类 三级分类 评论星等 平均价格
2018年1月12日 烘焙食品 甜点 2 500
2019年5月6日 烘焙食品 面包 5 60
接着,于步骤S272中,通过该数据处理装置,建立该数据预测模块。于本实施例中,通过该数据处理装置,将该数据标准化以及最小值最大值正规化(Min-Max Normalization),并将需转换的数据特征值转换至介于0到1之间的数值,可避免后续因数据的极端值产生误差,亦可使数据分布不变,借以形成以下表6的数据。
表6
评论时间 二级分类 三级分类 评论星等 平均价格
2018年1月12日 烘焙食品 甜点 2 0.5
2019年5月6日 烘焙食品 面包 5 0.06
此外,步骤S272还可进一步通过该数据处理装置,执行正规化后的特征过滤/包装/嵌入法,可例如为利用特征过滤法中的卡方独立性检测(Chi-squared test)将各个特征值对目标变量进行检测,以显著性判定是否相关,借以形成以下表7的数据。
表7
评论时间 二级分类 三级分类 评论星等 平均价格
卡方检定值 0.07 0.03 0.025 0.045
再者,步骤S272还可进一步通过该数据处理装置,选取由上述特征挑选后的显著特征(一般为小于0.05)作为预测模型的输入特征值,预测模型为多项模型,可能为Xgboost,Arima,Sarima,对2020年10大甜品进行预测,并且得出模型预测分数(准确率、精确率、召回率),最后选出预测分数最高者。
综上所述,通过本发明的网络评论数据收集与分析方法的该些数据处理流程,可以通过数据处理装置,更有效率的搜集、处理使用者通过计算器或智能型移动电话于互联网的网络论坛、智能型移动电话饮食外卖应用程序或通讯应用程序等所建构的商品点评与论坛上所留下评论内容,并利用经过本发明的网络评论数据收集与分析方法处理过的数据建立预测分析模块,借以大幅提升对于未来一定期间内,网红或热销商品的预估准确度以及预测效率。

Claims (8)

1.一种网络评论数据收集与分析方法,其特征在于,该方法包括:
通过数据处理装置取得多个来源评论数据;
通过该数据处理装置处理该来源评论数据;以及
通过该数据处理装置,依据默认的分析规则及预测规则,将该经过处理的来源评论数据,划归到对应的数据分析模块或数据预测模块。
2.如权利要求1所述的网络评论数据收集与分析方法,其特征在于,所述通过数据处理装置,处理该来源评论数据的步骤,还包括以下步骤:
通过该数据处理装置,除去该来源评论数据的空值;以及
通过该数据处理装置,除去该来源评论数据中非默认或停用的语文编码。
3.如权利要求2所述的网络评论数据收集与分析方法,其特征在于,所述通过数据处理装置,处理该来源评论数据的步骤,还包括以下步骤:
通过该数据处理装置,将该来源评论数据分割成多个来源字词模块。
4.如权利要求3所述的网络评论数据收集与分析方法,其特征在于,该方法还包括以下步骤:
通过该数据处理装置,定义各该字词模块的情绪属性值。
5.如权利要求3所述的网络评论数据收集与分析方法,其特征在于,该方法还包括以下步骤:
通过该数据处理装置,建立包括基准字词模块的多个字词数据库;
通过该数据处理装置,依据默认的比对规则,将该来源字词模块与各该字词数据库中的基准字词模块进行比对,并判断所述比对结果是否符合任一该基准字词模块,若是,则将该经比对的来源字词模块设定对应的字词标签,若否,则将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块;以及
通过该数据处理装置,将该待归纳字词模块新增至其中一个相对应的该字词数据库。
6.如权利要求5所述的网络评论数据收集与分析方法,其特征在于,所述将该经比对的来源字词模块中,撷取出符合默认词性的待归纳字词模块的步骤还包括:
通过该数据处理装置,判断待归纳字词模块是否符合默认的字词模块出现频率或次数,若是,则该待归纳字词模块新增至其中一个相对应的该字词数据库,若否,则结束流程步骤。
7.如权利要求1所述的网络评论数据收集与分析方法,其特征在于,该方法还包括以下步骤;
通过该数据处理装置,依据该数据分析模块或该数据预测模块执行数据分析或预测。
8.如权利要求7所述的网络评论数据收集与分析方法,其特征在于,所述通过该数据处理装置,依据该数据分析模块或该数据预测模块执行数据分析或预测的步骤前,还包括;
通过该数据处理装置,将该来源评论数据进行评论内容特征的撷取或选择;以及
通过该数据处理装置,建立该数据预测模块。
CN202010929329.1A 2020-09-07 2020-09-07 网络评论数据收集与分析方法 Pending CN112115262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010929329.1A CN112115262A (zh) 2020-09-07 2020-09-07 网络评论数据收集与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010929329.1A CN112115262A (zh) 2020-09-07 2020-09-07 网络评论数据收集与分析方法

Publications (1)

Publication Number Publication Date
CN112115262A true CN112115262A (zh) 2020-12-22

Family

ID=73802402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010929329.1A Pending CN112115262A (zh) 2020-09-07 2020-09-07 网络评论数据收集与分析方法

Country Status (1)

Country Link
CN (1) CN112115262A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN108230085A (zh) * 2017-11-27 2018-06-29 重庆邮电大学 一种基于用户评论的商品评价系统及方法
KR20180080492A (ko) * 2017-01-04 2018-07-12 (주)프람트테크놀로지 사용자 리뷰를 이용한 상품 평가 시스템 및 방법
CN108389006A (zh) * 2018-03-21 2018-08-10 南京邮电大学 基于维权行为与维权方式的网购用户维权指数模型生成方法及系统
CN111309859A (zh) * 2020-01-21 2020-06-19 上饶市中科院云计算中心大数据研究院 一种景区网络口碑情感分析方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
KR20180080492A (ko) * 2017-01-04 2018-07-12 (주)프람트테크놀로지 사용자 리뷰를 이용한 상품 평가 시스템 및 방법
CN108230085A (zh) * 2017-11-27 2018-06-29 重庆邮电大学 一种基于用户评论的商品评价系统及方法
CN108389006A (zh) * 2018-03-21 2018-08-10 南京邮电大学 基于维权行为与维权方式的网购用户维权指数模型生成方法及系统
CN111309859A (zh) * 2020-01-21 2020-06-19 上饶市中科院云计算中心大数据研究院 一种景区网络口碑情感分析方法及装置

Similar Documents

Publication Publication Date Title
US11263222B2 (en) System for calculating competitive interrelationships in item-pairs
US10147108B2 (en) Methods and apparatus to identify affinity between segment attributes and product characteristics
CN103246980B (zh) 信息输出方法及服务器
US20140214590A1 (en) Techniques for determining substitutes for products indicated in an electronic shopping list
CN107092647B (zh) 一种提供资源组合的方法及装置
CN108268464A (zh) 一种基于协同过滤与logistic回归的个性化推荐方法及装置
US20230215293A1 (en) System and method for designing food and beverage flavor experiences
CN110298718A (zh) 产品推荐方法、装置、设备及存储介质
CN109741125A (zh) 推荐菜品的方法及装置、存储介质、电子装置
CN106547365A (zh) 商品推荐的方法和装置
CN112818222A (zh) 一种基于知识图谱的个性化饮食推荐方法及系统
Kumar et al. Cuisine prediction based on ingredients using tree boosting algorithms
CN112115262A (zh) 网络评论数据收集与分析方法
JP2018028709A (ja) 通信販売サーバ
CN115221420A (zh) 一种基于用户画像的饮食推荐方法及系统
Saville et al. Recognition of Japanese Sake Quality Using Machine Learning Based Analysis of Physicochemical Properties
Nassibi et al. Demand Forecasting Models for Food Industry by Utilizing Machine Learning Approaches
CN112016582B (zh) 菜品推荐方法及其装置
Griva et al. A data mining-based framework to identify shopping missions
Hongbing et al. Analysis and Research on the Marketing Strategy of Agricultural Products Based on Artificial Intelligence
CN112200369A (zh) 基于神经网络的预测方法及装置
CN111192112A (zh) 一种多平台的交互方法和装置
US11972470B2 (en) Systems and methods for identifying item substitutions
CN117112912B (zh) 基于用户特征的餐饮内容个性化展示方法及系统
KR102471425B1 (ko) 식품 정보 제공 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination