CN114626899A - 基于大数据的产品销售数据采集方法和系统 - Google Patents

基于大数据的产品销售数据采集方法和系统 Download PDF

Info

Publication number
CN114626899A
CN114626899A CN202210516746.2A CN202210516746A CN114626899A CN 114626899 A CN114626899 A CN 114626899A CN 202210516746 A CN202210516746 A CN 202210516746A CN 114626899 A CN114626899 A CN 114626899A
Authority
CN
China
Prior art keywords
comment
monthly
product
link
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210516746.2A
Other languages
English (en)
Other versions
CN114626899B (zh
Inventor
沈荣明
马祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Biyou Data Technology Co ltd
Original Assignee
Nanjing Biyou Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Biyou Data Technology Co ltd filed Critical Nanjing Biyou Data Technology Co ltd
Priority to CN202210516746.2A priority Critical patent/CN114626899B/zh
Publication of CN114626899A publication Critical patent/CN114626899A/zh
Application granted granted Critical
Publication of CN114626899B publication Critical patent/CN114626899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于数据采集技术领域,提供了一种基于大数据的产品销售数据采集方法和系统,所述方法包括以下步骤:接收产品关键词,检索得到对应的产品链接;接收采集数量值,根据采集数量值保留排列靠前的产品链接;采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;确定存在刷单行为的产品链接,并将确定的产品链接删除;根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。本发明能够将存在刷单行为的产品链接删除,避免对消费者造成误导,使得数据采集更加准确。

Description

基于大数据的产品销售数据采集方法和系统
技术领域
本发明涉及数据采集技术领域,具体是涉及一种基于大数据的产品销售数据采集方法和系统。
背景技术
随着网络销售的不断发展,各大电商平台都具有销售大数据的自动采集功能,不仅方便电商平台对店铺进行管理,也方便店铺对其运营策略的调整,消费者需要在网上购买商品时,输入商品名称,并点开商品详情页面,就能够得到店铺评分、月销量、评论信息和评论数量等销售数据,进而方便消费者进行选择,挑选出更可靠的商品,但是这些销售数据可能存在伪造的情况,例如店铺存在刷单、刷好评的行为,这样就会对消费者进行误导,买到质量不够好的商品,进而影响消费者的网购体验。因此,需要提供一种基于大数据的产品销售数据采集方法和系统,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于大数据的产品销售数据采集方法和系统,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种基于大数据的产品销售数据采集方法,所述方法包括以下步骤:
接收产品关键词,检索得到对应的产品链接;
接收采集数量值,根据采集数量值保留排列靠前的产品链接;
采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
确定存在刷单行为的产品链接,并将确定的产品链接删除;
根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
作为本发明进一步的方案:所述确定存在刷单行为的产品链接的步骤,具体包括:
根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
作为本发明进一步的方案:所述将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接的步骤,具体包括:
设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
作为本发明进一步的方案:所述确定存在刷单行为的产品链接,并将确定的产品链接删除的步骤,还包括:
对剩余的每个产品链接的月评论信息进行自动识别分析;
当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
作为本发明进一步的方案:所述根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据的步骤,具体包括:
计算产品总评分,产品总评分=店铺评分*c+月销量*d+月好评数量*e-月中差评数量*f,其中,c、d、e和f均为定值;
根据产品总评分对产品链接进行排列;
显示每条产品链接对应的销售数据,所述销售数据包括店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
作为本发明进一步的方案:所述显示每条产品链接对应的销售数据的步骤,具体包括;
采集产品链接中每条评论信息对应的用户的购买款式,确定热卖购买款式;
获取热卖购买款式所对应的热卖款式图片;
显示每条产品链接对应的店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
本发明的另一目的在于提供一种基于大数据的产品销售数据采集系统,所述系统包括:
产品关键词接收模块,用于接收产品关键词,检索得到对应的产品链接;
产品链接初步确定模块,用于接收采集数量值,根据采集数量值保留排列靠前的产品链接;
原始销售数据采集模块,用于采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
刷单链接删除模块,用于确定存在刷单行为的产品链接,并将确定的产品链接删除;以及
产品链接排列模块,用于根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
作为本发明进一步的方案:所述刷单链接删除模块包括:
总评论占比值计算单元,用于根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
单独评论占比值计算单元,用于计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
刷单产品确定单元,用于将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
作为本发明进一步的方案:所述刷单产品确定单元包括:
上下限值确定子单元,用于设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
刷单产品确定子单元,用于判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
作为本发明进一步的方案:所述刷单链接删除模块还包括:
评论信息识别单元,用于对剩余的每个产品链接的月评论信息进行自动识别分析;
二次删除单元,当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
与现有技术相比,本发明的有益效果是:
本发明能够自动确定存在刷单行为的产品链接,并将确定的产品链接删除,避免对消费者造成误导;能够根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据,如此,消费者在输入产品关键词后,就能够快速直观的看到销售数据,无需点击进入产品详情页面,且方便进行产品的对比。
附图说明
图1为一种基于大数据的产品销售数据采集方法的流程图。
图2为一种基于大数据的产品销售数据采集方法中确定存在刷单行为的产品链接的流程图。
图3为一种基于大数据的产品销售数据采集方法中将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接的流程图。
图4为一种基于大数据的产品销售数据采集方法中将所述月评论信息对应的产品链接删除的流程图。
图5为一种基于大数据的产品销售数据采集方法中根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列的流程图。
图6为一种基于大数据的产品销售数据采集方法中显示每条产品链接对应的销售数据的流程图。
图7为一种基于大数据的产品销售数据采集系统的结构示意图。
图8为一种基于大数据的产品销售数据采集系统中刷单链接删除模块的结构示意图。
图9为一种基于大数据的产品销售数据采集系统中刷单产品确定单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种基于大数据的产品销售数据采集方法,包括以下步骤:
S100,接收产品关键词,检索得到对应的产品链接;
S200,接收采集数量值,根据采集数量值保留排列靠前的产品链接;
S300,采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
S400,确定存在刷单行为的产品链接,并将确定的产品链接删除;
S500,根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
需要说明的是,随着网络销售的不断发展,各大电商平台都具有销售大数据的自动采集功能,不仅方便电商平台对店铺进行管理,也方便店铺对其运营策略的调整,消费者需要在网上购买商品时,输入商品名称,并点开商品详情页面,就能够得到店铺评分、月销量、评论信息和评论数量等销售数据,进而方便消费者进行选择,挑选出更可靠的商品,但是这些销售数据可能存在伪造的情况,例如店铺存在刷单、刷好评的行为,这样就会对消费者进行误导,买到质量不够好的商品,进而影响消费者的网购体验,本发明实施例旨在解决上述问题。
本发明实施例中,首先接收消费者输入的产品关键词,自动进行检索得到对应的产品链接,产品链接的数量会有很多,为了方便后续对所有产品链接的销售数据直接进行展示,需要消费者输入采集数量值,例如采集数量值为100个,则本发明实施例自动保留排列在前100的产品链接,然后自动访问并采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成,月评论数量是指当月评论信息的数量值,需要说明的是,各大电商平台都会记录月销量和所有的评论信息,评论信息中包含用户的评论时间,根据评论时间就能够确定评论信息是否为当月的,为了保证月销量和评论信息能够对应起来,只保留当月的评论信息,接着自动确定存在刷单行为的产品链接,并将确定的产品链接删除,避免对消费者造成误导,最后根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据,如此,消费者在输入产品关键词后,就能够快速直观的看到销售数据,无需点击进入产品详情页面,更加方便,当然,产品链接中还显示有产品名称和价格。
如图2所示,作为本发明一个优选的实施例,所述确定存在刷单行为的产品链接的步骤,具体包括:
S401,根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
S402,计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
S403,将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
本发明实施例中,为了确定产品链接是否存在刷单行为,首先根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和,月评论数量总和就是所有保留的产品链接的月评论数量之和,月销量总和就是所有保留的产品链接所对应产品的月销量之和,然后计算单独评论占比值,单独评论占比值=月评论数量/月销量,每个产品链接都有自己的单独评论占比值,最后将单独评论占比值与总评论占比值进行对比就能够确定存在刷单行为的产品链接了,需要说明的是,同一类产品的适应人群相当,该人群网购后进行评论的比例也是差不多的,如果某个产品的月评论数量/月销量的值明显高于其他的产品,极有可能存在刷好评的行为。
如图3所示,作为本发明一个优选的实施例,所述将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接的步骤,具体包括:
S4031,设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
S4032,判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
本发明实施例中,需要计算得到评论占比上限值和评论占比下限值,其中,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为事先设定的定值,例如a为20%,b为30%,接着判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为,例如,总评论占比值为32%,则评论占比上限值=38.4%,评论占比下限值=22.4%,第一产品链接的单独评论占比值为60%,60%大于38.4%,参与评论的用户过多,极有可能存在刷好评的行为,判定存在刷单行为;第二产品链接的单独评论占比值为10%,10%小于22.4%,参与评论的用户过少,极有可能存在刷销量、伪造销量的行为,因此也判定存在刷单行为。
如图4所示,作为本发明一个优选的实施例,所述确定存在刷单行为的产品链接,并将确定的产品链接删除的步骤,还包括:
S404,对剩余的每个产品链接的月评论信息进行自动识别分析;
S405,当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
本发明实施例中,需要说明的是,经常能够看到很多完全相同的评论内容,这些评论内容往往字数较多,是店铺客服私发给用户,让用户进行评论的,本发明实施例能够自动对每个产品链接的月评论信息的内容进行识别分析,当月评论信息中某一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除,所述数量设定值为事先设定的定值,例如为10次,当某一条评论内容出现的次数到达10次时,说明该条评论内容极有可能为复制粘贴的,不够真实。
如图5所示,作为本发明一个优选的实施例,所述根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据的步骤,具体包括:
S501,计算产品总评分,产品总评分=店铺评分*c+月销量*d+月好评数量*e-月中差评数量*f,其中,c、d、e和f均为定值;
S502,根据产品总评分对产品链接进行排列;
S503,显示每条产品链接对应的销售数据,所述销售数据包括店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
本发明实施例中,为了更好的向消费者显示产品链接,需要对保留的产品链接进行排序,本发明实施例以产品总评分为排序根据,产品总评分=店铺评分*c+月销量*d+月好评数量*e-月中差评数量*f,其中,c、d、e和f均为事先设定的定值,产品总评分越高,排序越靠前,并会显示每条产品链接对应的销售数据,所述销售数据包括店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片,如此消费者能够快速直观的看到销售数据,无需点击进入产品详情页面,并方便和其他的产品进行对比,方便做出决断。
如图6所示,作为本发明一个优选的实施例,所述显示每条产品链接对应的销售数据的步骤,具体包括;
S5031,采集产品链接中每条评论信息对应的用户的购买款式,确定热卖购买款式;
S5032,获取热卖购买款式所对应的热卖款式图片;
S5033,显示每条产品链接对应的店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
本发明实施例中,容易理解,一个产品链接中可能包含多种款式,本发明实施例通过采集产品链接中每条评论信息所对应用户的购买款式,确定热卖购买款式,热卖购买款式就是评论的用户购买数量最多的款式,然后自动访问产品详情页面获取热卖购买款式所对应的热卖款式图片,最后在产品链接中显示店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
如图7所示,本发明实施例还提供了一种基于大数据的产品销售数据采集系统,所述系统包括:
产品关键词接收模块100,用于接收产品关键词,检索得到对应的产品链接;
产品链接初步确定模块200,用于接收采集数量值,根据采集数量值保留排列靠前的产品链接;
原始销售数据采集模块300,用于采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
刷单链接删除模块400,用于确定存在刷单行为的产品链接,并将确定的产品链接删除;以及
产品链接排列模块500,用于根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
本发明实施例中,首先接收消费者输入的产品关键词,自动进行检索得到对应的产品链接,产品链接的数量会有很多,为了方便后续对所有产品链接的销售数据直接进行展示,需要消费者输入采集数量值,例如采集数量值为100个,则本发明实施例自动保留排列在前100的产品链接,然后自动访问并采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成,月评论数量是指当月评论信息的数量值,需要说明的是,各大电商平台都会记录月销量和所有的评论信息,评论信息中包含用户的评论时间,根据评论时间就能够确定评论信息是否为当月的,为了保证月销量和评论信息能够对应起来,只保留当月的评论信息,接着自动确定存在刷单行为的产品链接,并将确定的产品链接删除,避免对消费者造成误导,最后根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据,如此,消费者在输入产品关键词后,就能够快速直观的看到销售数据,无需点击进入产品详情页面,更加方便。
如图8所示,作为本发明一个优选的实施例,所述刷单链接删除模块400包括:
总评论占比值计算单元401,用于根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
单独评论占比值计算单元402,用于计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
刷单产品确定单元403,用于将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
本发明实施例中,为了确定产品链接是否存在刷单行为,首先根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和,月评论数量总和就是所有保留的产品链接的月评论数量之和,月销量总和就是所有保留的产品链接所对应产品的月销量之和,然后计算单独评论占比值,单独评论占比值=月评论数量/月销量,每个产品链接都有自己的单独评论占比值,最后将单独评论占比值与总评论占比值进行对比就能够确定存在刷单行为的产品链接了,需要说明的是,同一类产品的适应人群相当,该人群网购后进行评论的比例也是差不多的,如果某个产品的月评论数量/月销量的值明显高于其他的产品,极有可能存在刷好评的行为。
如图9所示,作为本发明一个优选的实施例,所述刷单产品确定单元403包括:
上下限值确定子单元4031,用于设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
刷单产品确定子单元4032,用于判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
本发明实施例中,需要计算得到评论占比上限值和评论占比下限值,其中,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为事先设定的定值,例如a为20%,b为30%,接着判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为,例如,总评论占比值为32%,则评论占比上限值=38.4%,评论占比下限值=22.4%,第一产品链接的单独评论占比值为60%,60%大于38.4%,参与评论的用户过多,极有可能存在刷好评的行为,判定存在刷单行为;第二产品链接的单独评论占比值为10%,10%小于22.4%,参与评论的用户过少,极有可能存在刷销量、伪造销量的行为,因此也判定存在刷单行为。
如图8所示,作为本发明一个优选的实施例,所述刷单链接删除模块400还包括:
评论信息识别单元404,用于对剩余的每个产品链接的月评论信息进行自动识别分析;
二次删除单元405,当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
本发明实施例中,需要说明的是,经常能够看到很多完全相同的评论内容,这些评论内容往往字数较多,是店铺客服私发给用户,让用户进行评论的,本发明实施例能够自动对每个产品链接的月评论信息的内容进行识别分析,当月评论信息中某一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除,所述数量设定值为事先设定的定值,例如为10次,当某一条评论内容出现的次数到达10次时,说明该条评论内容极有可能为复制粘贴的,不够真实。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种基于大数据的产品销售数据采集方法,其特征在于,所述方法包括以下步骤:
接收产品关键词,检索得到对应的产品链接;
接收采集数量值,根据采集数量值保留排列靠前的产品链接;
采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
确定存在刷单行为的产品链接,并将确定的产品链接删除;
根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
2.根据权利要求1所述一种基于大数据的产品销售数据采集方法,其特征在于,所述确定存在刷单行为的产品链接的步骤,具体包括:
根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
3.根据权利要求2所述一种基于大数据的产品销售数据采集方法,其特征在于,所述将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接的步骤,具体包括:
设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
4.根据权利要求2所述一种基于大数据的产品销售数据采集方法,其特征在于,所述确定存在刷单行为的产品链接,并将确定的产品链接删除的步骤,还包括:
对剩余的每个产品链接的月评论信息进行自动识别分析;
当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
5.根据权利要求1所述一种基于大数据的产品销售数据采集方法,其特征在于,所述根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据的步骤,具体包括:
计算产品总评分,产品总评分=店铺评分*c+月销量*d+月好评数量*e-月中差评数量*f,其中,c、d、e和f均为定值;
根据产品总评分对产品链接进行排列;
显示每条产品链接对应的销售数据,所述销售数据包括店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
6.根据权利要求5所述一种基于大数据的产品销售数据采集方法,其特征在于,所述显示每条产品链接对应的销售数据的步骤,具体包括;
采集产品链接中每条评论信息对应的用户的购买款式,确定热卖购买款式;
获取热卖购买款式所对应的热卖款式图片;
显示每条产品链接对应的店铺评分、月销量、月好评数量、月中差评数量和热卖款式图片。
7.一种基于大数据的产品销售数据采集系统,其特征在于,所述系统包括:
产品关键词接收模块,用于接收产品关键词,检索得到对应的产品链接;
产品链接初步确定模块,用于接收采集数量值,根据采集数量值保留排列靠前的产品链接;
原始销售数据采集模块,用于采集保留的产品链接所对应产品的月销量、月评论信息、月评论数量和店铺评分,所述月评论数量由月好评数量和月中差评数量组成;
刷单链接删除模块,用于确定存在刷单行为的产品链接,并将确定的产品链接删除;以及
产品链接排列模块,用于根据店铺评分、月销量、月好评数量和月中差评数量对剩余的产品链接进行排列,并显示每条产品链接对应的销售数据。
8.根据权利要求7所述一种基于大数据的产品销售数据采集系统,其特征在于,所述刷单链接删除模块包括:
总评论占比值计算单元,用于根据产品链接中的月销量和月评论数量确定总评论占比值,所述总评论占比值=月评论数量总和/月销量总和;
单独评论占比值计算单元,用于计算每个产品链接的单独评论占比值,单独评论占比值=月评论数量/月销量;
刷单产品确定单元,用于将单独评论占比值与总评论占比值进行对比确定存在刷单行为的产品链接。
9.根据权利要求8所述一种基于大数据的产品销售数据采集系统,其特征在于,所述刷单产品确定单元包括:
上下限值确定子单元,用于设定评论占比上限值和评论占比下限值,评论占比上限值=总评论占比值*(1+a),评论占比下限值=总评论占比值*(1-b),a和b均为定值;
刷单产品确定子单元,用于判定单独评论占比值是否属于[评论占比上限值,评论占比下限值],当不属于时,确定单独评论占比值所对应的产品链接存在刷单行为。
10.根据权利要求8所述一种基于大数据的产品销售数据采集系统,其特征在于,所述刷单链接删除模块还包括:
评论信息识别单元,用于对剩余的每个产品链接的月评论信息进行自动识别分析;
二次删除单元,当月评论信息中存在一个评论内容出现的次数到达数量设定值时,将所述月评论信息对应的产品链接删除。
CN202210516746.2A 2022-05-13 2022-05-13 基于大数据的产品销售数据采集方法和系统 Active CN114626899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516746.2A CN114626899B (zh) 2022-05-13 2022-05-13 基于大数据的产品销售数据采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516746.2A CN114626899B (zh) 2022-05-13 2022-05-13 基于大数据的产品销售数据采集方法和系统

Publications (2)

Publication Number Publication Date
CN114626899A true CN114626899A (zh) 2022-06-14
CN114626899B CN114626899B (zh) 2022-11-18

Family

ID=81906934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210516746.2A Active CN114626899B (zh) 2022-05-13 2022-05-13 基于大数据的产品销售数据采集方法和系统

Country Status (1)

Country Link
CN (1) CN114626899B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611796A (zh) * 2023-07-20 2023-08-18 广州淘通科技股份有限公司 一种店铺交易数据的异常检测方法及装置
CN116611796B (zh) * 2023-07-20 2024-06-07 广州淘通科技股份有限公司 一种店铺交易数据的异常检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038696A (zh) * 2017-12-01 2018-05-15 杭州呯嘭智能技术有限公司 基于设备标识码和社交群组信息的刷单检测方法及系统
CN113256372A (zh) * 2021-05-14 2021-08-13 深圳迅销科技股份有限公司 一种基于电子商务的商品销售系统和方法
WO2021232856A1 (zh) * 2020-05-21 2021-11-25 中国标准化研究院 基于大数据的网销商品检验抽样方法
CN114091837A (zh) * 2021-10-27 2022-02-25 浪潮卓数大数据产业发展有限公司 一种基于电商数据进行店铺评分的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038696A (zh) * 2017-12-01 2018-05-15 杭州呯嘭智能技术有限公司 基于设备标识码和社交群组信息的刷单检测方法及系统
WO2021232856A1 (zh) * 2020-05-21 2021-11-25 中国标准化研究院 基于大数据的网销商品检验抽样方法
CN113256372A (zh) * 2021-05-14 2021-08-13 深圳迅销科技股份有限公司 一种基于电子商务的商品销售系统和方法
CN114091837A (zh) * 2021-10-27 2022-02-25 浪潮卓数大数据产业发展有限公司 一种基于电商数据进行店铺评分的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611796A (zh) * 2023-07-20 2023-08-18 广州淘通科技股份有限公司 一种店铺交易数据的异常检测方法及装置
CN116611796B (zh) * 2023-07-20 2024-06-07 广州淘通科技股份有限公司 一种店铺交易数据的异常检测方法及装置

Also Published As

Publication number Publication date
CN114626899B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN111080398B (zh) 商品推荐方法、装置、计算机设备和存储介质
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
KR102089666B1 (ko) 빅데이터를 활용한 판매자 신용 등급 자동집계 및 평가 방법 및 ai 자동 분류 서버
CN115082153A (zh) 一种商家质量评价方法、装置、电子设备及存储介质
JPH06119309A (ja) 購入見込み度合予測方法及び顧客管理システム
CN113313538A (zh) 用户消费能力预测方法、装置、电子设备和存储介质
CN115829673A (zh) 基于大数据的电子商城用户偏好分析方法及系统
CN113379516A (zh) 一种推荐产品确定方法及装置
CN109858947B (zh) 零售用户价值分析系统及方法
CN114626899B (zh) 基于大数据的产品销售数据采集方法和系统
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
CN116186224A (zh) 基于互联网的电子商务平台管理方法及系统
CN115760275A (zh) 一种电商平台的产品销售智能推荐方法和系统
CN115860865A (zh) 商品组合构造方法及其装置、设备、介质、产品
CN115545755A (zh) 一种互联网营销受众筛选方法及系统
CN115049137A (zh) 交易收益率的预测方法及装置、存储介质、电子设备
CN113283967A (zh) 基于物联网的零售购物选择方法及系统
CN112581281A (zh) 产品推荐方法及装置、存储介质及电子设备
CN113254760A (zh) 自助设备的功能菜单推送方法、系统、设备和介质
CN116452303B (zh) 基于大数据的电子商务数据管理方法
CN114817725B (zh) 一种行为决策逻辑识别方法及系统
CN115081403B (zh) 会议ppt自动生成方法、装置、电子设备及存储介质
CN114202396B (zh) 一种交互式服装推荐方法和系统
CN116402581A (zh) 基于人工智能的电商数据管理方法及系统
CN111046902B (zh) 基于聚类算法的分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant