CN110929127A - 一种淘宝直播投放效果分析的方法及计算机设备 - Google Patents

一种淘宝直播投放效果分析的方法及计算机设备 Download PDF

Info

Publication number
CN110929127A
CN110929127A CN201911235124.7A CN201911235124A CN110929127A CN 110929127 A CN110929127 A CN 110929127A CN 201911235124 A CN201911235124 A CN 201911235124A CN 110929127 A CN110929127 A CN 110929127A
Authority
CN
China
Prior art keywords
data
module
processing module
taobao
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911235124.7A
Other languages
English (en)
Inventor
马耀
简振业
曹振华
刘洋航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuanxiang Information Technology Co Ltd
Original Assignee
Guangzhou Yuanxiang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuanxiang Information Technology Co Ltd filed Critical Guangzhou Yuanxiang Information Technology Co Ltd
Priority to CN201911235124.7A priority Critical patent/CN110929127A/zh
Publication of CN110929127A publication Critical patent/CN110929127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于大数据分析领域,其公开了一种淘宝直播投放效果分析的方法及计算机设备,包括爬虫模块、第一存储模块、变量处理模块、筛选模块、第二存储模块、第一处理模块、第二处理模块,分别运行淘宝直播投放效果分析的方法步骤:本方案解决淘宝直播投放效果分析整个系统的稳定性和通用性较差的问题。

Description

一种淘宝直播投放效果分析的方法及计算机设备
技术领域
本发明涉及大数据分析领域,特别是一种淘宝直播投放效果分析的方法及计算机设备。
背景技术
网络直播是一种全新的互联网视听节目,是在电脑、手机等终端设备上使用有线或无线网络进行信息传递,并将现场信息以文字、语音、图像、视频、弹幕等多媒体形式展现的传播方式。在互联网技术快速发展的当下,网络直播表现出强大的传播优势;其中,淘宝直播是推出的直播平台之一,定位于“消费类直播”,用户可边看边买,涵盖的范畴包括母婴、美妆等。
目前,针对淘宝直播投放效果的分析准确性并不高,其中,投放效果的重要指标为访客流量和引导成交金额,整个系统的稳定性和通用性较差,开发人员的开发维护效率低,不利于帮助企业经营决策、控制直播质量。
发明内容
本发明的目的是提供一种淘宝直播投放效果分析的方法及计算机设备,解决淘宝直播投放效果分析整个系统的稳定性和通用性较差的问题。
本发明提供的技术方案为:一种淘宝直播投放效果分析的方法,所述的淘宝直播投放效果分析的方法包括以下步骤:
(1)在爬虫模块中收集淘宝直播的第一数据,存储到第一存储模块,并经第一存储模块输送到变量处理模块中;
(2)将变量处理模块中的第一数据分别做哑变量处理,编辑成可分析的第二数据;
(3)在筛选模块中将所述的第二数据分别做关联度分析,筛选得出有效的第三数据,存储到第二存储模块,第二存储模块的第三数据反馈到爬虫模块,同时输出到第一处理模块上进行拟合处理,拟合处理得到的方程传输到第二处理模块中;
(4)爬虫模块根据反馈的第三数据,再次收集与第三数据对应的第一数据,重新依次运行转换成第四数据,并将第四数据输出到第二处理模块中,经由第二处理模块运算处理,得到分析结果,所述的分析结果包括中间产物的访客流量,以及最终产物的引导成交金额,输出分析结果。
在上述的淘宝直播投放效果分析的方法中,所述的第一数据的内容为定性数据,所述的哑变量处理为对定性数据处理,将哑变量处理后的定性数据打包成第二数据。
在上述的淘宝直播投放效果分析的方法中,所述的变量处理模块对第一数据哑变量处理的步骤为,首先将单个特征划分出“差、中、好”3个变量,即D1、D2、D3;然后利用“1”表示单个变量成立,“0”代表表示变量不成立;接着取D1为参照系,引入D2/D3,当D2/D3均取值为0时,实际样本就是属于变量D1,依次重复上述步骤将数单个特征将扩充为上百个特征,得出第二数据。
在上述的淘宝直播投放效果分析的方法中,所述的关联度分析采用pearson相关系数进行显著性检验,通过检验筛选出第二数据中第三数据。
在上述的淘宝直播投放效果分析的方法中,所述的第一处理模块的处理步骤为,将第三数据统计征拟合成访客流量分析方程,并将访客流量作为自变量,再次拟合出投放效果分析方程;第二处理模块的处理步骤为,将第四数据结合投放效果分析方程,得出分析结果。
在上述的淘宝直播投放效果分析的方法中,所述的分析结果反馈并存储到第一存储模块中,以待进入下一次流程循环。
在上述的淘宝直播投放效果分析的方法中,所述的变量处理模块还包括正态转换;所述的正态转换为,采用对数函数lg对第二数据进行转换,第二数据转换前为Y,第二数据转换后为Y1,即Y1=lg(Y+1)完成第二数据的正态转换。
在上述的淘宝直播投放效果分析的方法中,所述的第二处理模块对分析结果进行逆转换,
Figure BDA0002304682670000021
得到准确的分析结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的淘宝直播投放效果分析的方法中任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的淘宝直播投放效果分析的方法中任一项所述的方法的步骤。
本发明在采用上述技术方案后,其具有的有益效果为:
进一步的改进,本方案通过设置爬虫模块、第一存储模块、变量处理模块、筛选模块、第二存储模块、第一处理模块、第二处理模块,利用http服务注册的方式,不同的模块之间使用消息队列的方式进行相互的访问,在各模块的配合下,可以减少系统模块之间的耦合,而消息队列的异步消息处理能力可以提升系统数据处理的并行能力,方便系统在提升处理能力时进行横向扩展;进行模块化处理,减少开发人员的工作量,以及不限制开发人员的开发语言,降低能力需求,有利于提高准确率,整个系统的运维管理更加的可靠高效。
进一步的改进,本方案通过设置爬虫模块,爬虫模块内有目标网站和爬取要求的任务,上述目标网站为本次爬取数据的数据源;上述爬取要求为爬取数据的要求,比如指定的类型的数据、目标网站中指定功能的数据等。获取爬虫任务的方式包括多种,比如无差别的任务爬虫,或者接收系统生成的爬虫任务等。一个爬虫任务中的爬取要求可能包括多个,比如即要求爬取直播达人的属性数据,又要求爬取直播间的其他数据等。
进一步的改进,本方案通过设置第一存储模块,使得爬虫模块收集到的原始数据,即第一数据,存储到第一数据存储模块中,因为第一数据的数据量大,第一存储模块一般为一个文件存储系统,价格相对低廉,可以节省存储方面的开资。
进一步的改进,本方案通过设置变量处理模块,第一数据内大部分是定性数据(定义或定序型数据),为了方便后续的分析处理,需要对定性变量采用哑变量处理,并通过运算最终将第一数据转换为全是定量数据的第二数据。
进一步的改进,本方案通过设置筛选模块,对第二数据分别进行关联度分析,筛选得出有效的第三数据,由于前期的哑变量处理后有上百个指标维度,第二数据的数据量大,全部输送到第一处理模块上,进行拟合处理将会大量浪费资源,时间长且准确率、效率较低,通过筛选出必要数据,即第三数据,存储在第二存储模块中,第二存储模块的第三数据反馈传输到爬虫模块,调整爬取任务,提高爬取准确率和效率,从而提高爬取质量,同时输出到第一处理模块进行下一处理,进行拟合运算,拟合处理得到的方程传输到第二处理模块中。
进一步的改进,本方案通过设置由爬虫模块再收集的第一数据,再次进行哑变量处理,得到第四数据,并将第四数据传输到第二处理模块当中,经第二处理模块结合拟合处理得到的方程和第四数据,运算得出分析结果,最终输出结果。
进一步的改进,本方案通过设置第一数据内容,使得变量处理模块降低运算量,对定性变量采用哑变量处理,并通过运算最终将定性数据转换为全是定量数据的第二数据;基于零售的3大要素“人”、“货”、“场”筛选出可能影响直播效果的第一数据,可建立四大数据库,分别为“直播达人属性”、“直播货品信息”、“直播过程信息”、“直播效果信息”。
进一步的改进,本方案通过设置哑变量处理,将第一数据进行哑变量处理引入第二处理模块中回归拟合,虽然使处理变得较为复杂,但可以更直观地反映出该自变量(即第一数据)的不同属性对于因变量(分析结果)的影响,提高了处理的精度和准确度。
进一步的改进,本方案通过设置pearson相关系数进行显著性检验,使得进行拟合处理前先判断自变量(第一数据)与因变量(分析结果)之间是否存在相关性,即进行相关性的假设检验,判断其是否有显著性,由于前面的数据中已经对分类变量转换成哑变量,因此可直接使用pearson计算相关系数及进行显著性检验。
进一步的改进,本方案通过设置第一处理模块、第二处理模块的步骤,使得可顺利得出分析结果,输出分析结果;首先经由第一处理模块处理得出分析方程,输出到第二处理模块中,在第二处理模块中,再结合再次收集转换的第四数据,完成分析。
进一步的改进,本方案通过设置分析结果反馈并存储第一存储模块中,将分析结果作为历来的分析数据供参考判断,当作自变量和爬虫模块再次收集的第一数据共同依次重新传输到变量处理模块、筛选模块、第二存储模块,直至在第一处理模块中将原分析方程更新,提高分析准确率。
进一步的改进,本方案通过设置正态转换,使得属于偏态分布的分析结果,不与回归拟合的限制条件相违背,将分析结果进行正态分布转换,由于效果数据不存在负数,因此使用对数lg进行转换较为合适,同时经过实验发现当效果数据为0时对数转化会失败,因此在转换时在效果指标中加1,整体效果不会受影响。
进一步的改进,本方案通过对分析结果逆转换,由于第一处理模块的回归拟合前,在变量处理模块进行了正态分布转换,因此运算结果需要进行逆转换才准确,还原分析结果的准确性。
进一步的改进,本方案通过设置一种计算机设备,该计算机设备可以是上述的管理服务器,或者管理节点对应的服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库;其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;该计算机设备的数据库用于存储各模块等数据;该计算机设备的网络接口用于与外部的终端通过网络连接通信;该计算机程序被处理器执行时以实现一种淘宝直播投放效果分析的方法。
进一步的改进,本方案通过设置一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种淘宝直播投放效果分析的方法,基于各个模块的配合下,包括:在爬虫模块中收集淘宝直播的第一数据,存储到第一存储模块,并经第一存储模块输送到变量处理模块中;将变量处理模块中的第一数据分别做哑变量处理,编辑成可分析的第二数据;在筛选模块中将所述的第二数据分别做关联度分析,筛选得出有效的第三数据,存储到第二存储模块,第二存储模块的第三数据反馈到爬虫模块,同时输出到第一处理模块上进行拟合处理,拟合处理得到的方程传输到第二处理模块中;爬虫模块根据反馈的第三数据,再次收集与第三数据对应的第一数据,转换成第四数据,并将第四数据输出到第二处理模块中,经由第二处理模块运算处理,得到访客流量和引导成交金额的分析结果,输出分析结果。
附图说明
图1是本发明的实施例1的淘宝直播投放效果分析的结构示意图;
图2是本发明的实施例1的淘宝直播投放效果分析的流程示意图;
图3是本发明的实施例1的淘宝直播投放效果分析的结构流程图;
图4是本发明的实施例1的计算机设备的结构示意图。
具体实施方式
下面结合具体实施方式,对本发明的技术方案作进一步的详细说明,但不构成对本发明的任何限制。
实施例1:如图1-4所示,一种淘宝直播投放效果分析的方法,所述的淘宝直播投放效果分析的方法包括以下步骤:
(1)在爬虫模块中收集淘宝直播的第一数据,存储到第一存储模块,并经第一存储模块输送到变量处理模块中;
(2)将变量处理模块中的第一数据分别做哑变量处理,编辑成可分析的第二数据;
(3)在筛选模块中将所述的第二数据分别做关联度分析,筛选得出有效的第三数据,存储到第二存储模块,第二存储模块的第三数据反馈到爬虫模块,同时输出到第一处理模块上进行拟合处理,拟合处理得到的方程传输到第二处理模块中;
(4)爬虫模块根据反馈的第三数据,再次收集与第三数据对应的第一数据,重新依次运行转换成第四数据,并将第四数据输出到第二处理模块中,经由第二处理模块运算处理,得到分析结果,所述的分析结果包括中间产物的访客流量,以及最终产物的引导成交金额,输出分析结果。
究其目的为,通过设置爬虫模块、第一存储模块、变量处理模块、筛选模块、第二存储模块、第一处理模块、第二处理模块,利用http服务注册的方式,不同的模块之间使用消息队列的方式进行相互的访问,在各模块的配合下,可以减少系统模块之间的耦合,而消息队列的异步消息处理能力可以提升系统数据处理的并行能力,方便系统在提升处理能力时进行横向扩展;进行模块化处理,减少开发人员的工作量,以及不限制开发人员的开发语言,降低能力需求,有利于提高准确率,整个系统的运维管理更加的可靠高效。
首先,通过设置爬虫模块,爬虫模块内有目标网站和爬取要求的任务,上述目标网站为本次爬取数据的数据源;上述爬取要求为爬取数据的要求,比如指定的类型的数据、目标网站中指定功能的数据等。获取爬虫任务的方式包括多种,比如无差别的任务爬虫,或者接收系统生成的爬虫任务等。一个爬虫任务中的爬取要求可能包括多个,比如即要求爬取直播达人的属性数据,又要求爬取直播间的其他数据等。
其中,爬虫服务模块中设置有一个调用列表,列表中存储有呈一对一映射的爬取要求和爬取服务,当获取到爬虫任务的爬取要求后,先到调用列表中查找与其相同的爬取要求,然后根据映射关系获取到目标爬取服务,最后调用该目标爬取服务。当上述爬虫任务中包括有多个爬取要求的时候,同时进行调用即可。然后利用目标爬虫服务到目标网站爬取数据。
然后,通过设置第一存储模块,使得爬虫模块收集到的原始数据,即第一数据,存储到第一数据存储模块中,因为第一数据的数据量大,第一存储模块一般为一个文件存储系统,价格相对低廉,可以节省存储方面的开资。
接着,通过设置变量处理模块,第一数据内大部分是定性数据(定义或定序型数据),为了方便后续的分析处理,需要对定性变量采用哑变量处理,并通过运算最终将第一数据转换为全是定量数据的第二数据。
接下来,通过设置筛选模块,对第二数据分别进行关联度分析,筛选得出有效的第三数据,由于前期的哑变量处理后有上百个指标维度,第二数据的数据量大,全部输送到第一处理模块上,进行拟合处理将会大量浪费资源,时间长且准确率、效率较低,通过筛选出必要数据,即第三数据,存储在第二存储模块中,第二存储模块的第三数据反馈传输到爬虫模块,调整爬取任务,提高爬取准确率和效率,从而提高爬取质量,同时输出到第一处理模块进行下一处理,进行拟合运算,拟合处理得到的方程传输到第二处理模块中。
其中,第二存储模块可以是设置在上述第一存储模块中的子数据库,例如是第一存储模块中的一个文件夹等;第二存储也可以是一个独立于上述第一存储模块的数据库。
最后,通过设置由爬虫模块再收集的第一数据,再次进行哑变量处理,得到第四数据,并将第四数据传输到第二处理模块当中,经第二处理模块结合拟合处理得到的方程和第四数据,运算得出分析结果,最终输出结果,其中,流程示意图(即图3)中的n为运行次数。
优选的,所述的第一数据的内容为定性数据,所述的哑变量处理为对定性数据处理,将哑变量处理后的定性数据打包成第二数据,降低运算量,对定性变量采用哑变量处理,并通过运算最终将定性数据转换为全是定量数据的第二数据;
其中,基于零售的3大要素“人”、“货”、“场”建立可能影响直播效果的标签池,此处建立的4大类型的数据库表,第一数据主要以收集和定义2种方法获得;利用模拟手机采集淘宝直播app的公开数据,基于逻辑对观测值进行标签定义得到定性数据,其定义为:例如标签“达人等级分类”,主要通过达人合作报价,粉丝数量,历史直播效果等指标进行定义,得到第一数据,第一数据包括以下数据;
“直播达人属性”,在淘宝直播生态内有众多达人,基于考量收集及定义直播达人的属性、效果等信息,指标包括:达人的热门指数、粉丝数、等级分类、所属领域,近7天的播放量、进店量、销量、评论量,近5场的观看量、进店量、点赞量、销量、带货量、在线观看量;
“直播货品信息”,以商品维度收集相关数据,量化商品的产品力,吸引力、优惠力信息,标签包括:商品分类、商品原价格、直播到手价、机制优惠形式、购买转化率、人均购买数量;
“直播过程信息”,在直播过程中的情况,但可提前规划及预见的维度,标签包括:直播合作形式、直播的活动背景等级、预计讲解时长、预计投放费用、预计开始讲解时间、直播间专属优惠、同场竞品;
“直播效果信息”,经过历年所沉淀的每一个货品在每一场直播的“流量访客”和“引导成交金额”,作为模型效果的自变量。
在本实施例中,所述的变量处理模块对第一数据哑变量处理的步骤为,首先将单个特征划分出“差、中、好”3个变量,即D1、D2、D3;然后利用“1”表示单个变量成立,“0”代表表示变量不成立;接着取D1为参照系,引入D2/D3,当D2/D3均取值为0时,实际样本就是属于变量D1,依次重复上述步骤将数单个特征将扩充为上百个特征,得出第二数据。
在实际操作中,在前面收集和定义的数据整体区分为定量(度量型数据)与定性(定义或定序型数据)的数据,除了度量型数据可直接进行后续的预测,其余均需要重新编码,因此需对定性型数据进行哑变量处理,例如“达人等级分类”变量分为“差”、“中”、“好”,那么构建的过程则把“达人等级”拆分成D1变量“是否差”(是=1,否则=0),D2变量“是否中”(是=1,否则=0),D3变量“是否好”(是=1,否则=0),但如果D1/D2/D3同时进行拟合会出现多重共线性,因此以“差”为参照系,只引入D2/D3,当D2/D3均取值为0时,实际样本就是属于“差”,因此经过特征工程后的数十个指标将扩充为上百个指标维度,即得到第二数据;
上述的操作,通过设置哑变量处理,将第一数据进行哑变量处理引入第二处理模块中回归拟合,虽然使处理变得较为复杂,但可以更直观地反映出该自变量(即第一数据)的不同属性对于因变量(分析结果)的影响,提高了处理的精度和准确度。
在本实施例中,所述的关联度分析采用pearson相关系数进行显著性检验,通过检验筛选出第二数据中第三数据。
由于前期的特征处理后有上百个指标维度,全部进行拟合将会大量浪费资源,因此在进行回归拟合前先判断自变量与因变量之间是否存在相关性,以下是pearson相关系数的原理:
Figure BDA0002304682670000081
xi和yi分别为变量X和Y的观测值,
Figure BDA0002304682670000082
Figure BDA0002304682670000083
分别为变量X和Y的均值;
根据相关系数计算检验统计量,计算出的T检验值通过查询对照表转换成P值
Figure BDA0002304682670000091
当P值小于0.05则为显著相关,最后计算“流量访客”及“引导成交金额”显著相关的标签维度,即判断出有效的第三数据;
通过设置pearson相关系数进行显著性检验,使得进行拟合处理前先判断自变量(第一数据)与因变量(分析结果)之间是否存在相关性,即进行相关性的假设检验,判断其是否有显著性,由于前面的数据中已经对分类变量转换成哑变量,因此可直接使用pearson计算相关系数及进行显著性检验;
第三数据对应着的第一数据有,关于“流量访客”:达人热门指数、达人近5场观看数、达人近5场评论数、达人近7天平均评论数、预计讲解时长、商品转化率、预计开始讲解时间;关于“金额引导成交”:流量访客、预计投放费用、商品到手价、人均购买件数、商品折扣比例、是否满减、是否多重优惠。
在本实施例中,所述的第一处理模块的处理步骤为,将第三数据统计征拟合成访客流量分析方程,并将访客流量作为自变量,再次拟合出投放效果分析方程;第二处理模块的处理步骤为,将第四数据结合投放效果分析方程,得出分析结果。
在实际操作中,进行回归分析获得拟合的参数及方程,根据筛选出相关的标签维度后需要确定其影响程度,即进行多元线性回归分析找到其权重,
y=b0+b1x1+b2x2+…+bnxn
其中b0是常数,b1,b2,…,bn是回归系数,由于方程中设置了哑变量,基于哑变量需同进同出的原理,这里选择的是强制进入回归;
各标签维度对应的回归参数分别为:
流量访客=1.8+0.000022×达人热门指数+4.05×商品转化率+0.039×预计讲解时长
+0.000016×达人近5场评论数+0.00000019×达人近5场观看数
+0.000085×近7天平均评论数-1.15×预计开始讲解时间
对“访客流量”做显示相关系数检验,检验回归效果,得出R2=0.709,即拟合方程能解释直播的流量访客的变化的70.9%;
引导成交金额与流量访客强相关,因此基于上述计算出的流量访客数放进方程拟合出引导成交金额的方程,
引导成交金额=1.223+0.802×流量访客+0.0001×预计投放费用+0.90×商品折扣比例
-0.005×商品到手价-0.805×人均购买件数+0.313×是否多重优惠
对“引导成交金额”做显示相关系数检验,检验回归效果,得出R2=0.682,即拟合方程能解释直播的流量访客的变化的68.2%;
上述操作中,通过设置第一处理模块、第二处理模块的步骤,使得可顺利得出分析结果,输出分析结果;首先经由第一处理模块处理得出分析方程,输出到第二处理模块中,在第二处理模块中,再结合再次收集转换的第四数据,完成分析。
在本实施例中,所述的分析结果反馈并存储到第一存储模块中,以待进入下一次流程循环。
作为又一步改进,通过设置分析结果反馈并存储第一存储模块中,将分析结果作为历来的分析数据供参考判断,当作自变量和爬虫模块再次收集的第一数据共同依次重新传输到变量处理模块、筛选模块、第二存储模块,直至在第一处理模块中将原分析方程更新,提高分析准确率。
在本实施例中,所述的变量处理模块还包括正态转换;所述的正态转换为,采用对数函数lg对第二数据进行转换,第二数据转换前为Y,第二数据转换后为Y1,即Y1=lg(Y+1)完成第二数据的正态转换。
在操作过程中,制作直方图发现沉淀直播的效果数据(直播效果信息)属于偏态分布,与回归拟合的限制条件相违背,因此需要把效果数据进行正态分布转换,由于效果数据不存在负数,因此使用对数lg进行转换较为合适,转换逻辑如下:
Y1=lgY
Y为效果指标,Y1为转换后的效果指标;
经过实验发现当效果数据为0时对数转化会失败,因此在转换时在效果指标中加1,整体效果不会受影响,
Y1=lg(Y+1)
Y为效果指标,Y1为转换后的效果指标;“流量访客”和“引导成交金额”均符合正态分布;
上述的操作,通过设置正态转换,使得属于偏态分布的分析结果,不与回归拟合的限制条件相违背,将分析结果进行正态分布转换,由于效果数据不存在负数,因此使用对数lg进行转换较为合适,同时经过实验发现当效果数据为0时对数转化会失败,因此在转换时在效果指标中加1,整体效果不会受影响。
在本实施例中,所述的第二处理模块对分析结果进行逆转换,述的第二处理模块对分析结果进行逆转换,Y=10Y1-1得到准确的分析结果。
优选的,通过对分析结果逆转换,由于第一处理模块的回归拟合前,在变量处理模块进行了正态分布转换,因此运算结果需要进行逆转换才准确,还原分析结果的准确性。
本申请实施例中还提供一种计算机设备,该计算机设备可以是上述的管理服务器,或者管理节点对应的服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库;其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;该计算机设备的数据库用于存储各模块等数据;该计算机设备的网络接口用于与外部的终端通过网络连接通信;该计算机程序被处理器执行时以实现一种淘宝直播投放效果分析的方法。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种淘宝直播投放效果分析的方法,基于各个模块的配合下,包括:在爬虫模块中收集淘宝直播的第一数据,存储到第一存储模块,并经第一存储模块输送到变量处理模块中;将变量处理模块中的第一数据分别做哑变量处理,编辑成可分析的第二数据;在筛选模块中将所述的第二数据分别做关联度分析,筛选得出有效的第三数据,存储到第二存储模块,第二存储模块的第三数据反馈到爬虫模块,同时输出到第一处理模块上进行拟合处理,拟合处理得到的方程传输到第二处理模块中;爬虫模块根据反馈的第三数据,再次收集与第三数据对应的第一数据,转换成第四数据,并将第四数据输出到第二处理模块中,经由第二处理模块运算处理,得到访客流量和引导成交金额的分析结果,输出分析结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种淘宝直播投放效果分析的方法,其特征在于,所述的淘宝直播投放效果分析的方法包括以下步骤:
(1)在爬虫模块中收集淘宝直播的第一数据,存储到第一存储模块,并经第一存储模块输送到变量处理模块中;
(2)将变量处理模块中的第一数据分别做哑变量处理,编辑成可分析的第二数据;
(3)在筛选模块中将所述的第二数据分别做关联度分析,筛选得出有效的第三数据,存储到第二存储模块,第二存储模块的第三数据反馈到爬虫模块,同时输出到第一处理模块上进行拟合处理,拟合处理得到的方程传输到第二处理模块中;
(4)爬虫模块根据反馈的第三数据,再次收集与第三数据对应的第一数据,重新依次运行转换成第四数据,并将第四数据输出到第二处理模块中,经由第二处理模块运算处理,得到分析结果,所述的分析结果包括中间产物的访客流量,以及最终产物的引导成交金额,输出分析结果。
2.根据权利要求1所述的淘宝直播投放效果分析的方法,其特征在于,所述的第一数据的内容为定性数据,所述的哑变量处理为对定性数据处理,将哑变量处理后的定性数据打包成第二数据。
3.根据权利要求1所述的淘宝直播投放效果分析的方法,其特征在于,所述的变量处理模块对第一数据哑变量处理的步骤为,首先将单个特征划分出“差、中、好”3个变量,即D1、D2、D3;然后利用“1”表示单个变量成立,“0”代表表示变量不成立;接着取D1为参照系,引入D2/D3,当D2/D3均取值为0时,实际样本就是属于变量D1,依次重复上述步骤将数单个特征将扩充为上百个特征,得出第二数据。
4.根据权利要求1所述的淘宝直播投放效果分析的方法,其特征在于,所述的关联度分析采用pearson相关系数进行显著性检验,通过检验筛选出第二数据中第三数据。
5.根据权利要求1所述的淘宝直播投放效果分析的方法,其特征在于,所述的第一处理模块的处理步骤为,将第三数据统计征拟合成访客流量分析方程,并将访客流量作为自变量,再次拟合出投放效果分析方程;第二处理模块的处理步骤为,将第四数据结合投放效果分析方程,得出分析结果。
6.根据权利要求1所述的淘宝直播投放效果分析的方法,其特征在于,所述的分析结果反馈并存储到第一存储模块中,以待进入下一次流程循环。
7.根据权利要求6所述的淘宝直播投放效果分析的方法,其特征在于,所述的变量处理模块还包括正态转换;所述的正态转换为,采用对数函数lg对第二数据进行转换,第二数据转换前为Y,第二数据转换后为Y1,即Y1=lg(Y+1)完成第二数据的正态转换。
8.根据权利要求7所述的淘宝直播投放效果分析的方法,其特征在于,所述的第二处理模块对分析结果进行逆转换,
Figure FDA0002304682660000021
得到准确的分析结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN201911235124.7A 2019-12-05 2019-12-05 一种淘宝直播投放效果分析的方法及计算机设备 Pending CN110929127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235124.7A CN110929127A (zh) 2019-12-05 2019-12-05 一种淘宝直播投放效果分析的方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235124.7A CN110929127A (zh) 2019-12-05 2019-12-05 一种淘宝直播投放效果分析的方法及计算机设备

Publications (1)

Publication Number Publication Date
CN110929127A true CN110929127A (zh) 2020-03-27

Family

ID=69857116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235124.7A Pending CN110929127A (zh) 2019-12-05 2019-12-05 一种淘宝直播投放效果分析的方法及计算机设备

Country Status (1)

Country Link
CN (1) CN110929127A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861541A (zh) * 2020-06-12 2020-10-30 有米科技股份有限公司 基于带货视频的带货效果确定方法及装置
CN111859284A (zh) * 2020-06-12 2020-10-30 有米科技股份有限公司 带货视频的分摊权重值确定方法及装置
CN112235636A (zh) * 2020-09-07 2021-01-15 有米科技股份有限公司 带货视频浏览价值属性的计算方法及装置
CN112243153A (zh) * 2020-09-07 2021-01-19 有米科技股份有限公司 基于视频互动数据确定浏览价值属性的方法及装置
CN112261475A (zh) * 2020-09-07 2021-01-22 有米科技股份有限公司 带货视频的商品浏览价值属性评估方法及装置
CN112330098A (zh) * 2020-10-16 2021-02-05 有米科技股份有限公司 Kol带货能力属性的智能化计算方法及装置
CN113034230A (zh) * 2021-03-17 2021-06-25 杭州遥望网络科技有限公司 一种直播带货的宣讲时长确定方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314142A1 (en) * 2010-06-21 2011-12-22 Christopher Daniel Newton Referred internet traffic analysis system and method
CN108021604A (zh) * 2017-10-24 2018-05-11 山东科技大学 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法
CN108876458A (zh) * 2018-06-19 2018-11-23 湖北国网华中科技开发有限责任公司 一种基于网络爬虫的商品动态预测方法及系统
CN109388740A (zh) * 2017-08-06 2019-02-26 北京国双科技有限公司 一种网络信息传播效果的监测方法及装置
CN109829007A (zh) * 2019-02-06 2019-05-31 桐乡市麦西微服饰有限公司 一种数据分析装置及操作方法
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314142A1 (en) * 2010-06-21 2011-12-22 Christopher Daniel Newton Referred internet traffic analysis system and method
CN109388740A (zh) * 2017-08-06 2019-02-26 北京国双科技有限公司 一种网络信息传播效果的监测方法及装置
CN108021604A (zh) * 2017-10-24 2018-05-11 山东科技大学 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法
CN108876458A (zh) * 2018-06-19 2018-11-23 湖北国网华中科技开发有限责任公司 一种基于网络爬虫的商品动态预测方法及系统
CN109829007A (zh) * 2019-02-06 2019-05-31 桐乡市麦西微服饰有限公司 一种数据分析装置及操作方法
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861541A (zh) * 2020-06-12 2020-10-30 有米科技股份有限公司 基于带货视频的带货效果确定方法及装置
CN111859284A (zh) * 2020-06-12 2020-10-30 有米科技股份有限公司 带货视频的分摊权重值确定方法及装置
CN111861541B (zh) * 2020-06-12 2024-04-19 有米科技股份有限公司 基于带货视频的带货效果确定方法及装置
CN111859284B (zh) * 2020-06-12 2024-08-02 有米科技股份有限公司 带货视频的分摊权重值确定方法及装置
CN112235636A (zh) * 2020-09-07 2021-01-15 有米科技股份有限公司 带货视频浏览价值属性的计算方法及装置
CN112243153A (zh) * 2020-09-07 2021-01-19 有米科技股份有限公司 基于视频互动数据确定浏览价值属性的方法及装置
CN112261475A (zh) * 2020-09-07 2021-01-22 有米科技股份有限公司 带货视频的商品浏览价值属性评估方法及装置
CN112330098A (zh) * 2020-10-16 2021-02-05 有米科技股份有限公司 Kol带货能力属性的智能化计算方法及装置
CN112330098B (zh) * 2020-10-16 2024-04-09 有米科技股份有限公司 Kol带货能力属性的智能化计算方法及装置
CN113034230A (zh) * 2021-03-17 2021-06-25 杭州遥望网络科技有限公司 一种直播带货的宣讲时长确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110929127A (zh) 一种淘宝直播投放效果分析的方法及计算机设备
CN108280670B (zh) 种子人群扩散方法、装置以及信息投放系统
CN103473291B (zh) 一种基于隐语义概率模型的个性化服务推荐系统及方法
CN111080398B (zh) 商品推荐方法、装置、计算机设备和存储介质
CN109615129B (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
CN104951428A (zh) 用户意图识别方法及装置
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN110019420B (zh) 一种数据序列预测方法及计算设备
CN110796513B (zh) 多任务学习方法、装置、电子设备及存储介质
CN110647683B (zh) 一种信息推荐方法、装置
CN110008397A (zh) 一种推荐模型训练方法及装置
CN112148973A (zh) 一种信息推送的数据处理方法及装置
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
CN111225009A (zh) 用于生成信息的方法和装置
CN112785441A (zh) 数据处理方法、装置、终端设备及存储介质
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN108268519B (zh) 一种推荐网络对象的方法和装置
CN110503456B (zh) 一种生鲜产品生产指导方法及生产指导系统
KR102340179B1 (ko) 머신러닝 기반 수요예측을 이용한 피킹 로케이션 보충 서비스 제공 방법
WO2022156589A1 (zh) 一种直播点击率的确定方法和装置
CN112115354B (zh) 信息处理方法、装置、服务器及存储介质
CN113962757A (zh) 基于多平台多文案的智能刊登方法、系统、设备及介质
CN117611272A (zh) 商品推荐方法、装置及电子设备
CN105915957A (zh) 智能电视展示播放内容的方法、装置及系统
CN116992294A (zh) 卫星测控训练评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication