CN113778979A - 一种直播点击率的确定方法和装置 - Google Patents

一种直播点击率的确定方法和装置 Download PDF

Info

Publication number
CN113778979A
CN113778979A CN202110081300.7A CN202110081300A CN113778979A CN 113778979 A CN113778979 A CN 113778979A CN 202110081300 A CN202110081300 A CN 202110081300A CN 113778979 A CN113778979 A CN 113778979A
Authority
CN
China
Prior art keywords
user
data
live broadcast
determining
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110081300.7A
Other languages
English (en)
Inventor
王艺斐
王晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110081300.7A priority Critical patent/CN113778979A/zh
Publication of CN113778979A publication Critical patent/CN113778979A/zh
Priority to PCT/CN2022/071797 priority patent/WO2022156589A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种直播点击率的确定方法和装置,涉及计算机技术领域。该方法的具体实施方式包括:获取多个历史用户数据和多个历史直播数据;根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。该实施方式能够提高直播点击率的预测准确性,从而能够提高推送准确性,以及降低备货量不足或滞销等现象的可能性。

Description

一种直播点击率的确定方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种直播点击率的确定方法和装置。
背景技术
直播作为一个新兴产业,其引导式消费逐渐成为了电商行业主要的一种营销方式。
现有技术中,运营人员主要基于直播数据(如直播的时间段、主播粉丝数、是否有明星、是否有抽奖及奖品份数等),根据自身经验或市场经验来预测用户关于该直播的点击率。
由于运营人员经验有限,而且不同的直播所对应的数据千变万化,因此,根据运营人员的个体经验主观预测的直播点击率的准确性较低,从而导致基于直播数据进行推送或者备货时,可能出现推送不准确、备货量不足或滞销的现象。
发明内容
有鉴于此,本发明实施例提供一种直播点击率的确定方法和装置,能够提高直播点击率的预测准确性,从而能够提高推送准确性,以及降低备货量不足或滞销等现象的可能性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种直播点击率的确定方法,包括:
获取多个历史用户数据和多个历史直播数据;
根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;
根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;
根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;
根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
可选地,所述根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列,包括:
根据所述多个历史用户数据确定用户行为特征;
将所述用户行为特征以及所述用户行为特征对应的产生时间作为所述序列生成模型的输入,根据所述序列生成模型的输出确定每一个所述用户行为特征对应的权重值;
根据所述用户行为特征以及所述权重值,生成所述用户行为序列。
可选地,根据所述序列生成模型的输出确定每一个所述用户行为特征对应的权重,包括:
将所述序列生成模型的输出进行归一化处理,得到每一个所述用户行为特征对应的权重值。
可选地,所述根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练,包括:
将所述用户行为序列输入ARMA模型,根据所述ARMA模型的输出确定用户动态特征;
将所述用户动态特征、所述用户属性特征以及所述直播特征作为所述点击率预测模型的输入,以对所述点击率预测模型进行训练。
可选地,在确定目标用户关于目标直播数据的点击率之后,还包括:
根据所述点击率,为所述目标用户推送直播数据。
可选地,在确定目标用户关于目标直播数据的点击率之后,还包括:
根据所述点击率,确定所述目标直播数据所对应的库存量,并根据所述库存量进行库存管理。
可选地,所述序列生成模型为随机森立模型;
和/或,
所述点击率预测模型为XGBOOST模型。
根据本发明实施例的再一个方面,提供了一种直播点击率的确定装置,包括:
获取模块,用于获取多个历史用户数据和多个历史直播数据;
序列生成模块,用于根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;
特征生成模块,用于根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;
模型训练模块,用于根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;
数据处理模块,用于根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
根据本发明实施例的另一个方面,提供了一种直播点击率的确定电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的直播点击率的确定方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的直播点击率的确定方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用基于时间的用户数据训练模型以确定直播点击率的技术手段,所以克服了主观预测推送不准确、备货量不足或滞销的现象的技术问题,进而达到能够提高直播点击率的预测准确性,从而能够提高推送准确性,以及降低备货量不足或滞销等现象的可能性的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是适于应用于本发明实施例的直播点击率的确定方法或直播点击率的确定装置的示例性系统架构图;
图2是根据本发明实施例的直播点击率的确定方法的主要流程的示意图;
图3是根据本发明实施例的直播点击率的确定方法的详细流程的示意图;
图4是根据本发明实施例的直播点击率的确定装置的主要模块的示意图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
ARMA模型:自回归滑动平均模型(即Autoregressive moving average model),是研究时间序列的重要方法,包括:自回归模型(Autoregressive model,简称AR模型)、移动平均模型(Moving average model,简称MA模型)和自回归滑动平均模型(ARMA)。
截尾:指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质。
拖尾:指时间序列的自相关函数(ACF)或偏自相关函数(PACF)并不在某阶后均为0的性质。
AIC,赤池信息量准则(即Akaike information criterion),是衡量统计模型拟合优良性的一种标准,通常AIC值越小,模型越好。
BIC,贝叶斯信息量准则(即Bayesian information criterion),是衡量统计模型拟合优良性的一种标准,通常BIC值越小,模型越好。AIC是从预测角度选择好的模型用来预测;而BIC是从拟合角度选择对数据拟合最好的模型
图1示出了适于应用于本发明实施例的直播点击率的确定方法或直播点击率的确定装置的示例性系统架构图,如图1所示,本发明实施例的直播点击率的确定方法或直播点击率的确定装置的示例性系统架构包括:
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户特征查询请求等数据进行分析等处理,并将处理结果(例如用户特征)反馈给终端设备101、102、103。
需要说明的是,本发明实施例所提供的直播点击率的确定方法一般由服务器105执行,相应地,直播点击率的确定装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本发明实施例的直播点击率的确定方法的主要流程的示意图,如图2所示,本发明的直播点击率的确定方法包括:
步骤S201,获取多个历史用户数据和多个历史直播数据。
示例性地,基于平台的历史数据获取多个历史用户数据和多个历史直播数据,历史用户数据可以包括用户的年龄、性别、购买能力、职业和喜好等信息的数据,还可以包括用户的浏览、评论、收藏、加购、下单、分享等操作的数据,还可以包括用户操作数据产生的时间;历史直播数据可以包括直播的品牌、抽奖、时间、互动、主播和商品等信息的数据。
步骤S202,根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列。
示例性地,根据步骤S201获取的多个历史用户数据,基于其中的用户操作数据确定用户行为特征,并基于用户操作数据产生的时间确定用户行为特征对应的产生时间,将用户行为特征、用户行为特征对应的产生时间输入序列生成模型,输出每个用户行为特征的特征分数。将用户行为特征的特征分数进行归一化处理,获得每个用户行为特征对应的权重值;基于用户行为特征的数据以及用户行为特征对应的权重值,加权求和后生成用户行为序列。用户行为序列包含12个元素,即12个月的用户行为分数,表征近1年内该用户的行为。
步骤S203,根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征。
示例性地,根据步骤S201获取的多个历史用户数据,基于其中的用户信息数据确定用户属性特征,并基于其中的多个历史直播数据确定直播特征。
步骤S204,根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练。
示例性地,根据步骤S202获得的用户行为序列,将用户行为序列输入ARMA模型,对ARMA模型进行训练,输出ARMA模型参数作为用户动态特征。将用户动态特征、步骤S203获得的用户属性特征和直播特征输入点击率预测模型,对点击率预测模型进行训练,输出训练后的点击率预测模型。其中,点击率预测模型为XGBOOST模型。
步骤S205,根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
示例性地,获取目标用户数据以及多个待推送的直播数据,根据目标用户数据以及训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。其中,点击率可以包括常规点击、浏览、收藏、加购和下单数据等。根据点击率,为目标用户推送直播数据;或者,根据点击率,确定目标直播数据所对应的库存量,并根据库存量进行库存管理,适时地增加、供给仓调拨或者支援需求仓。
在本发明实施例中,通过获取多个历史用户数据和多个历史直播数据;根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率等步骤,能够适应用户行为的周期性变化,优化直播数据预测模型的性能,充分利用直播资源,准确预测直播点击率,可以向用户精准推送直播并合理管理库存。
图3是根据本发明实施例的直播点击率的确定方法的详细流程的示意图,如图3所示,本发明的直播点击率的确定方法包括:
步骤S301,构建直播的数据库。
示例性地,基于平台已有的历史数据构建直播的数据库,从平台的历史数据获取历史用户数据和历史直播数据。历史用户数据可以包括多个,以某电商平台的历史用户数据为例,例如,历史用户数据可以包括用户的年龄、性别、购买能力、职业和喜好等信息的数据,或者,历史用户数据可以包括用户的浏览直播、浏览商品、加购、下单、分享、评论等操作的数据,或者,历史用户数据可以包括用户的与操作数据对应的操作时间数据。历史直播数据可以包括多个,以某电商平台的历史用户数据为例,例如,历史直播数据可以包括直播的品牌、抽奖、时间、互动、主播和商品等信息的数据。
进一步地,平台可以定期获取相关数据,并将获取的相关数据更新保存至数据库。
步骤S302,构建直播的用户属性特征。
示例性地,根据步骤S301构建的直播的数据库,从中提取历史用户数据的信息数据,基于历史用户数据的信息数据,可以确定用户属性特征。以某电商平台的历史用户数据为例,例如,历史用户数据可以包括用户的年龄、性别、职业、喜好类别、购买能力、地理位置和消费时间等信息的数据,基于历史用户数据确定的用户属性特征可以包括用户年龄特征、用户性别特征、用户职业特征、用户喜好类别特征、用户购买能力特征、用户地理位置特征、用户消费时间特征等。
步骤S303,构建直播的直播特征。
示例性地,根据步骤S301构建的直播的数据库,从中提取历史直播数据的信息数据,基于历史直播数据的信息数据,可以确定直播特征。以某电商平台的历史用户数据为例,例如,历史直播数据可以包括直播的品牌、抽奖、时间、互动、主播和商品等信息的数据,基于历史直播数据确定的直播特征可以包括直播品牌特征、直播抽奖特征、直播时间特征、直播主播特征、直播商品特征和直播附加特征等。
进一步地,直播品牌特征包括直播品牌个数特征、直播品牌粉丝数特征等;直播抽奖特征包括直播是否抽奖特征、直播抽奖次数特征等;直播时间特征包括直播时间是否周末特征、直播时间段特征等;直播主播特征包括直播主播个数特征、直播主播粉丝数特征、直播主播类型特征、直播主播带货类型特征等;直播商品特征包括直播商品个数特征、直播商品均价特征、直播商品类型特征等;直播附加特征包括直播间是否有明星特征、直播是否连麦特征等。
进一步地,基于步骤S302获得的直播的用户属性特征和基于步骤S302获得的直播的直播特征包括离散型特征和连续型特征。离散型特征(例如,用户的年龄特征、性别特征、地理位置特征等)具有一定的稀疏性,会导致模型性能急剧下降,故而需要对离散型特征进行Embedding嵌入处理,输出连续向量,从而使得特征在特征空间中有更好的表达能力。其中,Embedding嵌入处理可以从原始数据中提取特征,通过矩阵乘法的原理进行降维处理。连续型特征本身具有连续性,因此无需处理。
更进一步地,将处理得到的连续型的直播的用户属性特征和直播特征输入XGBOOST模型进行训练,输出每个特征的特征分数,分数越高,表示重要性越高;选取特征分数在预定值以上的特征作为最终的直播的用户属性特征和直播特征。XGBOOST作为集成学习模型,可以缓解特征稀疏和相关性带来的误差,有效地去除冗余特征,提高特征质量。XGBOOST模型本身的特征交叉能力,可以在python中运用模型的Feature importance功能进行特征筛选。由于直播间商品浏览率和直播间商品下单率两个指标的侧重点不同,因此,针对两个指标的模型训练,输出的特征重要性也不同。
步骤S304,构建直播的用户行为特征。
示例性地,根据步骤S301构建的数据库,从中提取历史用户数据的操作数据,基于历史用户数据的操作数据,可以确定用户行为特征。以某电商平台的历史用户数据为例,例如,历史用户数据可以包括用户的浏览直播、浏览商品、加购、下单、分享等操作的数据,基于历史用户数据确定的用户行为特征可以包括用户浏览直播特征、用户浏览商品特征、用户加购特征、用户下单特征、用户分享特征等。
步骤S305,构建直播的用户行为序列。
示例性地,根据步骤S301构建的直播的数据库,从中提取历史用户数据的与操作数据对应的操作时间数据,基于历史用户数据的与操作数据对应的操作时间数据,可以确定每个用户行为特征的产生时间。
示例性地,将根据步骤S304构建的直播的用户行为特征及对应的每个用户行为特征的产生时间输入序列生成模型中进行训练,计算信息增益后输出每个用户行为特征的特征分数,将特征分数进行归一化处理,获得每个用户行为特征的权重,将用户行为特征的数据及每个用户行为特征的权重进行加权求和,即可获得用户的行为序列。其中,权重可以表征不同特征的重要性/重要程度,序列是指由预定时间段内的多个特征的值组成的向量。其中,序列生成模型可以为随机森林模型。
示例性地,根据步骤S304构建的直播的用户行为特征包括用户浏览直播特征、用户浏览商品特征、用户加购特征、用户下单特征、用户分享特征;从步骤S301构建的直播的数据库中提取历史用户数据的与操作数据对应的操作时间数据,确定每个用户行为特征的产生时间,即用户浏览直播特征、用户浏览商品特征、用户加购特征、用户下单特征、用户分享特征的产生时间。其中,用户浏览直播特征由A表示,用户浏览商品特征由B表示,用户加购特征由C表示,用户下单特征由D表示,用户分享特征由E表示。
示例性地,基于平台近1年内的历史数据构建直播的数据库,从直播的数据库中获取历史用户数据和历史直播数据。基于获取的历史用户数据和历史直播数据,构建近1年的用户行为特征A、B、C、D、E,将用户行为特征A、B、C、D、E及对应的用户行为特征的产生时间输入随机森林模型进行训练,计算信息增益后输出A、B、C、D、E的特征分数,将A、B、C、D、E的特征分数进行归一化处理,获得A、B、C、D、E的权重WA、WB、WC、WD、WE,将A、B、C、D、E的数据与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,获得用户行为序列。
示例性地,A、B、C、D、E的数据可以为用户浏览直播的次数、用户浏览商品的次数、用户加购的次数、用户下单的次数、用户分享的次数。将A、B、C、D、E的数据与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,获得用户行为序列,包括:将1月份的A、B、C、D、E的数据与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,得到1月份用户的行为分数;分别将2-12月份的A、B、C、D、E的数据与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,得到2-12月份用户的行为分数;将12个月份的用户行为分数进行组合,即可获得用户行为序列。用户行为序列包含12个元素,即12个月的用户行为分数,表征近1年内该用户的行为。
进一步地,例如,将A、B、C、D、E的数据输入随机森林模型中,输出的权重WA、WB、WC、WD、WE是[0.3,0.2,0.2,0.1,0.2];将1月份的A、B、C、D、E的数据(用户浏览直播5次、浏览商品10次、加购3次、下单2次、分享1次)与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,得到1月份用户的行为分数s1=0.3*5+0.2*10+0.2*3+0.1*2+0.2*1=4.5;分别将2-12月份的A、B、C、D、E的数据与A、B、C、D、E的权重WA、WB、WC、WD、WE进行加权求和,得到2-12月份用户的行为分数s2、s3、s4、s5、s6、s7、s8、s9、s10、s11、s12;将12个月份的用户行为分数进行组合,即可获得用户行为序列[s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12]。
进一步地,由于直播间商品浏览率和直播间商品下单率两个指标的侧重点不同,直播间商品浏览率侧重浏览量,直播间商品下单率更侧重下单量。因此,针对两个指标的模型训练,输出的特征重要性也不同。例如,针对直播间商品浏览率指标,将A、B、C、D、E的数据输入随机森林模型中,输出的权重WA、WB、WC、WD、WE是[0.3,0.2,0.2,0.1,0.2];而针对直播间商品下单率指标,将A、B、C、D、E的数据输入随机森林模型中,输出的权重WA、WB、WC、WD、WE就是[0.1,0.2,0.2,0.3,0.2]。由此可见,针对直播间商品浏览率指标,A、B的权重WA、WB大于D的权重WD,说明直播间商品浏览率指标中用户浏览直播特征、用户浏览商品特征的重要性要高于用户下单特征;针对直播间商品浏览率和直播间商品下单率指标,D的权重WD在直播间商品下单率中占比更高,说明用户下单特征在直播间商品下单率指标中的重要性更高。
步骤S306,构建直播的用户动态特征。
示例性地,根据步骤S305构建的直播的用户行为序列,将用户行为序列输入ARMA模型,通过ADF检验对用户行为序列的平稳性进行检测。基于ADF检验的结果,判断用户行为序列是否平稳,若不平稳,则对其进行差分处理(差分运算)直到用户行为序列平稳。确认用户行为序列平稳后,计算用户行为序列的自相关系数a及偏自相关系数b,根据自相关系数a(ACF)及偏自相关系数b(PACF)识别ARMA模型。其中,识别ARMA模型包括:若自相关系数a为拖尾,偏自相关系数b为p阶截尾,则ARMA模型为ARp模型;若自相关系数a为q阶截尾,偏自相关系数b为拖尾,则ARMA模型为MAq模型;若自相关系数a为拖尾,偏自相关系数b也为拖尾,则ARMA模型为ARMAp,q模型。基于确定的ARMA模型,结合AIC、BIC准则确定阶数p、q,阶数p、q代表了序列本身的自相关特性,尤其是周期性行为。阶数p、q确定之后,即可求得ARMA模型的模型参数,将ARMA模型的模型参数组合为特征向量,即为用户动态特征。
进一步地,用户的周期性行为,例如每周、每月的惯性行为,使得用户行为具有周期性的规律。用户动态特征为序列特征,本身具有连续性。
进一步地,可以使用RNN,LSTM,时间卷积网络等深度学习模型用于构建用户动态特征。
示例性地,利用用户行为序列作为直播的点击率预测模型的输入时,存在维度太大、可能造成资源浪费等问题,同时维度和序列长度不统一。因此,采用ARMA模型对用户行为序列进行抽象,使用其模型参数构建直播的用户动态特征。
步骤S307,点击率预测模型训练。
示例性地,根据步骤S306构建的直播的用户动态特征、步骤S302构建的直播的用户属性特征及步骤S303构建的直播的直播特征,构建直播点击率的特征样本。将直播点击率的特征样本分为训练集和测试集,选取80%的特征样本作为训练集,用于训练模型,获得训练后的点击率预测模型;剩余的20%的特征样本作为测试集,用于测试直播训练后的点击率预测模型。
示例性地,将直播点击率的训练集特征样本输入XGBOOST模型中,迭代循环训练弱分类器,将多个弱分类器迭代集成为一个组合分类器,获得训练后的点击率预测模型。
进一步地,点击率预测模型用于预测直播的点击率,其中,点击率可以包括常规点击、浏览、收藏、加购、下单和分享等数据。
进一步地,XGBOOST模型(eXtreme Gradient Boosting)是一种提升树模型,根据输入的训练集特征样本进行迭代训练,分步学习每次迭代的弱分类器,根据弱分类器的系数更新训练集中样本的权重;拟合历次弱分类器的结果与训练集样本的残差,将多个弱分类器迭代集成为一个强分类器,得到预测模型。XGBOOST作为集成学习模型,具有良好的学习性能,同时,XGBOOST模型作为优化的分布式梯度增强模型,可以在短时间内消耗较少的计算资源,并获得性能优异的预测模型,将正则化、稀疏性感知、交叉验证等优点集于一身。
进一步地,可以使用LR、随机森林、GBDT、BP神经网络等算法进行模型训练。
步骤S308,验证点击率预测模型。
示例性地,将直播点击率的测试集特征样本输入基于步骤S307训练获得的组合分类器,即训练后的点击率预测模型,输出用户的直播点击率,根据测试的结果计算点击率预测模型的误差,判断模型误差是否高于误差标准值,根据模型误差对点击率预测模型进行修正,使得点击率预测模型满足要求。
进一步地,通过基于序列特征的关联关系,使得预测模型的预测准确度大大提高,可以准确地预测直播点击率。
步骤S309,模型使用。
示例性地,基于步骤S308获得的点击率预测模型,根据获取的目标用户数据以及多个待推送的直播数据,将获取的目标用户数据以及多个待推送的直播数据输入点击率预测模型,输出目标直播数据的点击率。根据点击率,可以为目标用户推送直播数据;或者,根据点击率,可以确定目标直播数据所对应的库存量,并根据库存量进行库存管理,例如,从产地直接调拨库存备货、从供给仓调拨库存至需求仓等。
进一步地,点击率可以包括常规点击、浏览、收藏、加购和下单数据等。如果某种商品下单的点击率较高,则仓库增加该商品的库存;如果某用户浏览、收藏或者加购某种商品的点击率较高,则向该用户推荐该商品的直播或者类似商品的直播。
在本发明实施例中,通过构建直播的数据库;构建直播的用户属性特征;构建直播的直播特征;构建直播的用户行为特征;构建直播的用户行为序列;构建直播的用户动态特征;点击率预测模型训练;验证点击率预测模型;模型使用等步骤,能够适应用户行为的周期性变化,优化直播数据预测模型的性能,充分利用直播资源,准确预测直播点击率,可以向用户精准推送直播并合理管理库存。
图4是根据本发明实施例的直播点击率的确定装置的主要模块的示意图,如图4所示,本发明的直播点击率的确定装置400包括:
获取模块401,用于获取多个历史用户数据和多个历史直播数据。
示例性地,所述获取模块401基于平台的历史数据获取多个历史用户数据和多个历史直播数据,历史用户数据可以包括用户的年龄、性别、购买能力、职业和喜好等信息的数据,还可以包括用户的浏览、评论、收藏、加购、下单、分享等操作的数据,还可以包括用户操作数据产生的时间;历史直播数据可以包括直播的品牌、抽奖、时间、互动、主播和商品等信息的数据。
序列生成模块402,用于根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列。
示例性地,根据所述获取模块401获取的多个历史用户数据,基于其中的用户操作数据确定用户行为特征,并基于用户操作数据产生的时间确定用户行为特征对应的产生时间,所述序列生成模块402将用户行为特征、用户行为特征对应的产生时间输入序列生成模型,输出每个用户行为特征的特征分数。所述序列生成模块402将用户行为特征的特征分数进行归一化处理,获得每个用户行为特征对应的权重值;基于用户行为特征的数据以及用户行为特征对应的权重值,加权求和后生成用户行为序列。用户行为序列包含12个元素,即12个月的用户行为分数,表征近1年内该用户的行为。
特征生成模块403,用于根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征。
示例性地,根据所述获取模块401获取的多个历史用户数据,所述特征生成模块403基于其中的用户信息数据确定用户属性特征,并基于其中的多个历史直播数据确定直播特征。
模型训练模块404,用于根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练。
示例性地,根据所述序列生成模块402获得的用户行为序列,所述模型训练模块404将用户行为序列输入ARMA模型,对ARMA模型进行训练,输出ARMA模型参数作为用户动态特征。所述模型训练模块404将用户动态特征、所述特征生成模块403获得的用户属性特征和直播特征输入点击率预测模型,对点击率预测模型进行训练,输出训练后的点击率预测模型。其中,点击率预测模型为XGBOOST模型。
数据处理模块405,用于根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
示例性地,获取目标用户数据以及多个待推送的直播数据,所述数据处理模块405根据目标用户数据以及训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。其中,点击率可以包括常规点击、浏览、收藏、加购和下单数据等。根据点击率,为目标用户推送直播数据;或者,根据点击率,确定目标直播数据所对应的库存量,并根据库存量进行库存管理,适时地增加、供给仓调拨或者支援需求仓。
在本发明实施例中,通过获取模块、序列生成模块、特征生成模块、模型训练模块和数据处理模块等模块,能够适应用户行为的周期性变化,优化直播数据预测模型的性能,充分利用直播资源,准确预测直播点击率,可以向用户精准推送直播并合理管理库存。
图5是适于用来实现本发明实施例的终端设备的计算机系统的结构示意图,如图5所示,本发明实施例的终端设备的计算机系统500包括:
中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、序列生成模块、特征生成模块、模型训练模块、数据处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“从直播平台获取直播数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取多个历史用户数据和多个历史直播数据;根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
根据本发明实施例的技术方案,能够提高直播点击率的预测准确性,从而能够提高推送准确性,以及降低备货量不足或滞销等现象的可能性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种直播点击率的确定方法,其特征在于,包括:
获取多个历史用户数据和多个历史直播数据;
根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;
根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;
根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;
根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
2.根据权利要求1所述的方法,其特征在于,所述根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列,包括:
根据所述多个历史用户数据确定用户行为特征;
将所述用户行为特征以及所述用户行为特征对应的产生时间作为所述序列生成模型的输入,根据所述序列生成模型的输出确定每一个所述用户行为特征对应的权重值;
根据所述用户行为特征以及所述权重值,生成所述用户行为序列。
3.根据权利要求2所述的方法,其特征在于,根据所述序列生成模型的输出确定每一个所述用户行为特征对应的权重,包括:
将所述序列生成模型的输出进行归一化处理,得到每一个所述用户行为特征对应的权重值。
4.根据权利要求1所述的方法,其特征在于,所述根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练,包括:
将所述用户行为序列输入ARMA模型,根据所述ARMA模型的输出确定用户动态特征;
将所述用户动态特征、所述用户属性特征以及所述直播特征作为所述点击率预测模型的输入,以对所述点击率预测模型进行训练。
5.根据权利要求1所述的方法,其特征在于,在确定目标用户关于目标直播数据的点击率之后,还包括:
根据所述点击率,为所述目标用户推送直播数据。
6.根据权利要求1所述的方法,其特征在于,在确定目标用户关于目标直播数据的点击率之后,还包括:
根据所述点击率,确定所述目标直播数据所对应的库存量,并根据所述库存量进行库存管理。
7.根据权利要求1所述的方法,其特征在于,
所述序列生成模型为随机森立模型;
和/或,
所述点击率预测模型为XGBOOST模型。
8.一种直播点击率的确定装置,其特征在于,包括:
获取模块,用于获取多个历史用户数据和多个历史直播数据;
序列生成模块,用于根据序列生成模型、所述多个历史用户数据以及所述多个历史用户数据的产生时间,确定所述多个历史用户数据对应的用户行为序列;
特征生成模块,用于根据所述多个历史用户数据确定用户属性特征,并根据所述多个历史直播数据确定直播特征;
模型训练模块,用于根据用户行为序列、所述用户属性特征以及所述直播特征,对点击率预测模型进行训练;
数据处理模块,用于根据训练后的点击率预测模型,确定目标用户关于目标直播数据的点击率。
9.一种直播点击率的确定电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110081300.7A 2021-01-21 2021-01-21 一种直播点击率的确定方法和装置 Pending CN113778979A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110081300.7A CN113778979A (zh) 2021-01-21 2021-01-21 一种直播点击率的确定方法和装置
PCT/CN2022/071797 WO2022156589A1 (zh) 2021-01-21 2022-01-13 一种直播点击率的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081300.7A CN113778979A (zh) 2021-01-21 2021-01-21 一种直播点击率的确定方法和装置

Publications (1)

Publication Number Publication Date
CN113778979A true CN113778979A (zh) 2021-12-10

Family

ID=78835536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081300.7A Pending CN113778979A (zh) 2021-01-21 2021-01-21 一种直播点击率的确定方法和装置

Country Status (2)

Country Link
CN (1) CN113778979A (zh)
WO (1) WO2022156589A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022156589A1 (zh) * 2021-01-21 2022-07-28 北京沃东天骏信息技术有限公司 一种直播点击率的确定方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117579872B (zh) * 2024-01-15 2024-04-30 北京永泰万德信息工程技术有限公司 一种直播显示屏的直播推送方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188326A1 (en) * 2017-12-15 2019-06-20 Intuit Inc. Domain specific natural language understanding of customer intent in self-help
CN111046294A (zh) * 2019-12-27 2020-04-21 支付宝(杭州)信息技术有限公司 点击率预测方法、推荐方法、模型、装置及设备
CN111445280A (zh) * 2020-03-10 2020-07-24 携程计算机技术(上海)有限公司 模型生成方法、餐馆排序方法、系统、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705155A (zh) * 2017-10-11 2018-02-16 北京三快在线科技有限公司 一种消费能力预测方法、装置、电子设备及可读存储介质
CN109992710B (zh) * 2019-02-13 2021-10-15 网易传媒科技(北京)有限公司 点击率预估方法、系统、介质和计算设备
CN110929206B (zh) * 2019-11-20 2023-04-07 腾讯科技(深圳)有限公司 点击率预估方法、装置、计算机可读存储介质和设备
CN113778979A (zh) * 2021-01-21 2021-12-10 北京沃东天骏信息技术有限公司 一种直播点击率的确定方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188326A1 (en) * 2017-12-15 2019-06-20 Intuit Inc. Domain specific natural language understanding of customer intent in self-help
CN111046294A (zh) * 2019-12-27 2020-04-21 支付宝(杭州)信息技术有限公司 点击率预测方法、推荐方法、模型、装置及设备
CN111445280A (zh) * 2020-03-10 2020-07-24 携程计算机技术(上海)有限公司 模型生成方法、餐馆排序方法、系统、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱思涵;浦剑;: "基于序列特征的点击率预测模型", 华东师范大学学报(自然科学版), no. 04, 25 July 2020 (2020-07-25), pages 134 - 146 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022156589A1 (zh) * 2021-01-21 2022-07-28 北京沃东天骏信息技术有限公司 一种直播点击率的确定方法和装置

Also Published As

Publication number Publication date
WO2022156589A1 (zh) 2022-07-28

Similar Documents

Publication Publication Date Title
CN107465741B (zh) 信息推送方法和装置
CN107247786A (zh) 用于确定相似用户的方法、装置和服务器
CN111125574A (zh) 用于生成信息的方法和装置
CN109961299A (zh) 数据分析的方法和装置
CN107908662B (zh) 搜索系统的实现方法和实现装置
CN116541610B (zh) 一种推荐模型的训练方法及装置
WO2022156589A1 (zh) 一种直播点击率的确定方法和装置
CN112598472A (zh) 产品推荐方法、装置、系统、介质和程序产品
CN113743971A (zh) 一种数据处理方法和装置
CN112446764A (zh) 游戏商品推荐方法、装置及电子设备
CN109978594B (zh) 订单处理方法、装置及介质
CN110197317B (zh) 目标用户确定方法及装置、电子设备及存储介质
CN112783468A (zh) 目标对象的排序方法和排序装置
CN110555747A (zh) 确定目标用户的方法和装置
CN113792952A (zh) 用于生成模型的方法和装置
CN113742564A (zh) 目标资源的推送方法和装置
CN110490682B (zh) 分析商品属性的方法和装置
CN112989276A (zh) 信息推送系统的评价方法和装置
CN107357847B (zh) 数据处理方法及其装置
WO2015179717A1 (en) Determination of initial value for automated delivery of news items
CN113159877B (zh) 数据处理方法、装置、系统、计算机可读存储介质
CN110766488A (zh) 一种自动确定主题场景的方法和装置
CN112990954B (zh) 优惠券分发的方法和装置
CN113763112A (zh) 一种信息推送方法及装置
CN112348594A (zh) 物品需求的处理方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination