CN110992106A - 训练数据获取方法,装置,模型训练方法及装置 - Google Patents
训练数据获取方法,装置,模型训练方法及装置 Download PDFInfo
- Publication number
- CN110992106A CN110992106A CN201911270591.3A CN201911270591A CN110992106A CN 110992106 A CN110992106 A CN 110992106A CN 201911270591 A CN201911270591 A CN 201911270591A CN 110992106 A CN110992106 A CN 110992106A
- Authority
- CN
- China
- Prior art keywords
- training
- coupon
- training data
- model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000005065 mining Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 240000004584 Tamarindus indica Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0224—Discounts or incentives, e.g. coupons or rebates based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0222—During e-commerce, i.e. online transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0236—Incentive or reward received by requiring registration or ID from user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种训练数据获取方法及装置,模型训练方法及装置,电子设备及存储介质,该训练数据获取方法,应用于获取优惠券推送策略模型的训练数据,所述方法包括:获取包括用户的消费记录及领券记录的原始数据;根据所述原始数据进行隐特征挖掘,得到训练数据。本申请提供的训练数据获取方法及装置,模型训练方法及装置,电子设备及存储介质,通过根据原始数据进行隐特征挖掘得到训练数据,能够增加训练数据的特征维度,从而能够提升利用特征维度增多的训练数据进行训练的模型在预测时的准确度。
Description
技术领域
本申请涉及模型训练领域,具体而言,涉及一种训练数据获取方法,训练数据获取装置,模型训练方法,模型训练装置,电子设备及存储介质。
背景技术
近年来,越来越多的电商巨头开始采用“全渠道进驻”策略进入线下零售领域。通常,在线零售商会提供激励措施,例如向已注册的用户发送优惠券,以激励他们离线购物。因此,研究消费者从在线到离线的优惠券兑换行为变得越来越重要。现有的针对在线零售商的激励策略的研究,大多将优惠券推送问题视为一个二分类问题,然而,无论是采用机器学习算法还是深度学习算法,均存在训练数据的特征维度较少,导致无法提升模型的准确度。
发明内容
本申请实施例的目的在于提供一种训练数据获取方法,训练数据获取装置,模型训练方法,模型训练装置,电子设备及存储介质,用以改善现有技术中训练数据的特征维度较少,致使无法提升模型的准确度的问题。
本申请提供一种训练数据获取方法,应用于获取优惠券推送策略模型的训练数据,所述方法包括:获取包括用户的消费记录及领券记录的原始数据;根据所述原始数据进行隐特征挖掘,得到训练数据。
本申请提供的训练数据获取方法,通过根据原始数据进行隐特征挖掘能够增加训练数据的特征维度,进而提升通过该训练数据训练后的模型在预测时的准确度。
进一步地,所述根据所述原始数据进行隐特征挖掘,包括:根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘。
本申请通过结合tf-idf算法及SVD算法进行隐特征挖掘能够增加训练数据的特征维度,不仅可以得到用户与商品之前的潜在关系,也可以得到优惠券与商品之间的潜在关系,从而获得用户与优惠券之间可能存在的潜在关系,进而提升通过该训练数据训练后的模型在预测时的准确度。
进一步地,所述根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘,包括:基于所述原始数据,生成多个组合信息表;根据所述多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf值;根据所述多个组合信息表及所述tf-idf值,基于SVD算法进行隐特征挖掘。
一种模型训练方法,应用于训练优惠券推送策略模型,所述模型训练方法包括:获取包括用户的消费记录及领券记录的原始数据;根据所述原始数据进行隐特征挖掘,得到训练数据;及将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
本申请提供的模型训练方法,通过根据原始数据进行隐特征挖掘能够增加训练数据的特征维度,进而提升通过该训练数据训练后的模型在预测时的准确度。
进一步地,所述根据所述原始数据进行隐特征挖掘,包括:根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘。
本申请通过结合tf-idf算法及SVD算法进行隐特征挖掘能够增加训练数据的特征维度,不仅可以得到用户与商品之前的潜在关系,也可以得到优惠券与商品之间的潜在关系,从而获得用户与优惠券之间可能存在的潜在关系,进而提升通过该训练数据训练后的模型在预测时的准确度。
进一步地,所述根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘,包括:基于所述原始数据,生成多个组合信息表;根据所述多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf值;根据所述多个组合信息表及所述tf-idf值,基于SVD算法进行隐特征挖掘。
一种训练数据获取装置,应用于获取优惠券推送策略模型的训练数据,所述训练数据获取装置包括:获取模块,用于获取包括用户的消费记录及领券记录的原始数据;特征挖掘模块,用于根据所述原始数据进行隐特征挖掘,得到训练数据。
进一步地,所述训练数据获取装置还包括选择模块,用于采用特征选择算法对所述训练数据进行选择,得到优选训练数据,所述特征选择算法为随机森林算法。
一种模型训练装置,应用于训练优惠券策略模型,所述模型训练装置包括:获取模块,用于获取包括用户的消费记录及领券记录的原始数据;特征挖掘模块,用于根据所述原始数据进行隐特征挖掘,得到训练数据;及训练模块,用于将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述训练数据获取方法或上述优惠券推送策略模型的训练方法。
一种存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时,使得所述处理器执行上述训练数据获取方法或上述优惠券推送策略模型的训练方法。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的训练数据获取方法的流程图。
图2为本申请一实施例提供的训练数据获取装置的结构框图。
图3为本申请一实施例提供的模型训练方法的流程图。
图4为本申请一实施例提供的模型训练装置的结构框图。
图5为本申请一实施例提供的电子设备的示意图。
图标:训练数据获取装置10;获取模块11、21;特征挖掘模块13、22;汇总子模块131;过滤子模块132;隐特征挖掘子模块133;选择模块15;模型训练装置20;训练模块23;模型构建模块25。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,本申请一实施例提供一种训练数据获取方法,应用于获取优惠券策略模型的训练数据。该方法包括以下步骤。
步骤S101:获取包括用户的消费记录及领券记录的原始数据。
本实施例中,原始数据包括已推送优惠券及用户核销信息表,用户基础信息表,广告活动信息表,用户交易表,商品信息表及商品优惠券适用表等。本实施例中,已推送优惠券及用户核销信息表,用户基础信息表,广告活动信息表,用户交易表,商品信息表及商品优惠券适用表的数量均为多个。
一实施例中,已推送优惠券及用户核销信息表可以包括信息ID(identifier,标识),广告系列ID,优惠券ID,用户ID,优惠券核销状态等信息。已推送优惠券及用户核销信息表所包括的信息与字段的对应关系如下表所示。
字段 | 信息 |
Id | 信息ID |
Campaign_id | 广告系列id |
Coupon_id | 优惠券id |
User_id | 用户id |
Redemption_status | 核销状态 |
需要说明的是,本申请的表格中,字段栏位对应信息类别,信息栏位对应具体的信息。
需要说明的是,本申请所提供的训练数据获取方法所获得的训练数据对模型进行训练后,该训练后的模型并不限于为某一商家提供优惠券推送策略,即,该训练后的模型可以适用于为不同商家提供优惠券推送策略,因此,针对该模型的训练数据的原始数据中可以包括商家ID,以对不同商家进行区分;对于不同的商家,各自所推出的优惠活动不同,因此,优惠活动的数量可以为多个,或者,对于同一商家,其推出的优惠活动的数量可以为多个,相应地,与优惠活动对应的广告系列的数量可以为多个,又或者,对于同一商家推出的同一优惠活动,该优惠活动信息的传播途径(例如,网站,公众号等)可以有多个,相应地,与传播途径对应的广告系列的数量可以为多个,因此,可以通过赋予每个广告系列一个广告系列ID,以对不同的广告系列加以区分;对于同一广告系列,商家提供的优惠券的数量通常为多个,为便于管理及统计,可通过赋予每张优惠券一个优惠券ID;为了方便交易,电商平台通常会根据用户的注册行为为用户分配一个用户ID;而为了方便对优惠券的使用情况进行统计,可以通过不同的字符(包括但不限于数字,字母等)表示优惠券的使用状态,示例性地,可以用0表示未使用,1表示已使用。商家在将一具体广告系列的优惠券推送给用户时,或者用户在领取商家所推出的一具体广告系列的优惠券时,商家ID,广告系列ID,优惠券ID,用户ID建立对应关系。
一实施例中,用户基础信息表可以包括用户ID,年龄,是否租房,收入水平,家庭成员数量及是否为会员等信息。用户基础信息表所包括的信息与字段的对应关系如下表所示。
字段 | 信息 |
User_id | 用户id |
Age | 年龄 |
Retend | 是否租房 |
Income | 收入水平 |
Family_size | 家庭成员数量 |
Ismember | 是否是会员 |
可选地,可以通过不同的字符(包括但不限于数字,字母等)表征用户是否租房及是否为会员。例如,可以用0表征非租房,用1表征租房;用0表征非会员,用1表征会员。
一实施例中,广告活动信息表可以包括与优惠券对应的广告系列ID,活动类型,开始时间及结束时间等信息。广告活动信息表所包括的信息与字段之间的对应关系如下表所示。
字段 | 信息 |
Campaign_id | 广告系列id |
Campaign_type | 活动类型 |
Start_date | 开始时间 |
end_date | 结束时间 |
活动类型包括折扣券;代金券等。
一实施例中,用户交易表可以包括订单日期,用户ID,商品ID,购买数量,价格,其他折扣,优惠券折扣等信息。用户交易表所包括的信息与字段之间的对应关系如下表所示。
字段 | 信息 |
Tid | 订单id |
Time | 订单时间 |
User_id | 用户id |
Item_id | 商品id |
Quantity | 购买数量 |
Price | 价格 |
Other_discount | 其他折扣 |
Coupon_discount | 优惠券折扣 |
其中,价格可以包括订单中用户所购买的商品的单价和/或总价。其他折扣包括但不限于除优惠券折扣之外,商家所推出诸如换购,满减(即,消费达第一预定金额,减免第二预定金额,其中第一预定金额大于第二预定金额)等折扣。其他折扣和优惠券折扣的具体内容可以是折扣活动信息,或者,根据折扣减免的金额等。
一实施例中,商品信息表可以包括商品ID,所属品牌,品牌类型,所属品类等信息。商品信息表所包括的信息与字段的对应关系如下表所示。
字段 | 信息 |
Item_id | 商品id |
Brand | 所属品牌 |
Brand_Type | 品牌类型 |
Category | 所属品类 |
其中,品牌类型可以包括根据商品品质划分的高端品牌,中端品牌,低端品牌;根据消费对象划分的奢侈品牌,大众品牌等。品类可以包括家电,生鲜,服饰,食品,文具等。
一实施例中,商品优惠券适用表可以包括商品ID及可用优惠券等。商品优惠券使用数据所包括的信息与字段之间的对应关系可以如下表所示。
字段 | 信息 |
Item_id | 商品id |
Coupon_id | 可用优惠券id |
可以理解,以上所列举的原始数据各表中出现的相同字段对应的信息可以相同或不同,本申请对此不做限定。
可以理解,以上所列举的原始数据仅为示例,其他实施例中,可以根据需要对原始数据所包括的内容进行增添或删减。本申请对此不做限定。
步骤S102:根据所述原始数据进行隐特征挖掘,得到训练数据。
本实施例中,根据原始数据结合tf-idf(term frequency–inverse documentfrequency,词频-反向文件频率)算法及SVD(Singular Value Decomposition,奇异值分解)算法进行隐特征挖掘,得到训练数据。
本实施例中,以根据原始数据结合tf-idf算法及SVD算法对用户与商品之间的隐特征进行挖掘为例,对隐特征挖掘的具体过程进行介绍。
首先,基于原始数据,生成多个组合信息表。
本实施例中,可以基于原始数据中的用户交易表,与用户交易表中的商品id对应的商品信息表,以及与用户交易表中的商品id对应的商品优惠券适用信息表生成多个组合信息表。每个组合信息表对应一个订单。可以理解,此处仅为示例,其他实施例中,也可以依据原始数据中的其他信息表生成组合信息表。该组合信息表可以例如入下表所示。
然后,根据多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf。
本实施例中,根据多个组合信息表,基于所述tf-idf算法计算同一用户id对于同一商品id基于时间的tf-idf。
具体地,首先,从每个组合信息表中提取出用户id,商品id及订单时间的信息。然后,根据订单时间的先后顺序对从多个组合信息表中提取出来的信息(用户id,商品id及订单时间)进行排序。
接着,计算每个用户id对应的用户前后两次购买同种商品的时间差。本实施例中,可以通过如下等式计算每个用户id对应的用户前后两次购买同种商品的时间差。
Diffui=Dateui_latest-Dateui_next
其中,Diffui表示用户u前后两次购买商品i的时间差。Dateui_latest表示用户u最近一次购买商品i的时间。Dateui_next表示用户u前一次购买商品i的时间。本实施例中,如果用户只购买了一次商品i,则令用户前后两次购买商品i的时间差为:
Tui=now–Date
接着,对每个用户id对应的用户购买同种商品的每相邻两次的时间差进行累加。
本实施例中,假设用户u总共通过m个订单购买商品i,则时间差累加值可以通过如下等式进行计算。
接着,对时间差的累加值进行标准化得到每个用户id对应的用户购买同种商品的TF值。
本实施例中,通过如下等式对累加所得的总时间差进行标准化,得到每个用户id对应的用户购买同种商品的tf值。
TF=exp(-1/Tsum)
接着,根据不同用户id对应的用户总数及同种商品被购买的总次数计算IDF。
本实施例中,可以通过如下等式计算IDF。
IDF=log(n/count(i))
其中,n表示用户id对应的总用户数,count(i)表示商品i被所有用户购买的总次数。
接着,通过预设等式计算每个用户id对应的用户针对同种商品的TF-IDF值。
本实施例中,通过如下等式计算每个用户id对应的用户针对同种商品的TF-IDF值。
其中,m表示用户id对应的用户总共通过m个订单购买了同种商品。
然后,根据所述多个组合信息表及tf-idf值,基于SVD算法进行隐特征挖掘。
本实施例中,根据所述多个组合信息表及tf-idf值,基于SVD算法挖掘用户与商品之间的隐特征。
本实施例中,基于SVD算法的如下计算公式挖掘用户与商品之间的隐特征。
A=μΣσT
其中,μ表示多个组合信息表中的用户id所构成的用户列表向量。σT表示多个组合信息表中的商品id所构成的商品列表向量。A矩阵为用户id针对商品id基于时间的TF-IDF值。Σ为用户id与商品id之间的隐特征。
可以理解,以上虽然仅针对用户id与商品id进行隐特征挖掘的过程进行介绍,但本申请并不限于此,其他实施例中,也可以对于用户与品牌之间,或者用户与优惠券之间,或者优惠券与品牌之间的隐特征进行挖掘,挖掘过程与前述示例类似,在此不再赘述。
本实施例提供的训练数据获取方法,通过根据原始数据进行隐特征挖掘能够增加训练数据的特征维度,进而提升通过该训练数据训练后的模型在预测时的准确度。
可以理解,在通过步骤S102所述得到训练数据之后,该训练数据获取方法还可以包括采用特征选择算法对所述训练数据进行选择,得到优选训练数据。通过采用特征选择算法对训练数据进行选择,得到优选训练数据,能够降低直接利用隐特征挖掘后的训练数据对模型进行训练时的过拟合风险,同时提升模型训练速度。特征选择算法可以例如是pearson相关系数算法,随机森林算法等。
请参阅图2,基于同一发明构思,本申请一实施例还提供一种训练数据获取装置,应用于获取优惠券推送策略模型的训练数据。该训练数据获取装置10包括获取模块11及特征挖掘模块13。
该获取模块11用于获取包括用户的消费记录及领券记录的原始数据。
该特征挖掘模块13用于根据所述原始数据进行隐特征挖掘,得到训练数据。本实施例中,该特征挖掘模块13用于根据原始数据结合tf-idf算法及SVD算法进行隐特征挖掘,得到训练数据。
本实施例中,该特征挖掘模块13可以包括生成子模块131,计算子模块132及隐特征挖掘子模块133。
该生成子模块131用于基于原始数据,生成多个组合信息表。可选地,该生成子模块131用于可以基于原始数据中的用户交易表,与用户交易表中的商品id对应的商品信息表,以及与用户交易表中的商品id对应的商品优惠券适用信息表生成多个组合信息表。
该计算子模块132用于根据多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf。可选地,该计算子模块132用于根据多个组合信息表,基于所述tf-idf算法计算同一用户id对于同一商品id基于时间的tf-idf。进一步地,该计算子模块132用于从每个组合信息表中提取出用户id,商品id及订单时间的信息;根据订单时间的先后顺序对从多个组合信息表中提取出来的信息(用户id,商品id及订单时间)进行排序;计算每个用户id对应的用户前后两次购买同种商品的时间差;对每个用户id对应的用户购买同种商品的每相邻两次的时间差进行累加;对时间差的累加值进行标准化得到每个用户id对应的用户购买同种商品的TF值;根据不同用户id对应的用户总数及同种商品被购买的总次数计算IDF;以及通过预设等式计算每个用户id对应的用户针对同种商品的TF-IDF值。
该隐特征挖掘子模块133用于根据所述多个组合信息表及tf-idf值,基于SVD算法进行隐特征挖掘。可选地,该隐特征挖掘子模块133用于根据所述多个组合信息表及tf-idf值,基于SVD算法挖掘用户与商品之间的隐特征。
可以理解,该训练数据获取装置10还可以包括选择模块用于采用特征选择算法对所述训练数据进行选择,得到优选训练数据。所述特征选择算法为随机森林算法。
可以理解,本实施例提供的训练数据获取装置10与前述训练数据获取方法对应,为使说明书简洁,相同或相近的部分参照前述训练数据获取方法即可,在此不再赘述。
请参阅图3,基于同一发明构思,本申请一实施例还提供一种模型训练方法,应用于训练优惠券推送策略模型。该模型训练方法包括以下步骤。
步骤S201:获取包括用户的消费记录及领券记录的原始数据。
步骤S202:根据所述原始数据进行隐特征挖掘,得到训练数据。
步骤S203:将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
本实施例中,在通过步骤S202得到训练数据之后,该模型训练方法还可以包括以下步骤:采用特征选择算法对所述训练数据进行选择,得到优选训练数据。相应地,所述将所述训练数据输入优惠券推送策略模型进行训练包括:将所述优选训练数据输入优惠券推送策略模型进行训练,直至所述模型收敛。
可以理解,本实施例所提供的模型训练方法,还可以包括构建优惠券推送策略模型的步骤。具体地,可以基于LightGBM算法构建优惠券推送策略模型。可以理解,基于LightGBM算法构建模型为本领域的常用方法,在此不对其构建模型的过程及原理进行赘述。
可以理解,本实施例提供的模型训练方法,除步骤S203及构建优惠券推送策略模型的步骤之外,其余内容与前述训练数据获取方法的内容相同,为使说明书简洁,相同部分参照前述训练数据获取方法部分的内容即可,在此不再赘述。
利用训练好的模型能够根据根据用户ID为用户推送用户感兴趣的商品的优惠券,由此能够提升优惠券推送的有效性,促进交易达成的同时提升用户的购物体验。
请参阅图4,基于同一发明构思,本申请一实施例还提供一种模型训练装置20,应用于训练优惠券策略模型。该模型训练装置20包括获取模块21,特征挖掘模块22及训练模块23。
该获取模块21用于获取包括用户的消费记录及领券记录的原始数据。
该特征挖掘模块22用于根据所述原始数据进行隐特征挖掘,得到训练数据。
该训练模块23用于将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
可选地,模型训练装置20包括模型构建模块25,用于构建优惠券策略模型。
本实施例提供的模型训练装置20与前述模型训练方法对应,且其中的获取模块21及特征挖掘模块22与前述的获取模块11及特征挖掘模块13相同,为使说明书简洁,模型训练装置20的内容与前述模型训练方法,前述训练数据获取装置,前述训练数据获取方法的内容可相互参照,在此不再赘述。
上述训练数据获取装置10和/或模型训练装置20中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中,也可以以软件形式存储于服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述训练数据获取方法和/或训练数据获取装置和/或模型训练方法和/或模型训练装置可以实现为一种计算机可读指令的形式,计算机可读指令可以在如图5所示的电子设备上运行。
本申请实施例还提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,该处理器执行该程序时实现上述的训练数据获取方法和/或模型训练方法。
图5为根据本申请的一个实施例的电子设备的内部结构示意图,电子设备可以为服务器。请参阅图5,该电子设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、输入装置、显示屏和网络接口。其中,该电子设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行本申请各实施例的一种训练数据获取方法和/或模型训练方法,该方法的具体实现过程可参考图2的具体内容,在此不再赘述。该电子设备的处理器用于提供计算和控制能力,支撑整个电子设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种训练数据获取方法和/或模型训练方法。电子设备的输入装置用于各个参数的输入,电子设备的显示屏用于进行显示,电子设备的网络接口用于进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于同一发明构思,本申请实施例提供的一种计算机可读存储介质,其上存储有计算机可读指令,该程序被处理器执行时实现上述的训练数据获取方法和/或模型训练方法中的步骤。
如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种训练数据获取方法,其特征在于,应用于获取优惠券推送策略模型的训练数据,所述方法包括:
获取包括用户的消费记录及领券记录的原始数据;
根据所述原始数据进行隐特征挖掘,得到训练数据。
2.根据权利要求1所述的训练数据获取方法,其特征在于,所述根据所述原始数据进行隐特征挖掘,包括:
根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘。
3.根据权利要求2所述的训练数据获取方法,其特征在于,所述根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘,包括:
基于所述原始数据,生成多个组合信息表;
根据所述多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf值;
根据所述多个组合信息表及所述tf-idf值,基于SVD算法进行隐特征挖掘。
4.一种模型训练方法,其特征在于,应用于训练优惠券推送策略模型,所述模型训练方法包括:
获取包括用户的消费记录及领券记录的原始数据;
根据所述原始数据进行隐特征挖掘,得到训练数据;及
将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述原始数据进行隐特征挖掘,包括:
根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘。
6.根据权利要求5所述的模型训练方法,其特征在于,所述根据所述原始数据结合tf-idf算法及SVD算法进行隐特征挖掘,包括:
基于所述原始数据,生成多个组合信息表;
根据所述多个组合信息表,基于所述tf-idf算法计算基于时间的tf-idf值;
根据所述多个组合信息表及所述tf-idf值,基于SVD算法进行隐特征挖掘。
7.一种训练数据获取装置,其特征在于,应用于获取优惠券推送策略模型的训练数据,所述训练数据获取装置包括:
获取模块,用于获取包括用户的消费记录及领券记录的原始数据;
特征挖掘模块,用于根据所述原始数据进行隐特征挖掘,得到训练数据。
8.一种模型训练装置,其特征在于,应用于训练优惠券策略模型,所述模型训练装置包括:
获取模块,用于获取包括用户的消费记录及领券记录的原始数据;
特征挖掘模块,用于根据所述原始数据进行隐特征挖掘,得到训练数据;及
训练模块,用于将所述训练数据输入优惠券策略模型进行训练,直至所述模型收敛。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1-3任一项所述的训练数据获取方法或如权利要求4-6所述的优惠券推送策略模型的训练方法。
10.一种存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-3任一项所述的训练数据获取方法或如权利要求4-6所述的优惠券推送策略模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270591.3A CN110992106B (zh) | 2019-12-11 | 2019-12-11 | 训练数据获取方法,装置,模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270591.3A CN110992106B (zh) | 2019-12-11 | 2019-12-11 | 训练数据获取方法,装置,模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110992106A true CN110992106A (zh) | 2020-04-10 |
CN110992106B CN110992106B (zh) | 2023-11-03 |
Family
ID=70092556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911270591.3A Active CN110992106B (zh) | 2019-12-11 | 2019-12-11 | 训练数据获取方法,装置,模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992106B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363671A (zh) * | 2021-12-31 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、模型训练方法、装置、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN105550292A (zh) * | 2015-12-11 | 2016-05-04 | 北京邮电大学 | 一种基于von Mises-Fisher概率模型的网页分类方法 |
CN107301562A (zh) * | 2017-05-16 | 2017-10-27 | 重庆邮电大学 | 一种o2o优惠券使用大数据预测方法 |
CN109146580A (zh) * | 2018-09-30 | 2019-01-04 | 青岛大学 | 一种基于大数据分析的o2o优惠券分发方法及系统 |
CN109284372A (zh) * | 2018-09-03 | 2019-01-29 | 平安证券股份有限公司 | 用户操作行为分析方法、电子装置及计算机可读存储介质 |
CN110147837A (zh) * | 2019-05-14 | 2019-08-20 | 中国电子科技集团公司第二十八研究所 | 基于特征聚焦的任意方向密集目标检测方法、系统及设备 |
CN110458324A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 风险概率的计算方法、装置和计算机设备 |
-
2019
- 2019-12-11 CN CN201911270591.3A patent/CN110992106B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN105550292A (zh) * | 2015-12-11 | 2016-05-04 | 北京邮电大学 | 一种基于von Mises-Fisher概率模型的网页分类方法 |
CN107301562A (zh) * | 2017-05-16 | 2017-10-27 | 重庆邮电大学 | 一种o2o优惠券使用大数据预测方法 |
CN109284372A (zh) * | 2018-09-03 | 2019-01-29 | 平安证券股份有限公司 | 用户操作行为分析方法、电子装置及计算机可读存储介质 |
CN109146580A (zh) * | 2018-09-30 | 2019-01-04 | 青岛大学 | 一种基于大数据分析的o2o优惠券分发方法及系统 |
CN110147837A (zh) * | 2019-05-14 | 2019-08-20 | 中国电子科技集团公司第二十八研究所 | 基于特征聚焦的任意方向密集目标检测方法、系统及设备 |
CN110458324A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 风险概率的计算方法、装置和计算机设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363671A (zh) * | 2021-12-31 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、模型训练方法、装置、存储介质 |
CN114363671B (zh) * | 2021-12-31 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、模型训练方法、装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110992106B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kooti et al. | Portrait of an online shopper: Understanding and predicting consumer behavior | |
Luo et al. | When and how to leverage e-commerce cart targeting: The relative and moderated effects of scarcity and price incentives with a two-stage field experiment and causal forest optimization | |
US9916594B2 (en) | Multidimensional personal behavioral tomography | |
US20090012839A1 (en) | Determining Brand Affiliations | |
US20140297383A1 (en) | Information processing apparatus, price calculation method, and recording medium | |
US20080126193A1 (en) | Ad delivery and implementation system | |
KR20070062492A (ko) | 쇼핑 시스템 및 방법 | |
JPH11312273A (ja) | 顧客サービス装置、方法、カード並びに顧客サービス処理プログラムを記録したコンピュータ読取り可能な記録媒体 | |
AU2007273049A1 (en) | A promotions system and method | |
JP7026600B2 (ja) | 購買情報活用システム及び購買情報活用方法、及びプログラム | |
JP5088910B1 (ja) | 販売データ管理サーバ、販売データ管理システム、販売データ管理プログラム及び販売データの管理方法 | |
US20220398629A1 (en) | Generating optimized in-channel and cross-channel promotion recommendations using free shipping qualifier | |
US20180253711A1 (en) | Inventory management system and method | |
CN110992106B (zh) | 训练数据获取方法,装置,模型训练方法及装置 | |
JP2010086171A (ja) | 広告課金管理システム | |
JP2012048650A (ja) | 広告管理システム、広告管理方法、および広告管理プログラム | |
JP7282226B1 (ja) | サービス提供装置、サービス提供方法、およびプログラム | |
JP5904589B2 (ja) | 販売データ管理サーバ、販売データ管理システム、販売データ管理プログラム及び販売データの管理方法 | |
KR20190107835A (ko) | 멀티채널 쇼핑몰 시스템 | |
JP5993717B2 (ja) | 広告提供システム | |
CN114119168A (zh) | 一种信息推送方法及装置 | |
US20210233102A1 (en) | Providing promotion recommendations and implementation of individualized promotions | |
US20200143429A1 (en) | Real-Time Predictive Recommendation System Using Per-Set Optimization | |
KR102002584B1 (ko) | 가맹점을 선택한 사용자에게 추가 적립금을 제공하는 적립금 관리 시스템 및 방법 | |
US11232477B1 (en) | Sourcing goods based on pre-feature analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231128 Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai Patentee after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: 200000 floors 4, 5 and 6, No. 3 Lane 1473, Zhenguang Road, Putuo District, Shanghai Patentee before: Shanghai Fengzhi Technology Co.,Ltd. |