CN110956209B - 模型训练和预测方法、装置、电子设备及存储介质 - Google Patents
模型训练和预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110956209B CN110956209B CN201911188457.9A CN201911188457A CN110956209B CN 110956209 B CN110956209 B CN 110956209B CN 201911188457 A CN201911188457 A CN 201911188457A CN 110956209 B CN110956209 B CN 110956209B
- Authority
- CN
- China
- Prior art keywords
- seed user
- user
- seed
- feature vector
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 187
- 239000013598 vector Substances 0.000 claims abstract description 119
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000013461 design Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241001632422 Radiola linoides Species 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本申请提供一种模型训练方法和预测方法、装置、电子设备及存储介质,所述方法包括:获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数;利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。通过构建代价矩阵来训练代价敏感模型,解决样本不均衡而导致的模型预测结果倾斜问题,以使训练好的模型能够从待选取的非种子用户中选取出和种子用户比较相似的用户。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种模型训练和预测方法、装置、电子设备及存储介质。
背景技术
由于现有的分类算法利用所有种子用户和非种子用户的行为数据进行有监督的模型训练,然而,在非种子用户和种子用户数量相差较大(非种子用户多,种子用户少),这种方式容易产生预测结果倾斜的问题,即可能无法从后续的待选取的非种子用户中选取出和种子用户相似的用户。
申请内容
鉴于此,本申请实施例的目的在于提供一种模型训练和预测方法、装置、电子设备及存储介质,以避免产生预测结果倾斜的问题,以使训练好的模型能够从待选取的非种子用户中选取出和种子用户相似的用户。
第一方面,本申请实施例提供一种模型训练方法,所述方法包括:获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数;利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。
在上述实现过程中,代价敏感分类就是为不同类型的错误分配不同的代价,使得在分类时,高代价错误产生的数量和错误分类的代价总和最小,因此,通过构建代价矩阵来训练代价敏感模型,以适当地将待选取的非种子用户的判定为种子用户,继而解决了样本不均衡而导致的模型预测结果倾斜问题,以使训练好的模型能够从待选取的非种子用户中选取出和种子用户比较相似的用户。
基于第一方面,在一种可能的设计中,所述操作行为包括:打开所述网页和/或点击所述电子商品、将所述电子商品加入购物车和购买所述电子商品。
在上述实现过程中,通过上述方式能够使得行为特征向量具有代表性。
基于第一方面,在一种可能的设计中,所述行为特征向量中的元素的值分别为打开所述网页的次数、点击所述电子商品的次数、将所述电子商品加入购物车的次数和购买所述电子商品的次数。
在上述实现过程中,通过将各种行为发生的次数作为特征向量的元素值,使得特征向量更具有代表性,继而更有助于分析用户之间的相似性。
基于第一方面,在一种可能的设计中,所述代价矩阵的第一个元素表示所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
在上述实现过程中,通过将所述第二个元素的值设置为比所述第一个元素的值、所述第三个元素的值和所述第四个元素的值均大的值,继而能够使得模型尽可能多的从非种子用户的行为特征行中确定出与种子用户的行为特征存在相似特征,以使训练好的模型能够尽可能多的从待选取的非种子用户中选取出和种子用户比较相似的用户。
基于第一方面,在一种可能的设计中,获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量,包括:获取各个用户对电子商品和/或网页的操作行为数据;针对每个用户,确定该用户的行为数据中是否包括预设种子行为;在确定该用户的行为数据中包括所述种子行为时,确定该用户为所述种子用户;在确定该用户的行为数据中不包括所述种子行为时,确定该用户为所述非种子用户;基于所述种子用户的行为数据,确定所述种子用户的第一行为特征向量;基于所述非种子用户的行为数据,确定所述种子用户的第二行为特征向量。
在上述实现过程中,利用种子行为作为区分能够快速、准确的区分出种子用户和非种子用户。
第二方面,本申请实施例提供一种预测方法,所述方法包括:获取非种子用户的行为特征向量;将所述非种子用户的行为特征向量输入到利用第一方面所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
在上述实现过程中,由于训练好的代价敏感模型,解决了样本不均衡而导致的模型预测结果倾斜问题,继而使得训练好的模型能够从待选取的非种子用户中选取出和种子用户相似的用户。
第三方面,本申请实施例提供一种模型训练装置,所述装置包括:特征向量获取单元,用于获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数;模型训练单元,用于利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。
基于第三方面,在一种可能的设计中,所述操作行为包括:打开所述网页和/或点击所述电子商品、将所述电子商品加入购物车和购买所述电子商品。
基于第三方面,在一种可能的设计中,所述行为特征向量中的元素的值分别为打开所述网页的次数、点击所述电子商品的次数、将所述电子商品加入购物车的次数和购买所述电子商品的次数。
基于第三方面,在一种可能的设计中,所述代价矩阵的第一个元素表示将所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示将所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示将所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示将所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
基于第三方面,在一种可能的设计中,所述特征向量获取单元,具体用于获取各个用户对电子商品和/或网页的操作行为数据;以及针对每个用户,确定该用户的行为数据中是否包括预设种子行为;在确定该用户的行为数据中包括所述种子行为时,确定该用户为所述种子用户;在确定该用户的行为数据中不包括所述种子行为时,确定该用户为所述非种子用户;基于所述种子用户的行为数据,确定所述种子用户的第一行为特征向量;基于所述非种子用户的行为数据,确定所述种子用户的第二行为特征向量。
第四方面,本申请实施例提供一种预测装置,所述装置包括:非种子用户的特征向量获取单元,用于获取非种子用户的行为特征向量;相似度确定单元,用于将所述非种子用户的行为特征向量输入到利用第一方面所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
第四方面,本申请实施例提供一种电子设备,包括处理器以及与所述处理器连接的存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行第一方面和第二方面所述的方法。
第五方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行第一方面和第二方面所述的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的模型训练方法的流程示意图。
图2为本申请实施例提供的预测方法的流程示意图。
图3为本申请实施例提供的模型训练装置的结构示意图。
图4为本申请实施例提供的预测装置的结构示意图。
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本申请实施例提供的一种模型训练方法的流程示意图,所述方法包括步骤:S100和S200。
S100:获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数。
S200:利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。
下面对上述方法进行介绍:
S100:获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数。
其中,种子用户和非种子用户的特征向量可以通过第三方直接获取,也可以通过如下方式获取。
作为一种实施方式,S100包括步骤:A1、A2、A3、A4、A5和A6。
A1:获取各个用户对电子商品和/或网页的操作行为数据。
其中,获取各个用户在预设时间段内的操作行为数据可以从微信小程序、公众号等的历史行为日志中获取,也可以通过在微信小程序、公众号等中植入软件开发工具包(Software Development Kit,SDK)来获取。
所述操作行为包括但不限于,打开各个网页和/或点击各个电子商品、将电子商品加入购物车和购买电子商品。
例如:用户A在2019.11.20打开了a网页2次,打开b网页3次,4次点击商品a,3次点击了商品b,将商品a加入购物车2次,1次购买商品b。
用户B在2019.11.20打开了a网页1次,打开b网页2次,3次点击商品a,将商品a加入购物车2次。
在获取到各个用户在预设时间段内段内的操作行为数据之后,执行A2:针对每个用户,确定该用户的行为数据中是否包括预设种子行为。
其中,所述种子行为可以为购买某种商品,也可以是购买某一类商品,也可以是打开某种网页,也可以使打开某类网页,所述种子行为可以根据用户需求定义。
针对每个用户,将该用户在所述预设时间段内的操作行为数据与所述种子行为进行一一对比,确定该用户的操作行为数据中是否存在与所述种子行为相同的行为,在确定该用户的操作行为数据中存在与所述种子行为相同的行为时,确定该用户的行为数据中是否包括所述种子行为,反之,确定该用户的行为数据中不包括所述种子行为。
A3:在确定该用户的行为数据中包括所述种子行为时,确定该用户为所述种子用户。
例如:若种子行为为购买商品a,用户A在2019.11.20打开了a网页2次,打开b网页3次,4次点击商品a,3次点击了商品b,将商品a加入购物车2次,1次购买商品b。由于用户A的操作行为数据中包括种子行为,那么,用户A为种子用户。
用户B在2019.11.20打开了a网页1次,打开b网页2次,3次点击商品a,将商品a加入购物车2次。由于用户B的操作行为数据中不包括种子行为,那么,用户B为非种子用户。
A4:在确定该用户的行为数据中不包括所述种子行为时,确定该用户为所述非种子用户。
A5:基于所述种子用户的行为数据,确定所述种子用户的第一行为特征向量。
其中,所述行为特征向量中的元素的值分别为打开所述网页的次数、点击所述电子商品的次数、将所述电子商品加入购物车的次数和购买所述电子商品的次数。
其中,在保证每个行为特征向量中的相同位置上的元素所表征的含义相同的情况下,各个元素的在特征向量中的位置可以不作限定。
作为一种实施方式,针对特征向量中的特征维度,可以将不同行为分别定义为一个维度。
若种子行为为购买商品a,行为特征向量的特征维度分别为打开网页a、打开网页b、点击商品a、点击商品b、将商品a加入购物车、将商品b加入购物车、购买商品a、购买商品b。
用户A在2019.11.20打开了a网页2次,打开b网页3次,4次点击商品a,3次点击了商品b,将商品a加入购物车2次,1次购买商品b。那么,种子用户A的第一行为特征向量为[2,3,4,3,2,0,0,1]。
作为一种实施方式,也可以将打开某一类网页作为一个维度,也可以将购买某一类商品作为一个特征维度,将点击某一类商品作为一个特征维度,将将某一类商品加入购物车作为一个维度。
若商品a和商品b为同一类商品,网页a和网页b属于同一类网页,行为特征向量的特征维度分别为打开网页a或b、点击商品a或商品b、将商品a或商品b加入购物车、购买商品a或商品b;那么,种子用户A的第一行为特征向量为[5,7,2,1]。
在实际运用中,也可以采取其他方式确定用户的行为特征向量。
A6:基于所述非种子用户的行为数据,确定所述种子用户的第二行为特征向量。
其中,A6的具体实施方式和A5类似,因此在此不再赘述。
代价敏感分类就是为不同类型的错误分配不同的代价,使得在分类时,高代价错误产生的数量和错误分类的代价总和最小,以适当地将待选取的非种子用户的判定为种子用户,继而解决了样本不均衡而导致的模型预测结果倾斜问题,以使训练好的模型能够从待选取的非种子用户中选取出和种子用户比较相似的用户。因此,在获取到了所述第一行为特征向量、所述第二行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,与所述第二行为特征向量对应的非种子用户标记,以及预先确定好的代价矩阵之后,执行步骤S200:利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,与所述第二行为特征向量对应的非种子用户标记,以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。
将所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,与所述第二行为特征向量对应的非种子用户标记,以及预先确定好的代价矩阵输入到AdaCost(自提升代价敏感学习模型)、MetaCost(元代价敏感学习模型)或Cost-senstive decision trees(代价敏感决策树模型)中进行模型训练,得到训练好的代价敏感模型。其中,训练所述代价敏感模型的方式为本领域熟悉技术,因此在此不再赘述。
其中,由于在本申请中的用户为两类,即种子用户和非种子用户,因此,代价矩阵为维度为2*2的矩阵,所述代价矩阵的第一个元素表示将所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示将所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示将所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示将所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
例如,请参照表1,表1为代价矩阵,其中,所述代价矩阵中所述第一个元素为1,所述第二个元素为10,所述第三个元素和所述第四个元素的值为1。
表1
例如,请参照表2,表2为代价矩阵,其中,所述代价矩阵中所述第一个元素为1,所述第二个元素为10,所述第三个元素和所述第四个元素的值为1。
实际非种子用户 | 实际种子用户 | |
种子用户 | 1 | 1 |
非种子用户 | 1 | 10 |
表2
通过将所述第二个元素的值设置为比所述第一个元素的值、所述第三个元素的值和所述第四个元素的值均大的值,能够使得训练好的模型尽可能多的从非种子用户的行为特征行中确定出与种子用户的行为特征存在相似特征,以使训练好的模型能够尽可能多的从待选取的非种子用户中选取出和种子用户比较相似的用户。
请参照图2,图2为本申请实施例提供的一种预测方法的流程示意图,所述方法包括步骤:S300和S400。
S300:获取非种子用户的行为特征向量。
其中,S300的具体实施方式请参照步骤S100,因此,在此不再赘述。
在获取到所述非种子用户的行为特征向量之后,执行步骤S400:将所述非种子用户的行为特征向量输入到利用上述实施例中所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
作为一种实施方式,在确定出各个非种子用户的所述相似度值之后,所述方法还包括:按照从大到小的顺序将各个非种子用户的所述相似度值进行排序输出。
作为一种实施方式,在确定出各个非种子用户的所述相似度值之后,所述方法还包括:根据预先确定的需要选取的待选用户数量,按照相似度值从大到小的顺序输出所述待选用户数量的用户的标识。
作为一种实施方式,在确定出所述非种子用户的所述相似度值之后,所述方法还包括:将所述相似度值与预设相似度值进行比较,在所述相似度值大于所述预设相似度时,确定所述非种子用户为待选用户,反之,确定所述非种子用户为非待选用户。
请参照图3,图3是本申请实施例提供的一种模型训练装置400的结构框图。下面将对图3所示的结构框图进行阐述,所示装置包括:
特征向量获取单元410,用于获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数。
模型训练单元420,用于利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型。
作为一种实施方式,所述操作行为包括:打开所述网页和/或点击所述电子商品、将所述电子商品加入购物车和购买所述电子商品。
作为一种实施方式,所述行为特征向量中的元素的值分别为打开所述网页的次数、点击所述电子商品的次数、将所述电子商品加入购物车的次数和购买所述电子商品的次数。
作为一种实施方式,所述代价矩阵的第一个元素表示将所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示将所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示将所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示将所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
作为一种实施方式,所述特征向量获取单元410,具体用于获取各个用户对电子商品和/或网页的操作行为数据;以及针对每个用户,确定该用户的行为数据中是否包括预设种子行为;在确定该用户的行为数据中包括所述种子行为时,确定该用户为所述种子用户;在确定该用户的行为数据中不包括所述种子行为时,确定该用户为所述非种子用户;基于所述种子用户的行为数据,确定所述种子用户的第一行为特征向量;基于所述非种子用户的行为数据,确定所述种子用户的第二行为特征向量。
请参照图4,图4是本申请实施例提供的一种预测装置500的结构框图。下面将对图4所示的结构框图进行阐述,所示装置包括:
非种子用户的特征向量获取单元510,用于获取非种子用户的行为特征向量;
相似度确定单元520,用于将所述非种子用户的行为特征向量输入到上述实施例所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
本实施例对的各功能单元实现各自功能的过程,请参见上述图1-图2所示实施例中描述的内容,此处不再赘述。
请参照图5,本申请实施例提供一种电子设备100,应用于图1和图2所述的方法,在本申请实施例中,电子设备100可以是平板电脑、智能手机、个人数字助理(personaldigital assistant,PDA)等。
电子设备可以包括:存储器102、处理101和通信总线,通信总线用于实现这些组件的连接通信。
存储器102用于存储种子用户的第一行为特征向量和非种子用户的第二行为特征向量,代价矩阵、代价敏感模型,本申请实施例提供的模型训练方法、预测方法及装置对应的计算程序指令等各种数据,其中,存储器102可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM)等。
处理器101用于读取并运行存储于存储器中的与模型训练方法对应的计算机程序指令时,执行本申请实施例提供的模型训练方法,以得到训练好的代价敏感模型。
处理器101用于读取并运行存储于存储器中的与预测训练方法对应的计算机程序指令时,执行本申请实施例提供的预测方法,以得到非种子用户与种子用户的相似度值。
其中,处理器101可能是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、分立门或者晶体管逻辑器件、分立硬件组件。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
综上所述,本申请各实施例提出的模型训练方法和预测方法、装置、电子设备及存储介质,代价敏感分类就是为不同类型的错误分配不同的代价,使得在分类时,高代价错误产生的数量和错误分类的代价总和最小,因此,通过构建代价矩阵来训练代价敏感模型,以适当地将待选取的非种子用户的判定为种子用户,继而解决了样本不均衡而导致的模型预测结果倾斜问题,以使训练好的模型能够从待选取的非种子用户中选取出和种子用户比较相似的用户。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
Claims (9)
1.一种模型训练方法,其特征在于,所述方法包括:
获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数;
利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量、与所述第二行为特征向量对应的非种子用户标记,以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型;
所述代价矩阵的第一个元素表示将所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示将所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示将所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示将所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
2.根据权利要求1所述的方法,其特征在于,所述操作行为包括:打开所述网页和/或点击所述电子商品、将所述电子商品加入购物车和购买所述电子商品。
3.根据权利要求2所述的方法,其特征在于,所述行为特征向量中的元素的值分别为打开所述网页的次数、点击所述电子商品的次数、将所述电子商品加入购物车的次数和购买所述电子商品的次数。
4.根据权利要求1所述的方法,其特征在于,获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量,包括:
获取各个用户对电子商品和/或网页的操作行为数据;
针对每个用户,确定该用户的行为数据中是否包括预设种子行为;
在确定该用户的行为数据中包括所述种子行为时,确定该用户为所述种子用户;
在确定该用户的行为数据中不包括所述种子行为时,确定该用户为所述非种子用户;
基于所述种子用户的行为数据,确定所述种子用户的第一行为特征向量;
基于所述非种子用户的行为数据,确定所述种子用户的第二行为特征向量。
5.一种预测方法,其特征在于,所述方法包括:
获取非种子用户的行为特征向量;
将所述非种子用户的行为特征向量输入到利用权利要求1-4中任一权项所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
6.一种模型训练装置,其特征在于,所述装置包括:
特征向量获取单元,用于获取种子用户的第一行为特征向量以及非种子用户的第二行为特征向量;其中,所述行为特征向量表征用户对电子商品和/或网页的操作行为的次数;
模型训练单元,用于利用所述第一行为特征向量、与该第一行为特征向量对应的种子用户标记、第二行为特征向量,以及与所述第二行为特征向量对应的非种子用户标记、以及预先确定好的代价矩阵来训练代价敏感模型,得到训练好的代价敏感模型;
其中,所述代价矩阵的第一个元素表示将所述非种子用户判定为非种子型用户的代价值,所述代价矩阵的第二个元素表示将所述非种子用户判定为种子型用户的代价值,所述代价矩阵的第三个元素表示将所述种子用户判定为非种子型用户的代价值,所述代价矩阵的第四个元素表示将所述种子用户判定为种子型用户的代价值,其中,其中,所述第一个元素和所述第二个元素为同一行,所述第三个元素和所述第四个元素为同一行;所述第二个元素的值大于所述第一个元素的值、所述第三个元素的值和所述第四个元素的值。
7.一种预测装置,其特征在于,所述装置包括:
非种子用户的特征向量获取单元,用于获取非种子用户的行为特征向量;
相似度确定单元,用于将所述非种子用户的行为特征向量输入到利用权利要求1-4中任一权项所述的方法训练好的代价敏感模型中,得到表征所述非种子用户与所述种子用户的相似程度的相似度值;其中,所述相似度值越大,表征所述非种子用户为所述种子用户的可能性越大。
8.一种电子设备,其特征在于,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-5中任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188457.9A CN110956209B (zh) | 2019-11-28 | 2019-11-28 | 模型训练和预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188457.9A CN110956209B (zh) | 2019-11-28 | 2019-11-28 | 模型训练和预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956209A CN110956209A (zh) | 2020-04-03 |
CN110956209B true CN110956209B (zh) | 2024-03-26 |
Family
ID=69978702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911188457.9A Active CN110956209B (zh) | 2019-11-28 | 2019-11-28 | 模型训练和预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956209B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905897B (zh) * | 2021-03-30 | 2022-09-09 | 杭州网易云音乐科技有限公司 | 相似用户确定方法、向量转化模型、装置、介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993088A (zh) * | 2017-11-20 | 2018-05-04 | 北京三快在线科技有限公司 | 一种购买周期预测方法及装置,电子设备 |
CN108334887A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户选取方法和装置 |
CN108510336A (zh) * | 2017-02-23 | 2018-09-07 | 北京京东尚科信息技术有限公司 | 用于确定用户数据信息的方法、装置、电子设备和存储介质 |
CN108647986A (zh) * | 2018-03-28 | 2018-10-12 | 北京奇艺世纪科技有限公司 | 一种目标用户确定方法、装置及电子设备 |
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109191191A (zh) * | 2018-08-20 | 2019-01-11 | 南京工业大学 | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 |
CN109741114A (zh) * | 2019-01-10 | 2019-05-10 | 博拉网络股份有限公司 | 一种大数据金融场景下的用户购买预测方法 |
CN110322281A (zh) * | 2019-06-06 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 相似用户的挖掘方法及装置 |
-
2019
- 2019-11-28 CN CN201911188457.9A patent/CN110956209B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334887A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户选取方法和装置 |
CN108510336A (zh) * | 2017-02-23 | 2018-09-07 | 北京京东尚科信息技术有限公司 | 用于确定用户数据信息的方法、装置、电子设备和存储介质 |
CN107993088A (zh) * | 2017-11-20 | 2018-05-04 | 北京三快在线科技有限公司 | 一种购买周期预测方法及装置,电子设备 |
CN108647986A (zh) * | 2018-03-28 | 2018-10-12 | 北京奇艺世纪科技有限公司 | 一种目标用户确定方法、装置及电子设备 |
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109191191A (zh) * | 2018-08-20 | 2019-01-11 | 南京工业大学 | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 |
CN109741114A (zh) * | 2019-01-10 | 2019-05-10 | 博拉网络股份有限公司 | 一种大数据金融场景下的用户购买预测方法 |
CN110322281A (zh) * | 2019-06-06 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 相似用户的挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110956209A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI759620B (zh) | 確定用戶金融違約風險的方法及裝置與電腦可讀儲存媒體及計算設備 | |
CN109360089B (zh) | 贷款风险预测方法及装置 | |
CN112860841B (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN110647696B (zh) | 一种业务对象的排序方法及装置 | |
CN110827112B (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
CN109191133B (zh) | 支付渠道的选择方法及终端设备 | |
JP6920378B2 (ja) | 再修理用基板の検出装置、方法およびコンピュータ読み取り可能な記憶媒体 | |
CN111160032A (zh) | 一种命名实体提取方法、装置、电子设备及存储介质 | |
CN112529663A (zh) | 商品推荐方法、装置、终端设备及存储介质 | |
CN111143678B (zh) | 推荐系统和推荐方法 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113177700A (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN111651981B (zh) | 数据的审核方法、装置及设备 | |
CN110956209B (zh) | 模型训练和预测方法、装置、电子设备及存储介质 | |
CN114187009A (zh) | 交易风险预测模型的特征解释方法、装置、设备及介质 | |
CN113743618A (zh) | 时间序列数据处理方法、装置、可读介质及电子设备 | |
CN111026973B (zh) | 一种商品兴趣度预测方法、装置及电子设备 | |
CN111062449A (zh) | 预测模型的训练方法、兴趣度预测方法、装置和存储介质 | |
CN114254588A (zh) | 数据标签处理方法和装置 | |
CN111914868A (zh) | 模型训练方法、异常数据检测方法、装置和电子设备 | |
CN110888945A (zh) | 用户行为预测方法、装置、电子设备及存储介质 | |
CN115249017B (zh) | 文本标注方法、意图识别模型的训练方法及相关设备 | |
CN113837183B (zh) | 基于实时挖掘的多阶段凭证智能生成方法、系统及介质 | |
CN114581126B (zh) | 一种电商广告roas异常检测方法、装置和电子设备 | |
CN117078369A (zh) | 金融类用户用卡升级推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231128 Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai Applicant after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: 200000 floors 4, 5 and 6, No. 3 Lane 1473, Zhenguang Road, Putuo District, Shanghai Applicant before: Shanghai Fengzhi Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |