CN113496236A - 用户标签信息确定方法、装置、设备和存储介质 - Google Patents
用户标签信息确定方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113496236A CN113496236A CN202010202617.7A CN202010202617A CN113496236A CN 113496236 A CN113496236 A CN 113496236A CN 202010202617 A CN202010202617 A CN 202010202617A CN 113496236 A CN113496236 A CN 113496236A
- Authority
- CN
- China
- Prior art keywords
- target
- user
- preset
- label
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003993 interaction Effects 0.000 claims abstract description 82
- 238000013145 classification model Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000006399 behavior Effects 0.000 claims description 195
- 230000002452 interceptive effect Effects 0.000 claims description 94
- 239000013598 vector Substances 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 21
- 238000012417 linear regression Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 101100194362 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res1 gene Proteins 0.000 description 1
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种用户标签信息确定方法、装置、设备和存储介质,该方法包括:获取目标用户的目标交互行为数据;根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果;根据目标分类结果确定目标用户的目标标签信息;其中,预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,标准标签信息是基于样本交互行为数据确定的。通过本发明实施例的技术方案,可以提高用户标签确定的准确性。
Description
技术领域
本发明实施例涉及互联网技术,尤其涉及一种用户标签信息确定方法、装置、设备和存储介质。
背景技术
随着互联网技术的快速发展,往往需要创建用户画像,以便实现精细化运营,以及更好地为用户提供针对性的服务,比如进行个性化物品推荐。用户画像可以是指将数据抽象成标签,利用标签将用户形象具体化的过程。
用户画像的传统方式是对用户进行手动标注,但随着用户数量的增加以及用户行为和需求的多样化,导致这样传统方式效率低下,并且难以保证标注准确度。针对于此,现有技术中可以基于用户的历史行为数据和真实标签,对分类模型进行训练,并基于训练后的分类模型对用户标签进行自动预测。例如,现有技术在训练用于预测用户的性别标签(或者年龄标签)的分类模型时,是利用用户的真实生理性别(或者真实生理年龄)对训练数据进行打标,以利用用户的真实生理性别(或者真实生理年龄)来近似用户购买物品的购买性别(或者购买年龄),以便后续进行个性化物品推荐。
然而,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有的分类模型是基于用户的真实生理数据进行训练预测出的用户标签结果,但每个用户在不同时间段内可能扮演不同的社会角色,比如单身角色、丈夫角色和父母角色等,不仅仅局限于个人的单身角色,从而仅利用用户的真实生理数据很难预测出准确的用户标签结果,进而也会降低物品推荐效果。例如,某个用户的真实生理性别为男性,但该用户处于恋爱状态从而经常关注女性信息,若基于该用户的真实生理性别对该用户的历史行为数据打标为男性后进行模型训练,则训练后的分类模型也会对该种历史行为数据预测为男性,当后续业务方基于该男性标签向该用户推荐关于男性的物品信息时,由于该用户关注更多的是女性信息,从而会导致推荐给该用户的男性物品信息的效果低下,降低了物品转化率。
发明内容
本发明实施例提供了一种用户标签信息确定方法、装置、设备和存储介质,以提高用户标签确定的准确性。
第一方面,本发明实施例提供了一种用户标签信息确定方法,包括:
获取目标用户的目标交互行为数据;
根据预设分类模型和所述目标交互行为数据,确定所述目标用户对应的目标分类结果;
根据所述目标分类结果确定所述目标用户的目标标签信息;
其中,所述预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,所述标准标签信息是基于所述样本交互行为数据确定的。
第二方面,本发明实施例还提供了一种用户标签信息确定装置,包括:
目标交互行为数据获取模块,用于获取目标用户的目标交互行为数据;
目标分类结果确定模块,用于根据预设分类模型和所述目标交互行为数据,确定所述目标用户对应的目标分类结果;
目标标签信息确定模块,用于根据所述目标分类结果确定所述目标用户的目标标签信息;
其中,所述预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,所述标准标签信息是基于所述样本交互行为数据确定的。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的用户标签信息确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的用户标签信息确定方法。
上述发明中的实施例具有如下优点或有益效果:
预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,并且标准标签信息是通过对样本交互行为数据进行分析确定的,而不是直接基于用户的真实生理数据确定的,使得训练后的预设分类模型可以真正意义上对用户交互行为数据进行分析确定出准确的目标分类结果,从而基于目标分类结果确定的目标标签信息可以更加准确地反映出用户的当前喜好,从而提高了用户标签确定的准确性,并且通过准确地衡量出用户购买物品的购买属性标签,可以提高物品推荐效果和物品转化率。
附图说明
图1是本发明实施例一提供的一种用户标签信息确定方法的流程图;
图2是本发明实施例一所涉及的一种目标交互行为数据处理的示例;
图3是本发明实施例二提供的一种用户标签信息确定方法的流程图;
图4是本发明实施例三提供的一种用户标签信息确定装置的结构示意图;
图5是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种用户标签信息确定方法的流程图,本实施例可适用于确定用户的标签信息,以构建出用户画像的情况。该方法可以由用户标签信息确定装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于具有数据处理功能的设备中。如图1所示,该方法具体包括以下步骤:
S110、获取目标用户的目标交互行为数据。
其中,目标用户可以是指任意一个需要确定画像标签的用户。目标交互行为数据可以是指目标用户在电商平台中产生的历史交互行为数据。示例性地,目标交互行为数据可以包括:预设历史时间段内目标用户在各个预设交互操作下产生的针对每个预设物品类目的行为数据。其中,预设交互操作可以包括但不限于:下单操作、加入购物车操作、点击操作、评论操作、搜索操作、关注操作、停留操作、退换操作、支付操作、展示广告和来源渠道等。预设物品类目可以是指物品分类中的二级类目,比如:男装、女装、男士护肤、女士护肤、男包、女包等。例如,目标用户在下单操作产生的针对每个预设物品类目的行为数据可以包括:在每个预设物品类目下,目标用户下单的物品数量和下单时间距离当前时间的天数等。目标用户在评论操作产生的针对每个预设物品类目的行为数据可以包括:在每个预设物品类目下,目标用户评论过的物品数量和评论字数等。
需要说明的是,本实施例可以获取目标用户在电商平台中产生的所有历史交互行为数据,不仅仅局限于用户的下单操作数据,从而可以充分利用目标用户的各种行为特征,考虑到用户交互行为的时间衰减因素等,以便进一步提高用户标签确定的准确性。
S120、根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果。
其中,预设分类模型可以是指用于预测用户标签的分类模型。预设分类模型可以是线性回归模型。每个用户属性均对应一个预设分类模型,用于预测相应的用户属性下的用户标签。例如,用户属性可以包括但不限于性别属性或者年龄属性。其中,性别属性对应两个预设标签,分别为男性和女性。年龄属性可以对应多个预设标签,每个预设标签对应一个年龄时间段,预设标签的数量可以基于年龄的划分情况进行确定,比如,可以将年龄划分为:0~3岁、4~6岁、7~12岁、13~18岁、19~25岁、26~35岁、36~45岁、46~55岁和56岁以上,即可以获得年龄属性对应的9个预设标签。目标分类结果可以包括:目标用户在每个预设标签下对应的预测概率。
其中,预设分类模型可以是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,标准标签信息是基于样本交互行为数据确定的。其中,标准标签信息可以是指对样本交互行为数据进行打标后的标签结果。标准标签信息是通过对样本交互行为数据进行分析确定的,而不是直接基于用户的真实生理数据确定的,从而可以使得预设分类模型可以基于目标交互行为数据更加准确地确定出目标分类结果。
具体地,可以对目标交互行为数据进行编码处理,获得预设分类模型可接受的输入数据格式,并将该输入数据格式下的目标交互行为数据输入至预设分类模型中进行处理,获得相应的目标分类结果。
示例性地,S120可以包括:对目标交互行为数据进行全量数据处理,确定目标交互行为数据对应的目标交互行为向量;将目标交互行为向量输入至预设分类模型中,根据预设分类模型的输出,确定目标用户对应的目标分类结果。
其中,目标交互行为向量可以是以向量形式表征的目标交互行为数据。具体地,通过对目标交互行为数据进行全量数据处理,可以利用目标交互行为向量表征出用户的所有行为特征,通过将目标交互行为向量输入至预设分类模型中,可以全面地分析用户的交互行为数据,进一步提高输出的目标分类结果的准确性。
S130、根据目标分类结果确定目标用户的目标标签信息。
其中,目标标签信息可以是指目标用户在该用户属性下所具有的标签信息。具体地,可以基于不同的业务需求选择不同的确定方式,根据目标分类结果确定出目标标签信息,从而提高了用户标签确定的准确性,并且可以准确地衡量出用户购买物品的购买属性标签,从而基于该准确的目标标签信息,对目标用户推荐相应的物品时,可以提高物品推荐效果和物品转化率。
示例性地,S130可以包括:根据目标分类结果,获得目标用户在每个预设标签对应的预测概率;基于各个预测概率,对各个预设标签进行降序排列,确定预设标签序列;根据预设标签序列中的前预设数量的预设标签,确定目标用户的目标标签信息。
其中,每个预设标签对应的预测概率均可以是0-1之间的数值。预设标签序列中的每个预设标签所对应的预测概率从大到小依次降低。预设数量可以是最终确定的用户标签的数量。预设数量可以为一个或多个,预设数量的最大值小于或等于预设标签的数量。
具体地,根据预设分类模型输出的目标分类结果,可以获得目标用户在每个预设标签对应的预测概率,并对预测概率进行降序排列,可以获得相应的预设标签序列。可以将该预设标签序列的前预设数量的预设标签确定为目标用户的目标标签信息,也可以将前预设数量的预设标签和相应的预测概率确定为目标标签信息。本实施例还可以将预设标签序列中大于预设概率的预测概率所对应的各个预设标签和相应的预测概率确定为目标标签信息。例如,对于性别属性而言,若预设分类模型输出的目标分类结果为:男性90%,女性30%,则表明目标用户最近关注的男性物品信息远高于女性物品信息,此时获得的预测标签序列为:{男性,女性},若预设数量为1个,则确定的目标标签信息为男性90%,即该目标用户的购买性别为男性,此时可以向目标用户推荐男性物品,使得购买所推荐的男性物品的可能性较高,提高了物品的转化率。若预设分类模型输出的目标分类结果为:男性60%,女性55%,则表明目标用户最近关注的男性物品信息和女性物品信息的程度差不多,此时若预设数量为2个,则可以确定目标标签信息为男性60%、女性55%,后续业务方可以基于该目标标签信息向目标用户既推荐男性物品信息,也推荐女性物品信息。对于年龄属性而言,若预设标签序列为:{26~35岁、0~3岁、46~55岁、56岁以上、36~45岁、4~6岁、7~12岁、13~18岁、19~25岁},预设数量为三个,则可以确定出目标标签信息为26~35岁、0~3岁、46~55岁,后续基于该目标标签信息可以确定出目标用户的画像是一个有孩子和有父母的年轻人。
需要说明的是,现有技术中基于分类模型通常仅是预测出一个用户标签,比如年龄属性,仅会预测出用户自身所处于的年龄段,但由于用户可能具有多重社会角色,比如孩子角色和父母角色等,从而用户不仅会给自己购买物品,也会给孩子和父母购买物品,使得用户可能同时具有多个用户标签。针对于此,本实施例基于预设分类模型确定出的目标用户的目标标签信息可以是多个用户标签,比如目标标签信息为三个年龄标签:26~35岁、0~3岁和46~55岁,从而可以到达“一人多面”的技术效果,进一步提高了用户标签确定的准确性。
本实施例的技术方案中,预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,并且标准标签信息是通过对样本交互行为数据进行分析确定的,而不是直接基于用户的真实生理数据确定的,使得训练后的预设分类模型可以真正意义上对用户交互行为数据进行分析确定出准确的目标分类结果,从而基于目标分类结果确定的目标标签信息可以更加准确地反映出用户的当前喜好,从而提高了用户标签确定的准确性,并且通过准确地衡量出用户购买物品的购买属性标签,可以提高物品推荐效果和物品转化率。
在上述技术方案的基础上,对目标交互行为数据进行全量数据处理,确定目标交互行为数据对应的目标交互行为向量,可以包括:根据数据透视函数每次运行的最大预设物品类目数和目标交互行为数据对应的预设物品类目总数,对目标交互行为数据进行分块透视处理,确定各个第一数据块;根据每次数据拼接时的最大数据块数和第一数据块的数量,对各个第一数据块进行数据拼接,确定每次数据拼接后获得的第二数据块;对每个第二数据块进行向量化和归一化,确定相应的第二数据块向量;对各个第二数据块向量进行数据拼接,确定目标交互行为向量。
其中,数据透视函数Spark计算引擎中所提供的pivot函数,可以用于进行行列的转换,比如将每行中的交互行为数据转换为一行中的各个列数据。数据透视函数每次运行的最大预设物品类目数可以基于数据透视函数的最大可产生的列数进行确定。例如,数据透视函数每次最多可运行25个预设物品类目产生1225列数据,即数据透视函数每次运行的最大预设物品类目数为25个。预设物品类目总数可以是指预先设置的预设物品类目的总数量。例如,本实施例中的预设物品类目总数可以是863个。每次数据拼接时的最大数据块数可以是指Spark计算引擎中每次进行数据拼接join数据时的最多可join的数据块的数量。
具体地,可以对目标交互行为数据对应的预设物品类目总数与数据透视函数每次运行的最大预设物品类目数之间的比值进行向上取整,获得的取整结果作为第一数据块的数量,即可以把目标交互行为数据划分为该数量个数据块,从而可以进行分块透视处理,即利用数据透视函数对每个数据块进行数据转换,获得相应的第一数据块。将第一数据块的数量与每次数据拼接时的最大数据块数之间的比值进行向上取整,获得的取整结果作为数据拼接次数,并执行相应次数的数据拼接join,获得每次数据拼接join后的第二数据块,并可以利用Spark计算引擎提供的基础特征处理类VectorAssembler对每个第二数据块进行向量化,并对向量化后的数据块进行归一化,获得相应的第二数据块向量。基于上述的数据拼接join方式,对各个第二数据块向量进行数据拼接,join为一个目标交互行为向量,从而可以实现全量数据的处理,保证全量数据的输入。
示例性地,图2给出了一种目标交互行为数据处理的示例。在图2中,目标交互行为数据对应预设物品类目总数是863个,每个预设物品类目对应49个交互动作的数据,从而目标交互行为数据包含863×49=42287维数据。数据透视函数pivot每次运行的最大预设物品类目数为25个,每次数据拼接时的最大数据块数为4个。基于此,目标交互行为数据对可以划分为个数据块,并利用数据透视函数pivot对每个数据块进行数据转换,获得相应的第一数据块,此时每个第一数据块可以包含1225个特征。接着,每4个第一数据块进行数据拼接join,数据拼接次数为次,从而可以获得9个第二数据块,并对每个第二数据块进行向量化和归一化,获得相应的第二数据块向量,即9个第二数据块向量,再对9个第二数据块向量进行数据拼接,比如先进行次数据拼接,再对拼接后获得的三个向量再进行一次数据拼接,从而可以获得最终的目标交互行为向量,实现了全量数据的处理,保证可以将全量数据输入至预设分类模型中进行分析,提高模型的泛化能力,进一步提高了用户标签确定的准确性。
实施例二
图3为本发明实施例二提供的一种用户标签信息确定方法的流程图,本实施例在上述实施例的基础上,对预设分类模型的训练过程进行了描述。其中与上述实施例相同或相应的术语的解释在此不再赘述。
参见图3,本实施例提供的用户标签信息确定方法具体包括以下步骤:
S210、确定样本数据,样本数据包括样本用户对应的样本交互行为数据和标准标签信息。
其中,标准标签信息中可以包含一个或多个标准标签。例如,某个用户的性别属性对应的标准标签为:男性;某个用户的年龄属性对应的标准标签为:26~35岁、0~3岁和46~55岁。
具体地,可以基于历史用户的历史交互行为数据,从电商平台中的所有历史用户中筛选出符合预设标注条件的样本用户,并对样本用户进行打标,确定出相应的标准标签信息,而不是直接基于用户的生理特征数据进行打标。例如,从历史用户中筛选出具有明显特定行为的男性用户(比如关注的男性物品信息远远多于所关注的女性物品信息)和女性用户(比如关注的女物品信息远远多于所关注的男性物品信息),去除掉行为特征不明显的历史用户(比如关注的女物品信息的数量与所关注的男性物品信息的数量相差不多),以进一步优化模型的训练效果,进而提高用户标签确定的准确性。
示例性地,S210可以包括:根据各个预设物品类目中的目标预设物品类目和每个历史用户对应的历史交互行为数据,从各历史用户中确定出满足预设标注条件的第一用户以及第一用户的第一标签信息;根据第一用户对应的第一交互行为数据和第一标签信息,对预设线性回归模型进行训练,确定出训练后的预设线性回归模型中的各个预设物品类目对应的特征权重值;基于各个特征权重值,对目标预设物品类目进行更新,并基于更新后的目标预设物品类目,对第一用户进行更新;当满足预设更新停止条件时,根据当前获得的第一用户对应的第一交互行为数据和第一标签信息确定样本数据。
其中,目标预设物品类目是指各个预设物品类目中,可以明显表征出预设标签特征的物品类目。例如,对于性别属性而言,预设物品类目为女装时,由于女装是针对女性用户的服装,男性用户不适用,从而可以将该预设物品类目:女装作为一个目标预设物品类目,即女性预设物品类目。预设物品类目为电器时,由于女性用户和男性用户均可以使用电器,不会区分男女用户,从而该电器不适合作为目标预设物品类目。预设标注条件可以是预先设置的,可以对历史用户进行标注的条件。例如,对于性别属性而言,预设标注条件可以包括男性标注条件和女性标注条件。第一用户的第一标签信息是指对第一用户进行标注后的标注结果。预设线性回归模型可以是指单标签的线性回归模型,用于预测每个预设标签下的预测概率。预设线性回归模型的数量与预设标签的数量相同。预设更新停止条件可以是指当前循环更新次数等于预设次数时停止。
具体地,各个预设物品类目中的目标预设物品类目首先可以通过头脑风暴的方式人工确定出可以表征出每个预设标签特征的目标预设物品类目,再通过利用预设线性回归模型,对各个目标预设物品类目进行更新,以提高标注的准确性。对于用户属性下的每个预设标签而言,可以基于该预设标签对应的预设标注条件和各个预设物品类目中可以用于表征该预设标签特征的目标预设物品类目,根据历史用户对应的历史交互行为数据,确定出满足该预设标注条件的第一用户,并可以确定出每个第一用户对应的第一标签信息为该预设标签。例如,对于性别属性而言,可以先脑暴出各个预设物品类目中的目标男性物品类目(比如:男装、男士面部护肤等)和目标女性物品类目(比如:女装、女包等)。男性标签对应的预设标注条件可以是:用户在所有目标男性物品类目下的男性权重值与在所有预设物品类目下的总权重值之间的比值大于预设比值,以及存在交互行为的目标男性物品类目的个数大于预设数量时,可以确定该用户对应的第一标签信息为男性标签。女性标签对应的预设标注条件可以是:用户在所有目标女性物品类目下的女性权重值与在所有预设物品类目下的总权重值之间的比值大于预设比值,以及存在交互行为的女性物品类目的个数大于预设数量时,可以确定该用户对应的第一标签信息为女性标签。通过基于历史用户对应的历史交互行为数据,可以确定出历史用户是否满足预设标注条件,若是,则可以确定该历史用户为第一用户,并将该预设标注条件对应的预设标签确定为该第一用户对应的第一标签信息。
在从各历史用户中确定出满足预设标注条件的各个第一用户后,可以将每个第一用户对应的第一交互行为数据输入至相应的预设线性回归模型中进行训练,以使该预设线性回归模型输出的预测为男性标签的预测概率为1。例如,若第一用户对应的第一标签信息为男性标签,则可以将该第一用户对应的第一交互行为数据输入至男性标签对应的预设线性回归模型中,通过调整预设线性回归模型中的特征权重值,使得该预设线性回归模型输出的预测概率为1。通过对训练后的预设线性回归模型中的各个预设物品对应的特征权重值进行降序排列,获得前预设数量的特征权重值,从而基于特征权重值与预设物品类目之间的对应关系,确定出该预设标签对应的预设数量的目标预设物品类目,从而可以对目标预设物品类目进行更新,进而基于更新后的目标预设物品类型可以重新从历史用户中确定出满足预设标注条件的第一用户,从而可以对第一用户进行更新,即对训练样本进行了更新,进而提高标签的准确性。检测当前是否满足预设更新停止条件,若不满足,则可以根据当前获得的第一用户对应的第一交互行为数据和第一标签信息,重新对预设线性回归模型进行训练,以便再次对目标预设物品类目和第一用户进行更新。若满足预设更新停止条件,则可以停止更新,将当前获得的每个第一用户作为样本用户,第一用户对应的第一交互行为数据作为样本交互行为数据,以及第一用户对应的第一标签信息作为相应的标准标签信息,从而获得准确的标注结果,进而提高了样本的训练效果。例如,通过上述方式,可以从863个预设物品类目中最终筛选出36个男性目标预设物品类目和25个女性目标预设物品类目。
需要说明的是,在将第一用户对应的第一交互行为数据输入至对应的预设线性回归模型之前,可以利用实施例一所提供的全量数据处理方式,对第一交互行为数据进行全量数据处理,获得相应的第一交互行为向量,再将该第一交互行为向量输入至对应的预设线性回归模型中,以保证全量数据的输入。
S220、根据样本交互行为数据和标准标签信息,以预设分类模型中的各个单标签模型输出的标签结果的排列顺序,与标准标签信息中的各个标准标签的排列顺序一致,为训练目标对各个单标签模型进行训练。
其中,预设分类模型中的每个单标签模型与用户属性下的每个预设标签均一一对应,每个单标签模型用于输出预测标签是所对应的预设标签的预测概率。例如,当用户属性为性别属性时,预设分类模型中可以包含两个单标签模型,分别为男性模型和女性模型。当用户属性为年龄属性时,若年龄属性对应9个预设年龄段,即9个预设标签,则预设分类模型中可以包含9个单标签模型,即每个预设标签对应一个单标签模型。示例性地,每个单标签模型均可以是但不限于预设因子分解机FM(Factorization Machines)模型等其他线性回归模型。
具体地,基于预设分类模型中的各个单标签模型和样本交互行为数据,可以确定出每个预设标签对应的预测概率,并基于每个预测概率对各个预设标签进行降序排列,从而获得各个预设标签的排列顺序,将该排列顺序与标准标签信息中的各个标准标签的排列顺序进行对比,并以两个排列顺序为一致作为训练目标对预设分类模型中的各个单标签模型进行训练。
示例性地,S220可以包括:根据标准标签信息中的各个标准标签的排列顺序,确定由标准标签信息中的两个标准标签组成的各个有序数对;将样本交互行为数据对应的样本交互行为向量均输入至每个有序数对所对应的两个单标签模型中,并以两个单标签模型输出的标签结果的排列顺序与相应的有序数对的排列顺序一致为训练目标进行模型训练。
具体地,若用户属性仅存在两个预设标签,则标准标签信息中可以仅存在一个标准标签,此时表明该标签位于另一个标签的前面,从而可以确定出该用户对应的有序数对。例如,对于性别属性而言,若样本用户对应的标准标签信息为男性,则表明该样本用户对应的男性标签位于女性标签的前面,此时可以确定出该样本用户仅对应一个有序数对,即(男性,女性)。若用户属性存在两个以上预设标签,则标准标签信息中可以包含至少两个标准标签,基于各个标准标签的排列顺序,可以确定出由两个标准标签组成的各个有序数对。例如,对于年龄属性而言,若样本用户对应的标准标签信息为:26~35、0~3和46~55,则基于该排列顺序,可以确定出个有序数对,分别为:(26~35,0~3)、(26~35,46~55)和(26~35,46~55)。
本实施例可以基于上述实施例一所提供的全量数据处理方式,对样本交互行为数据进行全量数据处理,获得相应的样本交互行为向量。将样本交互行为向量均输入至每个有序数对所对应的两个单标签模型中,以使可以对每个有序数对所对应的两个单标签模型进行同时训练。例如,若有序数对为(26~35,0~3),则将样本交互行为向量均输入至预设标签为26~35岁所对应的单标签模型y6中和预设标签为0~3岁所对应的单标签模型y1中,对单标签模型y6和单标签模型y1进行训练。在训练过程中使用的损失函数可以是交叉熵损失函数,以便实现对多模型多变量的排序方式,适用于多个标签且标签有序的问题。示例性地,损失函数可以表示如下:
其中,U表示样本用户集合;u表示任意一个样本用户;i和j均表示一个有序数对所对应的两个单标签模型对应的模型下标;I表示各个有序数对所对应的第一个单标签模型对应的模型下标的集合;J表示各个有序数对所对应的第二个单标签模型对应的模型下标的集合;表示预测出的后验概率分布;表示标准的后验概率分布;yi(x)表示单标签模型i所输出的预测概率;yj(x)表示单标签模型j所输出的预测概率;x表示样本用户u对应的样本交互行为向量。
具体地,本实施例可以利用上述损失函数来表征预测的后验概率分布对标准的后验概率分布拟合的优劣情况。在训练过程中,对于任意样本用户,均要保证集合I中的单标签模型i比单标签模型j排序靠前。当yi(x)大于yj(x)时,即单标签模型i在单标签模型j的前面,此时当yi(x)小于yj(x)时,即单标签模型i在单标签模型j的后面,此时本实施例可以利用随机梯度下降方式SGD(Stochastic Gradient Descent)或者在线学习方式FTRL(Follow-the-regularized-Leader)进行模型训练,以提高训练效率。例如,在训练过程中所采用的一阶导数信息可以为:
S230、获取目标用户的目标交互行为数据。
S240、根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果。
S250、根据目标分类结果确定目标用户的目标标签信息。
本实施例的技术方案,通过确定样本用户对应的标准标签信息,并利用样本交互行为数据和标准标签信息,对预设分类模型中的各个单标签模型的排列顺序进行训练,从而可以将现有的基于单模型对多标签的排序问题转换为基于多个模型对多标签的排序问题,实现了多模型排序功能,进而可以利用各个标签的排序结果表征出用户的喜好程度,解决了用户标签过于单一的问题,实现了用户标签的多元化。
在上述技术方案的基础上,根据当前获得的第一用户对应的第一交互行为数据和第一标签信息确定样本数据,可以包括:根据每个历史用户对应的历史交互行为数据确定两两用户之间的目标相似度;根据目标相似度,对各历史用户进行聚类,确定每簇对应的历史用户集合;根据每个历史用户集合包含的当前获得的第一用户对应的第一标签信息,从历史用户中重新确定出第二用户,并根据第二用户对应的第二交互行为数量和对应的第二标签信息确定样本数据。
具体地,本实施例在利用预设标注条件,从各历史用户中确定出第一用户之后,还可以基于所确定出的第一用户,对各个历史用户进行聚类,基于聚类结果重新筛选出各个历史用户中的第二用户,以便获得更加准确的训练样本。例如,可以先基于预设相似性度量方式,比如欧式距离等,根据当前获得的每个第一用户对应的历史交互行为数据确定出两两用户之间的目标相似度。可以基于K-Means++聚类方式,将初始的聚类中心之间的相互距离尽可能的远。基于各个目标相似度,可以对各个历史用户进行聚类,获得每簇中的各个历史用户所组成的历史用户集合。并对每个历史用户集合所包含的第一用户对应的第一标签信息进行统计,根据统计结果可以从历史用户中重新筛选出更加准确的第二用户,并将每个第二用户作为样本用户,第二用户对应的第二交互行为数据作为样本交互行为数据,以及第二用户对应的第二标签信息作为相应的标准标签信息,以便进一步提高标注结果的准确性。
示例性地,根据每个历史用户对应的历史交互行为数据确定两两用户之间的目标相似度,可以包括:根据第一历史用户和第二历史用户分别对应的历史交互行为数据,确定出在每个预设标签对应的预设物品类目集合中,第一历史用户存在交互行为而第二历史用户不存在交互行为时的第一预设物品类目数量,以及第二历史用户存在交互行为而第一历史用户不存在交互行为的第二预设物品类目数量;根据第一预设物品类目数量和第二预设物品类目数量,确定出每个预设标签对应的第一相似度,并基于各第一相似度确定出第一历史用户与第二历史用户之间的目标相似度。
具体地,本实施例可以对获取的两个历史交互行为数据进行对比分析,在每个预设标签对应的预设物品类目集合中确定出第一预设物品类目数量和第二预设物品类目数量。比如,分别在男性预设物品类目集合、女性预设物品类目集合和中性预设物品类目集合中确定出第一预设物品类目数量和第二预设物品类目数量,其中,中性预设物品类目集合可以是指在所有预设物品类目中除男性预设物品类目和女性预设物品类目之外的其他预设物品类目所组成的类目集合。本实施例可以利用负值来表征第一相似度。
当第一预设物品类目数量和第二预设物品类目数量均等于零时,可以确定出该预设标签对应的第一相似度为0。
当第一预设物品类目数量大于0且第二预设物品类目数量等于零时,若第一预设物品类目数量大于预设类目数量,则可以确定该预设标签对应的第一相似度为-1;若第一预设物品类目数量小于或等于预设类目数量,则可以确定该预设标签对应的第一相似度为-m×sac,其中sac表示第一预设物品类目数量,m表示系数,比如m可以为
当第一预设物品类目数量等于且零第二预设物品类目数量大于0时,若第二预设物品类目数量大于预设类目数量,则可以确定该预设标签对应的第一相似度为-1;若第二预设物品类目数量小于或等于预设类目数量,则可以确定该预设标签对应的第一相似度为-m×sbc,其中sbc表示第二预设物品类目数量,m表示系数,比如m也可以为
当第一预设物品类目数量和第二预设物品类目数量均大于零时,可以对第一历史用户和第二历史用户的历史交互行为数据所对应的历史交互行为向量均进行转换,获得相应的第一行为向量和第二行为向量;根据第一行为向量和第二行为向量,确定第一历史用户与第二历史用户之间的第二相似度;根据第二相似度、第一预设物品类目数量和第二预设物品类目数量,确定该预设标签对应的第一相似度。
其中,Xi可以是指历史交互行为向量中的第i个元素值;Yi是指转换后的行为向量中的第i个元素值。当历史交互行为向量中的元素值Xi大于0时,可以该元素值转换为1,并作为行为向量中的第i个元素值Yi,从而使得转换后的行为向量中每个元素值为1或者0。
基于第一行为向量和第二行为向量,可以确定出第一行为向量和第二行为向量中同一位元素值均为1的第一元素位数量、第一行为向量中元素值为1的第二元素位数量、以及第二行为向量中元素值为1的第三元素位数量,根据第一元素位数量、第二元素位数量和第三元素位数量确定出第一历史用户与第二历史用户之间的第二相似度。例如,可以基于如下公式确定第二相似度:
例如,当第一预设物品类目数量和第二预设物品类目数量均大于零时,可以通过如下公式确定出该预设标签对应的第一相似度:
其中,res2表示第二相似度;res1表示第一相似度;sac表示第一预设物品类目数量;sbc表示第二预设物品类目数量。
当确定出每个预设标签下对应的第一相似度时,可以根据各个第一相似度确定出第一历史用户与第二历史用户之间的目标相似度。例如,可以先对每个第一相似度进行数据转换,以保证目标相似度最大值为1,便于进行比较。例如,可以通过如下转换函数h(x)对各个第一相似度进行数据转换:
根据转换后的第一相似度可以进行加权叠加,并将1与加权叠加后的计算结果相减,获得的数值可以确定为第一历史用户与第二历史用户之间的目标相似度。例如,对于性别属性而言,可以基于如下公式确定出第一历史用户与第二历史用户之间的目标相似度:
需要说明的是,本实施例利用上述方式确定出的目标相似度进行聚类时,可以避免数据严重倾斜的情况,比如在聚类数为K时,最大簇的数据占比达到80%以上,剩余的K-1簇的数据不足20%的情况,从而本实施例可以保证数据聚类均衡,提高聚类的准确性。
示例性地,若将每簇中的所有历史用户对应的历史交互行为数据的均值作为该簇的聚类中心点,则会导致簇中心点为一个双精度浮点型double类型的数值,大大增加了计算处理量。本实施例在对每个历史交互行为向量进行转换后,可以获得相应的行为向量,即元素值为0或者1,从而本实施例获得的簇中心点可以为一个稠密向量denseVector,由于该稠密向量中的每个维度均需要计算,从而也会影响计算效率,针对于此,本实施例可以将簇中心点对应的稠密向量中的小于预设值的元素值均更新为0,以避免每个维度均进行计算,从而可以提供计算效率。其中,稠密向量中第i列对应的预设值可以是指该簇中每个历史交互行为向量中的第i列的元素值的0.618倍后的均值。
示例性地,根据每个历史用户集合包含的当前获得的第一用户对应的第一标签信息,从历史用户中重新确定出第二用户,可以包括:根据每个历史用户集合包含的当前获得的第一用户对应的第一标签信息,确定在每个历史用户集合中,每个预设标签对应的目标第一用户数量;根据各目标第一用户数量,从各历史用户集合中确定满足预设转化条件的目标历史用户集合;将每个目标历史用户集合中的每个历史用户均确定为第二用户,并根据目标历史用户集合中的第一用户对应的第一标签信息,确定目标历史用户集合中的第二用户对应的第二标签信息。
其中,第二用户可以是指从历史用户中重新筛选出的样本用户,其可能是第一用户,也可能不是第一用户。预设转化条件可以是指将不是第一用户的历史用户转化为第二用户的条件。例如,预设转换条件可以是指在历史用户集合中仅包含一种预设标签对应的第一用户,并且该时种预设标签对应的第一用户数量的占比值大于预设占比值,可以将该历史用户集合中的每个历史用户均确定为第二用户,并且每个第二用户对应的第二标签信息确定为该预设标签。
具体地,由于已确定出部分历史用户为第一用户,从而在聚类获得各个历史用户集合中会包含有当前获得的第一用户,从而对于每个历史用户集合而言,可以确定该历史用户集合中包含的每个预设标签对应的目标第一用户数量。例如,历史用户集合包含100个历史用户,该集合中包含的第一用户是:90个女性用户,不包含男性用户,此时表明剩余的10个用户是之前未确定出的第一用户。或者,历史用户集合包含200个历史用户,该集合中包含的第一用户是:80个女性用户和70个男性用户。例如,在聚类数量为10簇时,获得的每簇对应的每个历史用户集合如表1所示。
表1每簇对应的每个历史用户集合
簇别/Label | 女性 | 男性 | 中性 | 总计 |
0 | 5054967 | 37385877 | 42440844 | |
1 | 113478309 | 16913842 | 130392151 | |
2 | 382528 | 148237048 | 148619576 | |
3 | 13012888 | 2554560 | 15436759 | 31004207 |
4 | 102309769 | 102160 | 102411929 | |
5 | 37743772 | 37743772 | ||
6 | 66125 | 38001098 | 38067223 | |
7 | 22537854 | 97150 | 22635004 | |
8 | 1192876 | 28 | 1192904 | |
9 | 507036 | 8945626 | 9452662 | |
总计 | 126491197 | 134605715 | 302863360 | 563960272 |
基于上述历史用户集合,可以看出:簇别1、簇别4、簇别7和簇别8均满足上述的预设转换条件,此时可以将簇别1对应的130392151个历史用户确定为女性用户,并作为样本用户;将簇别4对应的102411929个历史用户、簇别7对应的22635004个历史用户和簇别8对应的1192904个历史用户均确定为男性性用户,并作为样本用户,从而利用聚类方式对训练样本进行了再次更新,进一步提高了训练样本确定的准确性,进而也进一步提高了用户标签确定的准确性。
以下是本发明实施例提供的用户标签信息确定装置的实施例,该装置与上述各实施例的用户标签信息确定方法属于同一个发明构思,在用户标签信息确定装置的实施例中未详尽描述的细节内容,可以参考上述用户标签信息确定方法的实施例。
实施例三
图4为本发明实施例三提供的一种用户标签信息确定装置的结构示意图,本实施例可适用于确定用户的标签信息,以构建出用户画像的情况,该装置具体可以包括:目标交互行为数据获取模块310、目标分类结果确定模块320和目标标签信息确定模块330。
其中,目标交互行为数据获取模块310,用于获取目标用户的目标交互行为数据;目标分类结果确定模块320,用于根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果;目标标签信息确定模块330,用于根据目标分类结果确定目标用户的目标标签信息;其中,预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,标准标签信息是基于样本交互行为数据确定的。
可选地,目标分类结果确定模块320,包括:
目标交互行为数据处理单元,用于对目标交互行为数据进行全量数据处理,确定目标交互行为数据对应的目标交互行为向量;
目标分类结果确定单元,用于将目标交互行为向量输入至预设分类模型中,根据预设分类模型的输出,确定目标用户对应的目标分类结果。
可选地,目标交互行为数据处理单元,具体用于:根据数据透视函数每次运行的最大预设物品类目数和目标交互行为数据对应的预设物品类目总数,对目标交互行为数据进行分块透视处理,确定各个第一数据块;根据每次数据拼接时的最大数据块数和第一数据块的数量,对各个第一数据块进行数据拼接,确定每次数据拼接后获得的第二数据块;对每个第二数据块进行向量化和归一化,确定相应的第二数据块向量;对各个第二数据块向量进行数据拼接,确定目标交互行为向量。
可选地,目标标签信息确定模块330,具体用于:根据目标分类结果,获得目标用户在每个预设标签对应的预测概率;基于各个预测概率,对各个预设标签进行降序排列,确定预设标签序列;根据预设标签序列中的前预设数量的预设标签,确定目标用户的目标标签信息。
可选地,该装置还包括:预设分类模型训练模型,包括:
样本数据确定单元,用于确定样本数据,样本数据包括样本用户对应的样本交互行为数据和标准标签信息;
预设分类模型训练单元,用于根据样本交互行为数据和标准标签信息,以预设分类模型中的各个单标签模型输出的标签结果的排列顺序,与标准标签信息中的各个标准标签的排列顺序一致,为训练目标对各个单标签模型进行训练;
其中,预设分类模型中的每个单标签模型与用户属性下的每个预设标签均一一对应,每个单标签模型用于输出预测标签是所对应的预设标签的预测概率。
可选地,样本数据确定单元,包括:
第一用户确定子单元,用于根据各个预设物品类目中的目标预设物品类目和每个历史用户对应的历史交互行为数据,从各历史用户中确定出满足预设标注条件的第一用户以及第一用户的第一标签信息;
特征权重值确定子单元,用于根据第一用户对应的第一交互行为数据和第一标签信息,对预设线性回归模型进行训练,确定出训练后的预设线性回归模型中的各个预设物品类目对应的特征权重值;
第一用户更新子单元,用于基于各个特征权重值,对目标预设物品类目进行更新,并基于更新后的目标预设物品类目,对第一用户进行更新;
样本数据确定子单元,用于当满足预设更新停止条件时,根据当前获得的第一用户对应的第一交互行为数据和第一标签信息确定样本数据。
可选地,样本数据确定子单元,具体用于:根据每个历史用户对应的历史交互行为数据确定两两用户之间的目标相似度;根据目标相似度,对各历史用户进行聚类,确定每簇对应的历史用户集合;根据每个历史用户集合包含的当前获得的第一用户对应的第一标签信息,从历史用户中重新确定出第二用户,并根据第二用户对应的第二交互行为数量和对应的第二标签信息确定样本数据。
可选地,样本数据确定子单元,还具体用于:根据每个历史用户集合包含的当前获得的第一用户对应的第一标签信息,确定在每个历史用户集合中,每个预设标签对应的目标第一用户数量;根据各目标第一用户数量,从各历史用户集合中确定满足预设转化条件的目标历史用户集合;将每个目标历史用户集合中的每个历史用户均确定为第二用户,并根据目标历史用户集合中的第一用户对应的第一标签信息,确定目标历史用户集合中的第二用户对应的第二标签信息。
可选地,预设分类模型训练单元,具体用于:根据标准标签信息中的各个标准标签的排列顺序,确定由标准标签信息中的两个标准标签组成的各个有序数对;将样本交互行为数据对应的样本交互行为向量均输入至每个有序数对所对应的两个单标签模型中,并以两个单标签模型输出的标签结果的排列顺序与相应的有序数对的排列顺序一致为训练目标进行模型训练。
可选地,用户属性包括性别属性或者年龄属性;每个单标签模型为预设因子分解机FM模型。
本发明实施例所提供的用户标签信息确定装置可执行本发明任意实施例所提供的用户标签信息确定方法,具备执行用户标签信息确定方法相应的功能模块和有益效果。
值得注意的是,上述用户标签信息确定装置的实施例中,所包括的各模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图5为本发明实施例四提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种用户标签信息确定方法步骤,该方法包括:
获取目标用户的目标交互行为数据;
根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果;
根据目标分类结果确定目标用户的目标标签信息;
其中,预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,标准标签信息是基于样本交互行为数据确定的。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的保留库存量的确定方法的技术方案。
实施例五
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的用户标签信息确定方法步骤,该方法包括:
获取目标用户的目标交互行为数据;
根据预设分类模型和目标交互行为数据,确定目标用户对应的目标分类结果;
根据目标分类结果确定目标用户的目标标签信息;
其中,预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,标准标签信息是基于样本交互行为数据确定的。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (13)
1.一种用户标签信息确定方法,其特征在于,包括:
获取目标用户的目标交互行为数据;
根据预设分类模型和所述目标交互行为数据,确定所述目标用户对应的目标分类结果;
根据所述目标分类结果确定所述目标用户的目标标签信息;
其中,所述预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,所述标准标签信息是基于所述样本交互行为数据确定的。
2.根据权利要求1所述的方法,其特征在于,根据预设分类模型和所述目标交互行为数据,确定所述目标用户对应的目标分类结果,包括:
对所述目标交互行为数据进行全量数据处理,确定所述目标交互行为数据对应的目标交互行为向量;
将所述目标交互行为向量输入至预设分类模型中,根据所述预设分类模型的输出,确定所述目标用户对应的目标分类结果。
3.根据权利要求2所述的方法,其特征在于,对所述目标交互行为数据进行全量数据处理,确定所述目标交互行为数据对应的目标交互行为向量,包括:
根据数据透视函数每次运行的最大预设物品类目数和所述目标交互行为数据对应的预设物品类目总数,对所述目标交互行为数据进行分块透视处理,确定各个第一数据块;
根据每次数据拼接时的最大数据块数和所述第一数据块的数量,对各个所述第一数据块进行数据拼接,确定每次数据拼接后获得的第二数据块;
对每个所述第二数据块进行向量化和归一化,确定相应的第二数据块向量;
对各个所述第二数据块向量进行数据拼接,确定目标交互行为向量。
4.根据权利要求1所述的方法,其特征在于,根据所述目标分类结果确定所述目标用户的目标标签信息,包括:
根据所述目标分类结果,获得所述目标用户在每个预设标签对应的预测概率;
基于各个所述预测概率,对各个所述预设标签进行降序排列,确定预设标签序列;
根据所述预设标签序列中的前预设数量的预设标签,确定所述目标用户的目标标签信息。
5.根据权利要求1-4任一所述的方法,其特征在于,所述预设分类模型的训练过程包括:
确定样本数据,所述样本数据包括样本用户对应的样本交互行为数据和标准标签信息;
根据所述样本交互行为数据和所述标准标签信息,以所述预设分类模型中的各个单标签模型输出的标签结果的排列顺序,与所述标准标签信息中的各个标准标签的排列顺序一致,为训练目标对所述各个单标签模型进行训练;
其中,所述预设分类模型中的每个所述单标签模型与用户属性下的每个预设标签一一对应,每个所述单标签模型用于输出预测标签是所对应的预设标签的预测概率。
6.根据权利要求5所述的方法,其特征在于,确定样本数据,包括:
根据各个预设物品类目中的目标预设物品类目和每个历史用户对应的历史交互行为数据,从各所述历史用户中确定出满足预设标注条件的第一用户以及所述第一用户的第一标签信息;
根据所述第一用户对应的第一交互行为数据和所述第一标签信息,对预设线性回归模型进行训练,确定出训练后的预设线性回归模型中的各个预设物品类目对应的特征权重值;
基于各个所述特征权重值,对所述目标预设物品类目进行更新,并基于更新后的目标预设物品类目,对所述第一用户进行更新;
当满足预设更新停止条件时,根据当前获得的第一用户对应的第一交互行为数据和第一标签信息确定样本数据。
7.根据权利要求6所述的方法,其特征在于,根据当前获得的第一用户对应的第一交互行为数据和第一标签信息确定样本数据,包括:
根据每个历史用户对应的历史交互行为数据确定两两用户之间的目标相似度;
根据所述目标相似度,对各所述历史用户进行聚类,确定每簇对应的历史用户集合;
根据每个所述历史用户集合包含的当前获得的第一用户对应的第一标签信息,从历史用户中重新确定出第二用户,并根据第二用户对应的第二交互行为数量和对应的第二标签信息确定样本数据。
8.根据权利要求7所述的方法,其特征在于,根据每个所述历史用户集合包含的当前获得的第一用户对应的第一标签信息,从历史用户中重新确定出第二用户,包括:
根据每个所述历史用户集合包含的当前获得的第一用户对应的第一标签信息,确定在每个所述历史用户集合中,每个预设标签对应的目标第一用户数量;
根据各所述目标第一用户数量,从各所述历史用户集合中确定满足预设转化条件的目标历史用户集合;
将每个所述目标历史用户集合中的每个历史用户均确定为第二用户,并根据所述目标历史用户集合中的第一用户对应的第一标签信息,确定所述目标历史用户集合中的第二用户对应的第二标签信息。
9.根据权利要求5所述的方法,其特征在于,根据所述样本交互行为数据和所述标准标签信息,以所述预设分类模型中的各个单标签模型输出的标签结果的排列顺序,与所述标准标签信息中的各个标准标签的排列顺序一致,为训练目标对所述各个单标签模型进行训练,包括:
根据所述标准标签信息中的各个标准标签的排列顺序,确定由所述标准标签信息中的两个标准标签组成的各个有序数对;
将所述样本交互行为数据对应的样本交互行为向量均输入至每个所述有序数对所对应的两个所述单标签模型中,并以所述两个单标签模型输出的标签结果的排列顺序与相应的所述有序数对的排列顺序一致为训练目标进行模型训练。
10.根据权利要求5所述的方法,其特征在于,所述用户属性包括性别属性或者年龄属性;每个所述单标签模型为预设因子分解机FM模型。
11.一种用户标签信息确定装置,其特征在于,包括:
目标交互行为数据获取模块,用于获取目标用户的目标交互行为数据;
目标分类结果确定模块,用于根据预设分类模型和所述目标交互行为数据,确定所述目标用户对应的目标分类结果;
目标标签信息确定模块,用于根据所述目标分类结果确定所述目标用户的目标标签信息;
其中,所述预设分类模型是预先根据样本用户对应的样本交互行为数据和标准标签信息进行训练获得的,所述标准标签信息是基于所述样本交互行为数据确定的。
12.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的用户标签信息确定方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的用户标签信息确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202617.7A CN113496236B (zh) | 2020-03-20 | 2020-03-20 | 用户标签信息确定方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202617.7A CN113496236B (zh) | 2020-03-20 | 2020-03-20 | 用户标签信息确定方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496236A true CN113496236A (zh) | 2021-10-12 |
CN113496236B CN113496236B (zh) | 2024-05-24 |
Family
ID=77993774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010202617.7A Active CN113496236B (zh) | 2020-03-20 | 2020-03-20 | 用户标签信息确定方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496236B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250828A (zh) * | 2016-07-22 | 2016-12-21 | 中山大学 | 一种基于改进的lbp算子的人群计数方法 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
US20180053097A1 (en) * | 2016-08-16 | 2018-02-22 | Yahoo Holdings, Inc. | Method and system for multi-label prediction |
CN108416003A (zh) * | 2018-02-27 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 一种图片分类方法和装置、终端、存储介质 |
CN109376419A (zh) * | 2018-10-16 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 一种数据建模的方法、装置、电子设备及可读介质 |
WO2019157928A1 (zh) * | 2018-02-13 | 2019-08-22 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN110825969A (zh) * | 2019-11-07 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
-
2020
- 2020-03-20 CN CN202010202617.7A patent/CN113496236B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN106250828A (zh) * | 2016-07-22 | 2016-12-21 | 中山大学 | 一种基于改进的lbp算子的人群计数方法 |
US20180053097A1 (en) * | 2016-08-16 | 2018-02-22 | Yahoo Holdings, Inc. | Method and system for multi-label prediction |
WO2019157928A1 (zh) * | 2018-02-13 | 2019-08-22 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108416003A (zh) * | 2018-02-27 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 一种图片分类方法和装置、终端、存储介质 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN109376419A (zh) * | 2018-10-16 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 一种数据建模的方法、装置、电子设备及可读介质 |
CN110825969A (zh) * | 2019-11-07 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
Non-Patent Citations (2)
Title |
---|
李恒超;林鸿飞;杨亮;徐博;魏晓聪;张绍武;古丽孜热・艾尼外;: "一种用于构建用户画像的二级融合算法框架", 计算机科学, no. 01, 15 January 2018 (2018-01-15) * |
潘博;张青川;于重重;谢小兰;: "FM集成模型在广告点击率预估中的应用", 计算机应用与软件, no. 01, 15 January 2018 (2018-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113496236B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182412B (zh) | 用于推荐体检项目的方法、计算设备和计算机存储介质 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
CN111523976A (zh) | 商品推荐方法、装置、电子设备及存储介质 | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN107480187A (zh) | 基于聚类分析的用户价值分类方法和装置 | |
CN107220217A (zh) | 基于逻辑回归的特征系数训练方法和装置 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN112488863B (zh) | 一种在用户冷启动场景下的险种推荐方法及相关设备 | |
CN112070577A (zh) | 一种商品推荐方法、系统、设备及介质 | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN115033801B (zh) | 物品推荐方法、模型训练方法及电子设备 | |
CN111695024A (zh) | 对象评估值的预测方法及系统、推荐方法及系统 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN109146606B (zh) | 一种品牌推荐方法、电子设备、存储介质及系统 | |
CN113780479A (zh) | 周期预测模型的训练方法及装置、周期预测方法、设备 | |
US11803889B2 (en) | Systems and methods for determining price bands and user price affinity predictions using machine learning architectures and techniques | |
CN113763095A (zh) | 信息推荐方法、装置和模型训练方法、装置 | |
CN111325614A (zh) | 电子对象的推荐方法、装置和电子设备 | |
CN112789636A (zh) | 信息处理装置、信息处理方法和程序 | |
CN113837843B (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN111325372A (zh) | 预测模型的建立方法、预测方法、装置、介质及设备 | |
CN113496236B (zh) | 用户标签信息确定方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |