CN111225009B - 用于生成信息的方法和装置 - Google Patents
用于生成信息的方法和装置 Download PDFInfo
- Publication number
- CN111225009B CN111225009B CN201811423395.0A CN201811423395A CN111225009B CN 111225009 B CN111225009 B CN 111225009B CN 201811423395 A CN201811423395 A CN 201811423395A CN 111225009 B CN111225009 B CN 111225009B
- Authority
- CN
- China
- Prior art keywords
- user
- information
- article
- category
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 174
- 238000013145 classification model Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims description 87
- 238000002372 labelling Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 230000035935 pregnancy Effects 0.000 description 17
- 230000008774 maternal effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000000843 powder Substances 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101100450138 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) hat-2 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229940069978 calcium supplement Drugs 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 235000013350 formula milk Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 229920000728 polyester Polymers 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取目标用户的用户信息,其中,用户信息包括用户属性信息和物品获取信息,物品获取信息包括已获取物品的物品信息和获取时间;基于该用户属性信息和该物品获取信息,生成用户特征向量;将该用户特征向量输入至预先训练的用户分类模型,得到该目标用户所属的用户类别,其中,用户分类模型用于表征用户特征向量与用户类别之间的对应关系。该实施方式实现了根据用户的相关信息对用户进行分类,得到用户所属的用户类别。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
随着互联网技术的发展,从与用户相关的信息中分析出用户所需求的物品信息变得愈来愈重要。相关的方式通常是根据用户信息对用户进行分类,根据同属于相同类别的用户的需求来预测用户的需求。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取目标用户的用户信息,其中,用户信息包括用户属性信息和物品获取信息,物品获取信息包括已获取物品的物品信息和获取时间;基于上述用户属性信息和物品获取信息,生成用户特征向量;将上述用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别,其中,用户分类模型用于表征用户特征向量与用户类别之间的对应关系。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取目标用户的用户信息,其中,用户信息包括用户属性信息和物品获取信息,物品获取信息包括已获取物品的物品信息和获取时间;生成单元,被配置成基于上述用户属性信息和物品获取信息,生成用户特征向量;识别单元,被配置成将上述用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别,其中,用户分类模型用于表征用户特征向量与用户类别之间的对应关系。
第三方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于生成信息的方法和装置,首先,获取目标用户的用户信息。然后,基于上述用户信息所包括的用户属性信息和物品获取信息,生成用户特征向量。接下来,将所生成的用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别。从而可以通过目标用户的用户属性信息和物品获取信息,得到目标用户所属的用户类别,与人工确定用户类别相比,减少了成本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于生成信息的方法的一个实施例的流程图;
图3是根据本申请实施例的用于生成信息的方法的一个应用场景的示意图;
图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图5是根据本申请的用于生成信息的方法应用于母婴人群年龄阶段挖掘的一个实施例的流程图;
图6是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上显示的网页提供支持的后台服务器。后台服务器可以对目标用户的用户信息进行分析,并生成处理结果,以得到目标用户所属的用户类别。可选地,后台服务器还可以根据所得到的目标用户所属的类别,向终端设备推送与上述所属类别相关联的信息。
需要说明的是,上述目标用户的用户信息也可以直接存储在服务器105的本地,服务器105可以直接提取本地所存储的用户信息并进行处理,此时,可以不存在终端设备101、102、103和网络104。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于生成信息的方法一般由服务器105执行,相应地,用于生成信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法包括以下步骤:
步骤201,获取目标用户的用户信息。
在本实施例中,用户信息可以包括用户属性信息和物品获取信息。用户属性信息可以用于表征用户的基本信息。其可以包括但不限于以下至少一项:用户名、所在地区、年龄、性别、会员级别、婚姻状况。用户信息还可以包括但不限于以下至少一项:用户的网络收藏夹中的物品信息,收藏夹中的物品的添加时间,用户的购物车中的物品信息,购物车中的物品的添加时间。
物品获取信息可以包括已获取物品的物品信息和获取时间。其中,物品可以包括有形的物品,也可以包括无形的物品。有形的物品可以包括实物性的产品,例如可以是奶粉、婴儿车。无形的物品可以包括但不限于所提供的服务、虚拟物品,例如可以是家政服务、网络流量、电子书等。用户可以通过购买、转让、赠送等方式获取上述物品。已获取物品的物品信息可以包括但不限于物品的名称、适合人群、使用方法等。已获取物品的获取时间可以是多种形式。作为示例,获取时间可以是具体的日期和时间。作为又一示例,获取时间也可以是获取时间相对于当前时间的时间差,例如可以是“1个月内”、“1年内”。
在本实施例中,上述目标用户可以是根据实际的应用需求,预先指定的任意用户。上述目标用户也可以是根据规则而定的用户,例如用户信息所包括的已获取物品属于预设的物品类别的用户。
在本实施例中,用于生成信息的方法的执行主体(如图1所示的服务器105)可以通过各种方式获取目标用户的用户信息。具体地,上述执行主体可以获取预先存储于本地的目标用户的用户信息,也可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的目标用户的用户信息。作为又一示例,上述执行主体还可以从与之通信连接的数据库服务器获取目标用户的用户信息。
在本实施例的一些可选的实现方式中,用户属性信息可以包括用户属性和属性值。用户属性可以包括但不限于以下至少一项:年龄、性别、会员级别、婚姻状况。相应地,属性值可以是用户属性所对应的具体取值。需要说明的是,属性值可以是多种形式,例如字母、数字、汉字等。作为示例,性别的属性值可以是“男”,也可以是用“1”来表示“男”。作为又一示例,年龄的属性值可以是“20岁”,也可以是对应的年龄段,例如“19-25岁”。
在本实施例的一些可选的实现方式中,物品信息还可以包括物品所属的物品类别,例如母婴用品、数码电子、衣帽服饰等。物品类别还可以是在上述类别中根据时间阶段划分的子类别,例如母婴用品类别中还可以包括但不限于以下至少一项:怀孕阶段、0-3个月婴儿阶段、3-6个月婴儿阶段、6-12个月婴儿阶段、12-24个月婴儿阶段。
步骤202,基于用户属性信息和物品获取信息,生成用户特征向量。
在本实施例中,上述执行主体可以基于步骤201所获取的用户属性信息和物品获取信息,通过各种方式生成用户特征向量。其中,上述用户特征向量可以包括表征上述目标用户的用户属性信息和物品获取信息的各种信息。上述执行主体可以将所获取的用户属性信息和物品获取信息转换成数字形式。然后,再将数字形式的信息组合成用户特征向量。需要说明的是,上述执行主体也可以利用现有的文本词向量转换方法将所获取的用户属性信息和物品获取信息转换为向量形式,从而生成用户特征向量。其中,文本词向量转换方法可以包括但不限于one-hot编码(一位有效编码)和TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本频率指数)算法。
作为示例,用户属性信息例如可以是“20岁,男,未婚”。物品获取信息例如可以是“手机,2017.12.10”、“帽子,2018.5.5”。上述将所获取的用户属性信息和物品获取信息转换成数字形式的转换方式例如可以是根据预先设置的信息对应关系表。其中,信息对应关系表可以用于表征用户属性信息和物品获取信息与数字的对应关系。信息对应关系表中的内容例如可以包括:20岁-2,30岁-3;男-1,女-0;未婚-1,已婚-0;手机-1,帽子-2,门票-3。在购买时间的转换方式上,可以预先设置对应的转换规则。例如:购买时间距当前时间的间隔不超过1个月,转换为“1”;购买时间距当前时间的间隔为1~3个月,转换为“2”;购买时间距当前时间的间隔为3~12个月,转换为“3”等等。假定当前时间为2018.6.8,按照上述转换规则,将“2017.12.10”转换为“3”;将“2018.5.5”转换为“2”。上述执行主体可以根据上述信息对应关系表和购买时间的转换规则,将用户属性信息和物品获取信息转换成数字形式。上述用户属性信息可以是“2,1,1”。上述物品获取信息可以是“1,3”、“2,2”。然后,上述执行主体可以将数字形式的信息组合成用户特征向量。用户特征向量例如可以是[2,1,1,1,3,2,2]。
在本实施例的一些可选的实现方式中,上述执行主体还可以基于用户属性信息和物品获取信息,通过如下步骤生成用户特征向量:
第一步,从用户属性信息中提取与用户属性对应的属性值,生成用户属性特征向量。
上述执行主体可以从步骤201所获取的用户属性信息中提取属性值,将所提取的属性值按照预定的属性值转换规则转换为数字形式,进而生成用户属性特征向量。实践中,预定的属性值转换规则可以是预先设置的对应关系表。作为示例,属性可以是用户年龄;属性值可以是年龄对应的数值;转换规则可以是将“15-18岁”转换为“1”;将“19-25岁”转换为“2”。作为又一示例,属性可以是会员级别;属性值可以是“初级”、“高级”、“VIP(veryimportant people,贵宾)”;转换规则可以是将“初级”转换为“1”;将“高级”转换为“2”;将“VIP”转换为“3”。
第二步,从物品获取信息中提取物品所属的物品类别,生成物品类别特征向量。
此处,用户信息可以包括多个物品获取信息。上述执行主体可以从用户信息中提取至少一个物品获取信息,对于所提取的至少一个物品获取信息,从该物品获取信息中提取物品所属的物品类别。需要说明的是,上述执行主体可以将用户信息所包括的所有物品获取信息全部提取,也可以按照预设的规则只提取其中一部分。然后,上述执行主体可以通过预设的物品类别与数字的对应关系,将物品所属的物品类别转换为数字形式。之后,上述执行主体可以将数字形式的物品类别组成物品类别特征向量。需要说明的是,实践中,对于多个物品属于同一物品类别的情况,上述执行主体也可以将物品类别进行合并。
作为示例,用户信息中包括3个物品获取信息。其中,3个物品获取信息所包括的已获取物品的物品信息例如可以是“怀孕阶段”、“0-3个月婴儿阶段”、“0-3个月婴儿阶段”。上述执行主体可以按照预设的物品类别与数字的对应关系确定“怀孕阶段”对应“0”、“0-3个月婴儿阶段”对应“1”。之后,上述执行主体可以生成物品类别特征向量[0,1,1]。根据实际应用场景的不同,上述执行主体也可以生成物品类别特征向量[0,1]。
第三步,从物品获取信息中提取已获取物品的获取时间,生成物品获取时间特征向量。
上述执行主体可以根据在上述第二步中所提取的已获取物品的物品信息,从用户信息所包括的至少一个物品获取信息中提取与已获取物品的物品信息对应的已获取物品的获取时间。具体地,对于所提取的至少一个已获取物品的物品信息,从至少一个物品获取信息中提取与已获取物品的物品信息对应的已获取物品的获取时间。进一步地,上述执行主体可以确定属于预设的物品类别的已获取物品的获取时间之间的时间关系。
作为示例,物品获取信息可以是“怀孕阶段,2017.10.3”、“0-3个月婴儿阶段,2018.5.10”、“0-3个月婴儿阶段,2018.6.10”。上述执行主体可以提取“怀孕阶段,0-3个月婴儿阶段”作为已获取物品的物品信息。接下来,上述执行主体可以提取与已获取物品的物品信息对应的“2017.10.3,2018.5.10,2018.6.10”作为已获取物品的获取时间。假定预设的物品类别为“0-3个月婴儿阶段”。作为示例,上述已获取物品的获取时间之间的时间关系可以是最后次获取属于“0-3个月婴儿阶段”的物品与第一次获取属于“0-3个月婴儿阶段”的物品的时间差,也可以是当前时间与第一次获取属于“0-3个月婴儿阶段”的物品的时间差,还可以是当前时间与最后次获取属于“0-3个月婴儿阶段”的物品的时间差。
值得注意的是,实践中,不同的已获取物品的获取(例如,购买商品)时间,可以在一定程度上反映出用户的活跃程度。可选地,上述执行主体还可以通过所提取的已获取物品的获取时间,确定获取时间特征。其中,获取时间特征用于表征当前时间和未来一段时间可能再次获取物品的可能性。获取时间特征可以用公式来表示。作为示例,获取时间特征可以通过如下得到:已获取物品的获取时间距离当前的时间间隔小于1年的个数乘以1,时间间隔在1-2年的个数乘以0.8,时间间隔在2-3年的个数乘以0.5,再将此前得到的结果相加。作为又一示例,获取时间特征可以是其中,f用于表征获取时间特征;m用于表征所提取的物品获取信息的总数;λ用于表征衰减因子,可以取值为T用于表征预先设定的时间戳,可以取值为2015年12月31日;t用于表征已获取物品的获取时间;i用于表征从物品获取信息中选取已获取物品的获取时间的次序;ti用于表征所提取的物品获取信息中第i个已获取物品的获取时间。
接下来,上述执行主体可以将所确定的属于预设的物品类别的已获取物品的获取时间之间的时间关系和获取时间特征组合成物品获取时间特征向量。
第四步,对用户属性特征向量、物品类别特征向量、物品获取时间特征向量进行归一化处理,生成用户特征向量。
上述执行主体可以将上述第一至三步所生成的特征向量进行归一化处理,生成用户特征向量。上述对特征向量进行归一化处理的方法可以包括但不限于离差标准化(min-max标准化)、Z-score标准化、Sigmoid函数等方法。需要说明的是,上述特征归一化处理的方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤203,将用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别。
在本实施例中,上述执行主体可以将通过步骤202生成的用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别。其中,用户分类模型可以用于表征用户特征向量与用户类别之间的对应关系。用户类别可以根据实际需要来设定。用户类别可以是各种形式的信息,比如:数字、字母、符号等等。作为示例,在母婴人群分类的情境下,用户类别可以是“怀孕阶段”、“0-3个月婴儿阶段”、“3-6个月婴儿阶段”等。也可以将上述类别表示为预先设定的标签,例如是“L0”、“L1”、“L2”等。
需要说明的是,作为示例,用户分类模型可以是技术人员基于对大量的用户特征向量和用户类别的统计而预先制定的、存储有多个用户特征向量与用户类别的对应关系的对应关系表。也可以是技术人员基于对大量数据的统计而预先设置的规则。上述规则例如可以是:在预设的时间间隔而获取属于预设物品类别的物品的次数超过分类阈值,则将用户类别确定为与上述预设物品类别对应的用户类别。作为示例,预设的时间间隔可以是2个月。预设的物品类别可以是“手机”。分类阈值可以是2次。那么,与预设的物品类别对应的用户类别可以是“手机达人”。
在本实施例的一些可选的实现方式中,用户分类模型还可以通过机器学习方法训练得到,具体的训练步骤如步骤401-402所示。
在本实施例的一些可选的实现方式中,上述执行主体还可以根据目标用户所属的用户类别,向上述目标用户推送与其所属类别相匹配的物品信息。作为示例,上述执行主体可以根据属于“0-3个月婴儿阶段”用户类别的目标用户,向上述目标用户推送适用人群为“0-3个月婴儿阶段”的物品信息,例如“0-3个月婴儿奶粉”介绍信息的页面。
继续参见图3,图3是根据本申请实施例的用于生成信息的方法的应用场景的一个示意图300。在图3的应用场景中,用户301通过终端设备302登录某购物网站的账号。账号中包括用户301的用户信息304。用户信息304包括用户属性信息和物品获取信息。用户属性信息包括性别和婚姻状况。物品获取信息包括已购买的物品的名称和购买时间。后台服务器303首先获取目标用户301的用户信息304。目标用户301的用户信息304例如可以是“男未婚手机2017.12.10手机2018.1.5”。然后,后台服务器303可以按照如步骤202中所描述的预先设置的信息对应关系表,基于用户属性信息和物品获取信息,生成用户特征向量305。其中,“男”可以对应“1”;“未婚”可以对应“1”;“手机”可以对应“1”。所生成的用户特征向量305例如可以是[1,1,1,2017.12.10,2018.1.5]。接下来,后台服务器303可以将所生成的用户特征向量305输入至预先训练的用户分类模型,得到目标用户所属的用户类别306。其中,用户分类模型可以是如步骤203中所描述的预先设置的规则。后台服务器303可以根据两次获取手机的时间间隔为1个月,确定用户所属的用户类别为“手机达人”306。
本申请的上述实施例提供的方法,首先通过获取目标用户的用户信息。而后,可以基于用户信息中所包括的用户属性信息和物品获取信息,生成用户特征向量。接下来,将上述用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别。从而可以通过目标用户的用户属性信息和物品获取信息,得到目标用户所属的用户类别,减少了人工确定的成本。
进一步参考图4,其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400,包括以下步骤:
步骤401,获取训练样本集合。
在本实施例中,训练样本集合中的每个训练样本可以包括样本用户特征向量和样本用户所属的用户类别。作为示例,可以通过对历史数据进行如前述实施例中的步骤202的加工,得到用户特征向量。接下来,可以由技术人员对所得到的用户特征向量进行所属用户类别的信息标注。可选地,还可以通过问卷调查的方式,收集用户所填写的所属用户类别的信息。然后,将属于相同用户类别的用户特征向量和与之对应的用户类别进行关联存储,最终得到训练样本。通过大量的数据形成大量的训练样本,进而组成训练样本集合。
在本实施例中,用于训练用户分类模型的执行主体可以通过各种方式获得训练样本集合。作为示例,训练样本集合可以预先存储于本地,上述执行主体可以直接从本地获取。作为又一示例,可以通过与上述执行主体通信连接的、存储有训练样本集合的数据服务器获取训练样本集合。
在本实施例的一些可选的实现方式中,上述与样本用户特征向量对应的样本用户所属的用户类别可以通过如下步骤得到:
第一步,获取与样本用户特征向量对应的至少一个已获取物品的物品信息。
由于上述用户特征向量是基于用户属性信息和物品获取信息所生成的,因此物品获取信息可以与所生成的用户特征向量具有对应关系。由于物品获取信息包括已获取物品的物品信息,因此已获取物品的物品信息可以与所生成的用户特征向量具有对应关系。同理,样本用户特征向量可以与至少一个已获取物品的物品信息相对应。进一步地,用于确定样本用户所属的用户类别的执行主体可以通过各种方式获取与样本用户特征向量对应的至少一个已获取物品的物品信息。例如,可以根据前述实施例中的步骤202的用户特征向量的生成方式,从样本用户特征向量中提取与样本用户特征向量对应的至少一个已获取物品的物品信息。例如,可以直接获取与样本用户特征向量关联存储的已获取物品的物品信息。可以理解,由于用户特征向量可以有各种表示形式,与之对应的已获取物品的物品信息也可以有各种表示形式。
第二步,对于至少一个已获取物品的物品信息中的物品信息,基于该物品信息,生成物品特征向量;将所生成的物品特征向量输入至预设数目个、预先训练的物品分类模型,得到预设数目个类别标注信息;根据所得到的预设数目个类别标注信息,生成与该物品信息对应的类别标注信息。
上述物品信息可以包括适用人群等信息。对于至少一个已获取物品的物品信息中的物品信息,用于确定样本用户所属的用户类别的执行主体可以将该物品信息所包括的适用人群的信息作为物品特征向量的元素,从而生成物品特征向量。例如,物品信息可以是“适用人群:0-3个月婴儿”。生成的物品特征向量可以是[0-3个月婴儿]。
可选地,上述物品信息可以包括物品名称。用于确定样本用户所属的用户类别的执行主体可以首先从预设的物品知识图谱中提取与该物品信息所包括的物品名称对应的物品属性信息,然后将所提取的物品属性信息中的属性值转换为词向量,再根据转换所得到的词向量,生成物品特征向量。其中,物品知识图谱可以用于表征物品名称与物品属性信息之间的对应关系。本领域的技术人员可以理解,知识图谱是一种基于图的数据结构,由节点(Point)和边(Edge)组成。其中,每个节点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。在物品知识图谱中,“节点”可以表示物品名称与物品属性信息,“边”可以表示物品名称与物品属性之间的关系。技术人员可以根据已有的关于物品名称和物品属性信息的历史数据,预先构建物品知识图谱。物品属性信息可以包括物品属性和属性值。物品属性可以用于表征与物品相关的信息。其可以包括但不限于以下至少一项:适用人群属性、样式属性、功能属性、材质属性、风格属性、适用场景属性、味道属性等。
作为示例,对于奶粉,物品属性可以包括适用人群属性、功能属性、味道属性。与上述物品属性对应的属性值可以是0-3个月婴儿、补钙、微甜。作为又一示例,对于服装,物品属性可以包括适用人群属性、样式属性、功能属性、材质属性、风格属性、适用场景属性。与上述物品属性对应的属性值可以是20-29岁男性、宽松、排汗速干、聚酯纤维、简约、运动。可以理解,在预设的知识图谱中,每个物品名称可以与上述至少一个物品属性相对应。可选地,每个物品属性也可以与多个物品名称相对应。上述用于确定样本用户所属的用户类别的执行主体可以利用现有的各种词向量转换方法,将所提取的物品属性信息中的属性值转换为词向量。然后可以将所得到的词向量,组合成物品特征向量。
上述物品分类模型可以用于表征物品特征向量与类别标注信息之间的对应关系。物品分类模型可以是根据大量历史数据和经验所总结的对应关系表。其中,对应关系可以来自于预先设定的物品名称与物品类别关键词的匹配规则。物品分类模型也可以是通过机器学习方法预先训练的分类器。作为示例,物品分类模型可以通过以下训练步骤得到:
S1,获取训练样本集合。
用于训练物品分类模型的训练样本集合可以包括样本物品特征向量和样本类别标注信息。用于提取样本物品特征向量的执行主体可以通过如前述实施例中的步骤202从物品信息中提取样本物品特征向量,并由技术人员添加样本物品特征向量所对应的类别标注信息。然后,将样本物品特征向量和标注好的样本类别标注信息进行关联存储,得到训练样本集合。之后,用于训练物品分类模型的执行主体可以获取上述训练样本集合。
S2,获取初始物品分类模型。
上述执行主体可以获取初始物品分类模型。初始物品分类模型可以是现有的各种可以用于二分类的模型,例如可以是卷积神经网络、SVM(Support Vector Machine,支持向量机)等。
S3,将训练样本集合中的训练样本中的样本物品特征向量作为初始物品分类模型的输入,将与输入的样本物品特征向量对应的样本类别标注信息作为初始物品分类模型的期望输出,利用机器学习方法训练初始物品分类模型。
具体来说,可以首先利用预设的损失函数计算所得到类别标注信息与样本类别标注信息之间的差异。然后,可以基于计算所得的差异,调整初始物品分类模型的模型参数,并在满足预设的训练结束条件的情况下,结束训练。这里预设的训练结束条件可以包括但不限于以下至少一项:训练次数超过预设次数;训练时间超过预设时长;计算所得的差异小于预设差异阈值。
实践中,还可以对测试集中的分类结果进行统计,根据统计结果,确定分类阈值。
S4,将训练得到的初始物品分类模型确定为物品分类模型。
需要说明的是,上述用于训练物品分类模型的执行主体可以与上述用于确定样本用户所属的用户类别的执行主体相同或者不同。如果相同,上述用于训练物品分类模型的执行主体可以在训练完成后,将模型的结构信息和参数值存储在本地。如果不同,则上述用于训练物品分类模型的执行主体可以在训练完成后,将训练好的模型的结构信息和参数值发送至用于确定样本用户所属的用户类别的执行主体。
在实际的应用中,上述预设数目个物品分类模型的类别标注信息之间具有关联关系,例如可以是与时间相关联的类别标注信息。作为示例,5个物品分类模型可以分别用于确定物品是否属于“怀孕阶段”、“0-3个月婴儿”、“3-6个月婴儿”、“6-12个月婴儿”、“12-24个月婴儿”等类别的物品。相应地,类别标注信息可以是用于表征“属于怀孕阶段”、“不属于怀孕阶段”,“属于0-3个月婴儿”、“不属于0-3个月婴儿”等的信息。作为又一示例,3个物品分类模型可以分别用于确定物品是否属于“入门级摄影产品”、“中级摄影产品”、“高级摄影产品”。相应地,类别标注信息可以是用于表征“属于入门级摄影产品”、“不属于入门级摄影产品”。需要说明的是,类别标注信息可以是各种形式,例如字母、数字、汉字等等。
用于确定样本用户所属的用户类别的执行主体可以根据所得到的预设数目个类别标注信息,生成与该物品信息对应的类别标注信息。实践中,还可以根据应用场景不同,对类别标注信息设定优先级,来避免一个物品信息属于多种类别的情况。通常,人们在获取与时间相关的物品时,会提前获取下一阶段的物品。例如,在母婴用品这一应用场景下,设定优先级从低至高分别为“怀孕阶段”、“0-3个月婴儿”、“3-6个月婴儿”、“6-12个月婴儿”、“12-24个月婴儿”。当上述执行主体将物品特征向量输入至上述物品分类模型,得到“属于0-3个月婴儿”和“属于3-6个月婴儿”的类别标注信息。根据上述预先设定的优先级,可以确定与该物品信息对应的类别标注信息为“属于3-6个月婴儿”。
第三步,根据所生成的类别标注信息,确定与样本用户特征向量对应的样本用户所属的用户类别。
根据上述步骤,可以确定上述至少一个与已获取物品的物品信息对应的类别标注信息。上述执行主体可以根据预设的物品信息与用户所属的用户类别的对应关系,确定与样本用户特征向量对应的样本用户所属的用户类别。在一些应用场景中,与物品信息对应的类别标注信息可以与用户所属的用户类别一致。例如,物品信息对应的类别标注信息可以是“怀孕阶段”,用户所属的用户类别也可以是“怀孕阶段”。在另一些应用场景中,与物品信息对应的类别标注信息可以与用户所属的用户类别相关联。例如,物品信息对应的类别标注信息可以是“入门级摄影产品”,用户所属的用户类别也可以是“摄影新手”。
如果与样本用户特征向量对应的至少一个已获取物品的物品信息在上述第二步中所生成的类别标注信息均相同,则上述执行主体将与上述类别标注信息一致或相关联的用户类别确定为样本用户所属的用户类别。如果所生成的类别标注信息不同,则可以根据预设的用户类别优先级规则确定样本用户所属的用户类别。也可以根据各类别标注信息的数目,确定与数目最多的类别标注信息一致或相关联的用户类别为样本用户所属的用户类别。作为示例,与样本用户特征向量相对应物品类别标注信息为“怀孕阶段”、“0-3个月婴儿”和“0-3个月婴儿”。则上述执行主体可以根据优先级来确定“0-3个月婴儿”为样本用户所属的用户类别。上述执行主体也可以根据与数目最多的类别标注信息一致来确定“0-3个月婴儿”为样本用户所属的用户类别。需要说明的是,上述根据所生成的类别标注信息,确定样本用户所属的用户类别的规则可以根据实际应用场景由技术人员预先设定,在此不作限制。
需要说明的是,用于确定样本用户所属的用户类别的执行主体可以与用于训练用户分类模型的执行主体相同或者不同。如果相同,则上述用于确定样本用户所属的用户类别的执行主体可以在确定样本用户所属的用户类别后将形成的训练样本集合存储在本地。如果不同,则上述用于确定样本用户所属的用户类别的执行主体可以在确定样本用户所属的用户类别后将形成的训练样本集合发送给用于训练用户分类模型的执行主体。
步骤402,将训练样本集合中的训练样本的样本用户特征向量作为输入,将与输入的样本用户特征向量对应的样本用户所属的用户类别作为期望输出,训练得到用户分类模型。
在本实施例中,用户分类模型可以是CART(Classification and regressiontree,分类与回归树),也可以是SVM。作为示例,用于训练用户分类模型的执行主体可以通过以下步骤,训练得到用户分类模型:
第一步,获取初始用户分类模型。初始用户分类模型可以是各种分类器。例如,对应于用户分类模型为CART,初始用户分类模型可以是RF(Random forest,随机森林),Boosted Trees(提升树)等等。
第二步,利用机器学习的方法,将所获取的训练样本集合中的训练样本中的样本用户特征向量作为初始用户分类模型的输入,将与输入的样本用户特征向量对应的样本用户所属的用户类别作为期望输出,训练得到上述用户分类模型。
具体地,上述用于训练用户分类模型的执行主体可以将训练样本集合中的训练样本的样本用户特征向量输入至初始用户分类模型,得到该训练样本的用户所属的用户类别。然后,可以利用预设的损失函数计算所得到的用户所属的用户类别与该训练样本的样本用户所属的用户类别之间的差异程度。接下来,可以利用正则化项计算模型的复杂度。之后,基于计算所得的差异程度和模型的复杂度,调整初始用户分类模型的结构参数,并在满足预设的训练结束条件的情况下,结束训练。最后,将训练得到的初始用户分类模型确定为用户分类模型。
需要说明的是,上述损失函数可以采用对数损失函数,上述正则化项可以采用L2范数。上述预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;计算所得的差异程度小于预设的差异阈值。
还需要说明的是,基于所得到的用户所属的用户类别与该训练样本的样本用户所属的用户类别之间的差异程度,可以采用各种方式调整初始用户分类模型的结构参数。例如,可以采用XGBoost算法或者GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法来调整初始用户分类模型的结构参数。
步骤403,获取目标用户的用户信息。
步骤404,基于用户属性信息和物品获取信息,生成用户特征向量。
步骤405,将用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别。
上述步骤403、步骤404、步骤405分别与前述实施例中的步骤201、步骤202、步骤203一致,上文针对步骤201、步骤202和步骤203的描述也适用于步骤403、步骤404和步骤405,此处不再赘述。
需要说明的是,上述用于训练用户分类模型的步骤401-402的执行主体可以与用于生成信息的方法的执行主体相同或者不同。如果相同,则上述用于训练用户分类模型的执行主体可以在训练得到用户分类模型后将训练好的用户分类模型的结构信息和参数值存储在本地。如果不同,则上述用于训练用户分类模型的执行主体可以在训练得到用户分类模型后将训练好的用户分类模型的结构信息和参数值发送给用于生成信息的方法的执行主体。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成信息的方法的流程400细化了用户分类模型的训练样本生成步骤401和用户分类模型的训练步骤402。由此,本实施例描述的方案可以利用机器学习方法构建用户分类模型,并提供了利用预设的物品知识图谱确定训练样本中的样本用户所属的用户类别的方式。从而实现了根据用户信息自动地生成用户所属类别,并且丰富了训练样本的产生方式,节省了人力。
进一步参考图5,其示出了用于生成信息的方法应用于母婴人群年龄阶段挖掘的一个实施例的流程500。该用于生成信息的方法的流程500,包括以下步骤:
步骤501,制定母婴各年龄阶段的规则。
在实践中,母婴人生阶段,是一种典型的按照时间划分的用户画像维度,通常分为女性是否怀孕和婴儿的年龄阶段。在本实施例中,上述规则主要通过对特定类目的商品标题中的一些关键字进行匹配,从而给商品打上适用年龄阶段的标签。通常,上述规则是通过对商品标题进行大数据分析得到的。作为示例,商品的标签及其所表示的母婴人生阶段的对应关系可以如表5-1所示。根据商品属性提炼出来的对应母婴人生阶段的规则映射可以如表5-2所示。
表5-1母婴人群阶段及标签值
标签值 | 母婴人生阶段 |
L0 | 怀孕 |
L1 | 宝宝0-3个月 |
L2 | 宝宝3-6个月 |
L3 | 宝宝6-12个月 |
L4 | 宝宝12-24个月 |
未知 | 未知 |
表5-2母婴人群标签规则
步骤502,根据规则得到商品列表。
在本实施例中,使用如步骤501所制定的规则,得到每个年龄阶段的商品列表,在该阶段可能会有商品属于多个年龄阶段。
步骤503,确定商品所属的年龄阶段。
实践中,通过分析发现,交叉数据对模型的训练和效果影响较大,所以需要将商品划分为某一具体的年龄阶段。通常,首先通过步骤5031确定商品是否属于多个年龄阶段。如果商品只属于某个年龄阶段,可以从预设的商品知识图谱中提取商品标题及其属性数据。如果商品属于多个年龄阶段,需要进行特殊处理,例如通过步骤5032根据年龄阶段的优先级来设定商品所属的年龄阶段。通常,优先级的设定是根据生活经验而来。在本实施例中,由于人们通常会买当前或未来适合的商品,所以设定优先级的顺序是L4>L3>L2>L1>L0。将商品年龄阶段按照所属于的优先级,进行打标签。
步骤504,通过预设的商品知识图谱提取属性信息并转化为词向量。
在本实施例中,预设的商品知识图谱提供商品的属性信息,可以对商品进行更好的描述和标识。由于属性信息值通常用中文词描述,需要转化为词向量。在本实施例中,商品的属性信息可以包括人群属性、样式属性、功能属性、主题属性、材质属性、风格属性、场景属性和味道属性。实践中,这些属性的覆盖率较高,而且可以对商品进行综合描述。可以理解,根据实际的应用需求,也可以选择其他属性。需要说明的是,词向量的转换是目前广泛研究和应用的公知技术,在此不再赘述。
步骤505,训练划分商品年龄阶段模型。
在本实施例中,使用上述带有母婴年龄阶段的样本数据进行模型训练,可以经过多次迭代得到准确率和召回率等指标,输出划分商品年龄阶段的模型。在本实施例中,每个年龄阶段都分别有一个模型。每个年龄阶段所对应的模型的输出用于表征商品是否属于该年龄阶段。需要说明的是,划分商品年龄阶段的模型训练过程与前述实施例的步骤401的所描述的物品分类模型的训练过程一致,此处不再赘述。
步骤506,应用划分商品年龄阶段的模型,输出商品是否属于某一年龄阶段的概率。
在本实施例中,针对商品一级类目为母婴的商品,但不在与如步骤501所制定的规则相匹配的数据集中的其他数据,使用如步骤505所训练的模型进行分类。在本实施例中,使用二分类的方式,即每个年龄阶段单独训练一个模型。实践中,使用由上述其他数据组成的数据集进行分类预测,输出商品是否属于某一年龄阶段的概率。
步骤507,确定概率是否大于分类阈值。
经过统计可以确定,模型所对应的年龄阶段的分类阈值不是0.5,而是各个阶段具有不同的数值。具体分类阈值如下:怀孕阶段是0.75,0-3个月是0.7,3-6个月为0.72,6-12个月是0.64,12-24个月是0.7。如果通过步骤506所输出的概率大于与之对应的分类阈值,则该商品属于该分类阈值所对应的年龄阶段。通过上述分类阈值对模型所输出的概率值进行类别划分,得到商品所属的类别,从而可以得到扩充的商品列表。
步骤508,获取母婴各年龄阶段的用户名称。
在本实施例中,通过所使用商品的年龄阶段,结合用户在商城的浏览、收藏、购买和加入购物车等行为的数据,得到母婴人群各年龄阶段的用户名称。值得注意的是,虽然得到的用户名称,但不能绝对反映用户所处阶段,但是相对来说具有相关性,所以我们假定该用户属于该母婴年龄阶段,后续可以使用调查问卷的方式,正向反馈该用户的年龄阶段。
步骤509,确定用户所属的年龄阶段。
在本实施例中,通过用户历史购买序列,可以得到用户当前处于某一个阶段的概率值。通常,首先通过步骤5091确定用户是否属于多个年龄阶段。如果用户只属于某个年龄阶段,则确定该年龄阶段为用户所属的年龄阶段。如果用户处于多个年龄阶段,可以通过步骤5092取概率值最大的年龄阶段作为该用户的母婴年龄阶段。
步骤510,构建用户特征来训练母婴人群模型。
在本实施例中,主要使用用户所购买的商品的三级类目、用户人口基本属性和购买时间特征来构建用户特征。作为示例,用户人口特征属性可以如表5-3所示。
表5-3用户人口属性特征
实践中,用户一年前购买孕妇装和一月前购买孕妇装对推测其现在所处哪个母婴阶段有很大差异,后者更可能属于L0阶段。同时,如果用户有多次购买属于某母婴阶段(L0)商品,可以大致推测用户在此阶段经历了多久时间。例如,一个经历了9个月怀孕期的用户比一个经历了2个月的怀孕期的用户更有可能购买下一阶段(L1)的商品。在本实施例中,购买时间特征可以用来表征用户购买各母婴阶段商品的时间特征。作为示例,购买各母婴阶段商品的时间特征可以如表5-4所示。
表5-4用户购买各母婴阶段商品的时间特征
在本实施例中,一个用户一年前购买过商品和一月前购买商品对其现在的活跃度也有很大差异,后者更有可能在短期内再次购买商品。定义购买时间加权特征来表示上述差异。需要说明的是,对上述购买时间加权特征的描述与前述实施例中的步骤202中的获取时间特征一致,此处不再赘述。
在本实施例中,先把各类特征进行归一化,整理成多维度的特征矩阵,其中,每个用户的特征向量对应矩阵的一行。然后,可以使用与前述实施例中的步骤402相同的方法对母婴人群模型进行训练。作为示例,特征矩阵可以示意如下:
从图5中可以看出,本申请的上述实施例提供的方法应用于母婴人群年龄阶段挖掘的流程,首先通过制定规则确定一部分商品所属于的年龄阶段;然后,通过应用预先训练的划分商品年龄阶段的模型确定使用规则无法匹配的商品所属的年龄阶段;接下来,根据用户的名称以及历史购买记录等确定用户所属的年龄阶段;最后,利用所得到的用户及其相关信息构建用户特征,训练得到母婴人群模型。从而实现了通过构建商品模型来划分商品所属的年龄阶段,通过构建用户模型来确定用户所属的年龄阶段,进而能够利用用户模型自动生成用户是否属于母婴人群类别的信息,节约了人工区分的成本。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例提供的用于生成信息的装置600包括获取单元601、生成单元602和识别单元603。其中,获取单元601,被配置成获取目标用户的用户信息,其中,用户信息包括用户属性信息和物品获取信息,物品获取信息包括已获取物品的物品信息和获取时间;生成单元602,被配置成基于上述用户属性信息和物品获取信息,生成用户特征向量;识别单元603,被配置成将上述用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别,其中,用户分类模型用于表征用户特征向量与用户类别之间的对应关系。
在本实施例中,用于生成信息的装置600中:获取单元601、生成单元602和识别单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述用户属性信息包括用户属性和属性值,物品信息包括物品所属的物品类别;以及上述生成单元602进一步被配置成:从上述用户属性信息中提取与用户属性对应的属性值,生成用户属性特征向量;从上述物品获取信息中提取物品所属的物品类别,生成物品类别特征向量;从上述物品获取信息中提取已获取物品的获取时间,生成物品获取时间特征向量;对上述用户属性特征向量、物品类别特征向量、物品获取时间特征向量进行归一化处理,生成用户特征向量。
在本实施例的一些可选的实现方式中,上述用户分类模型可以通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括样本用户特征向量和与样本用户特征向量对应的样本用户所属的用户类别;将上述训练样本集合中的训练样本的样本用户特征向量作为输入,将与输入的样本用户特征向量对应的样本用户所属的用户类别作为期望输出,训练得到用户分类模型。
在本实施例的一些可选的实现方式中,上述与样本用户特征向量对应的样本用户所属的用户类别可以通过如下步骤得到:获取与样本用户特征向量对应的至少一个已获取物品的物品信息;对于上述至少一个已获取物品的物品信息中的物品信息,基于该物品信息,生成物品特征向量;将所生成的物品特征向量输入至预设数目个、预先训练的物品分类模型,得到预设数目个类别标注信息,其中,物品分类模型用于表征物品特征向量与类别标注信息之间的对应关系;根据所得到的预设数目个类别标注信息,生成与该物品信息对应的类别标注信息;根据所生成的类别标注信息,确定与上述样本用户特征向量对应的样本用户所属的用户类别。
在本实施例的一些可选的实现方式中,上述物品信息可以包括物品名称;以及上述基于该物品信息,生成物品特征向量,可以包括:从预设的物品知识图谱中提取与该物品信息所包括的物品名称对应的物品属性信息,其中,物品知识图谱用于表征物品名称与物品属性信息之间的对应关系,物品属性信息包括物品属性和属性值;将所提取的物品属性信息中的属性值转换为词向量;根据转换所得到的词向量,生成物品特征向量。
本申请的上述实施例提供的装置,通过获取单元601获取目标用户的用户信息。然后,生成单元602基于所获取的用户信息所包括的用户属性信息和物品获取信息,生成用户特征向量。接下来,识别单元603将上述用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别,从而实现了根据用户属性信息和物品获取信息确定用户所属的类别,减少了人工成本。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机系统700的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、生成单元、识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取目标用户的用户信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:获取目标用户的用户信息,其中,用户信息包括用户属性信息和物品获取信息,物品获取信息包括已获取物品的物品信息和获取时间;基于用户属性信息和物品获取信息,生成用户特征向量;将用户特征向量输入至预先训练的用户分类模型,得到目标用户所属的用户类别,其中,用户分类模型用于表征用户特征向量与用户类别之间的对应关系。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种用于生成信息的方法,包括:
获取目标用户的用户信息,其中,所述用户信息包括用户属性信息和物品获取信息,所述物品获取信息包括已获取物品的物品信息和获取时间;
基于所述用户属性信息和所述物品获取信息,生成用户特征向量;
将所述用户特征向量输入至预先训练的用户分类模型,得到所述目标用户所属的用户类别,其中,所述用户分类模型用于表征用户特征向量与用户类别之间的对应关系,所述用户分类模型的训练样本包括样本用户特征向量和与样本用户特征向量对应的样本用户所属的用户类别;
所述与样本用户特征向量对应的样本用户所属的用户类别通过如下步骤得到:获取与样本用户特征向量对应的至少一个已获取物品的物品信息,其中,所述物品信息包括物品名称;对于所述至少一个已获取物品的物品信息中的物品信息,从预设的物品知识图谱中提取与该物品信息所包括的物品名称对应的物品属性信息;将所提取的物品属性信息中的属性值转换为词向量;根据转换所得到的词向量,生成物品特征向量;将所生成的物品特征向量输入至预设数目个、预先训练的物品分类模型,得到预设数目个类别标注信息;根据所得到的预设数目个类别标注信息,生成与该物品信息对应的类别标注信息;根据所生成的类别标注信息和预设的对应关系,确定与所述样本用户特征向量对应的样本用户所属的用户类别,其中,所述对应关系表示物品信息的类别标注信息与用户所属的用户类别之间的对应关系。
2.根据权利要求1所述的方法,其中,所述用户属性信息包括用户属性和属性值,所述物品信息包括物品所属的物品类别;以及
所述基于所述用户属性信息和所述物品获取信息,生成用户特征向量,包括:
从所述用户属性信息中提取与用户属性对应的属性值,生成用户属性特征向量;
从所述物品获取信息中提取物品所属的物品类别,生成物品类别特征向量;
从所述物品获取信息中提取已获取物品的获取时间,生成物品获取时间特征向量;
对所述用户属性特征向量、所述物品类别特征向量、所述物品获取时间特征向量进行归一化处理,生成用户特征向量。
3.根据权利要求1或2所述的方法,其中,所述用户分类模型通过如下步骤训练得到:
获取训练样本集合;
将所述训练样本集合中的训练样本的样本用户特征向量作为输入,将与输入的样本用户特征向量对应的样本用户所属的用户类别作为期望输出,训练得到所述用户分类模型。
4.根据权利要求3所述的方法,其中,所述物品分类模型用于表征物品特征向量与类别标注信息之间的对应关系。
5.根据权利要求4所述的方法,其中,所述物品知识图谱用于表征物品名称与物品属性信息之间的对应关系,所述物品属性信息包括物品属性和属性值。
6.一种用于生成信息的装置,包括:
获取单元,被配置成获取目标用户的用户信息,其中,所述用户信息包括用户属性信息和物品获取信息,所述物品获取信息包括已获取物品的物品信息和获取时间;
生成单元,被配置成基于所述用户属性信息和所述物品获取信息,生成用户特征向量;
识别单元,被配置成将所述用户特征向量输入至预先训练的用户分类模型,得到所述目标用户所属的用户类别,其中,所述用户分类模型用于表征用户特征向量与用户类别之间的对应关系,所述用户分类模型的训练样本包括样本用户特征向量和与样本用户特征向量对应的样本用户所属的用户类别;
其中,所述与样本用户特征向量对应的样本用户所属的用户类别通过如下步骤得到:获取与样本用户特征向量对应的至少一个已获取物品的物品信息,其中,所述物品信息包括物品名称;对于所述至少一个已获取物品的物品信息中的物品信息,从预设的物品知识图谱中提取与该物品信息所包括的物品名称对应的物品属性信息;将所提取的物品属性信息中的属性值转换为词向量;根据转换所得到的词向量,生成物品特征向量;将所生成的物品特征向量输入至预设数目个、预先训练的物品分类模型,得到预设数目个类别标注信息;根据所得到的预设数目个类别标注信息,生成与该物品信息对应的类别标注信息;根据所生成的类别标注信息和预设的对应关系,确定与所述样本用户特征向量对应的样本用户所属的用户类别,其中,所述对应关系表示物品信息的类别标注信息与用户所属的用户类别之间的对应关系。
7.根据权利要求6所述的装置,其中,所述用户属性信息包括用户属性和属性值,所述物品信息包括物品所属的物品类别;以及
所述生成单元进一步被配置成:
从所述用户属性信息中提取与用户属性对应的属性值,生成用户属性特征向量;
从所述物品获取信息中提取物品所属的物品类别,生成物品类别特征向量;
从所述物品获取信息中提取已获取物品的获取时间,生成物品获取时间特征向量;
对所述用户属性特征向量、所述物品类别特征向量、所述物品获取时间特征向量进行归一化处理,生成用户特征向量。
8.根据权利要求6或7所述的装置,其中,所述用户分类模型通过如下步骤训练得到:
获取训练样本集合;
将所述训练样本集合中的训练样本的样本用户特征向量作为输入,将与输入的样本用户特征向量对应的样本用户所属的用户类别作为期望输出,训练得到所述用户分类模型。
9.根据权利要求8所述的装置,其中,所述物品分类模型用于表征物品特征向量与类别标注信息之间的对应关系。
10.根据权利要求9所述的装置,其中,所述物品知识图谱用于表征物品名称与物品属性信息之间的对应关系,所述物品属性信息包括物品属性和属性值。
11.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811423395.0A CN111225009B (zh) | 2018-11-27 | 2018-11-27 | 用于生成信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811423395.0A CN111225009B (zh) | 2018-11-27 | 2018-11-27 | 用于生成信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111225009A CN111225009A (zh) | 2020-06-02 |
CN111225009B true CN111225009B (zh) | 2023-06-27 |
Family
ID=70827103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811423395.0A Active CN111225009B (zh) | 2018-11-27 | 2018-11-27 | 用于生成信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111225009B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767953B (zh) | 2020-06-30 | 2021-11-26 | 北京字节跳动网络技术有限公司 | 用于训练物品编码模型的方法和装置 |
CN112149807B (zh) * | 2020-09-28 | 2024-06-28 | 北京百度网讯科技有限公司 | 用户特征信息的处理方法和装置 |
CN113781085A (zh) * | 2021-01-20 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN113609397A (zh) * | 2021-08-16 | 2021-11-05 | 北京沃东天骏信息技术有限公司 | 用于推送信息的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN108665312A (zh) * | 2018-05-08 | 2018-10-16 | 北京京东金融科技控股有限公司 | 用于生成信息的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313141A1 (en) * | 2009-06-03 | 2010-12-09 | Tianli Yu | System and Method for Learning User Genres and Styles and for Matching Products to User Preferences |
US20150039383A1 (en) * | 2012-03-01 | 2015-02-05 | Life Technologies Corporation | Methods and Systems for a Product Selection Tool |
US20170236215A1 (en) * | 2016-02-11 | 2017-08-17 | International Business Machines Corporation | User experience using social and financial information |
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
CN108537240A (zh) * | 2017-03-01 | 2018-09-14 | 华东师范大学 | 基于领域本体的商品图像语义标注方法 |
CN107273454B (zh) * | 2017-05-31 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 用户数据分类方法、装置、服务器和计算机可读存储介质 |
CN107563429B (zh) * | 2017-07-27 | 2020-11-10 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN108563653B (zh) * | 2017-12-21 | 2020-07-31 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
-
2018
- 2018-11-27 CN CN201811423395.0A patent/CN111225009B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN108665312A (zh) * | 2018-05-08 | 2018-10-16 | 北京京东金融科技控股有限公司 | 用于生成信息的方法和装置 |
Non-Patent Citations (3)
Title |
---|
item-to-item collaborative filtering;G. Linden等;《IEEE Internet Computing》;全文 * |
基于用户行为分析的商品信息分类技术;胡飞;《万方数据库》;全文 * |
面向隐式反馈的推荐系统研究现状与趋势;陆艺;曹健;;计算机科学(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111225009A (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273454B (zh) | 用户数据分类方法、装置、服务器和计算机可读存储介质 | |
CN111798879B (zh) | 用于生成视频的方法和装置 | |
CN111225009B (zh) | 用于生成信息的方法和装置 | |
US12039447B2 (en) | Information processing method and terminal, and computer storage medium | |
US10635952B2 (en) | Cognitive analysis and classification of apparel images | |
CN106649890B (zh) | 数据存储方法和装置 | |
CN110325986B (zh) | 文章处理方法、装置、服务器及存储介质 | |
US20220405607A1 (en) | Method for obtaining user portrait and related apparatus | |
CN107145485B (zh) | 用于压缩主题模型的方法和装置 | |
US12020267B2 (en) | Method, apparatus, storage medium, and device for generating user profile | |
CN107797982A (zh) | 用于识别文本类型的方法、装置和设备 | |
US20150032753A1 (en) | System and method for pushing and distributing promotion content | |
CN108765076B (zh) | 母婴内容推荐方法、装置及可读存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN111866610A (zh) | 用于生成信息的方法和装置 | |
CN111797622B (zh) | 用于生成属性信息的方法和装置 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN111104590A (zh) | 信息推荐方法、装置、介质及电子设备 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN111859973A (zh) | 用于生成解说词的方法和装置 | |
CN112348615A (zh) | 用于审核信息的方法和装置 | |
CN112818082A (zh) | 评价文本推送方法和装置 | |
CN113343664B (zh) | 图像文本之间的匹配度的确定方法及装置 | |
CN115392943A (zh) | 发送展示信息的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |