CN110852338A - 用户画像的构建方法及装置 - Google Patents
用户画像的构建方法及装置 Download PDFInfo
- Publication number
- CN110852338A CN110852338A CN201910684749.5A CN201910684749A CN110852338A CN 110852338 A CN110852338 A CN 110852338A CN 201910684749 A CN201910684749 A CN 201910684749A CN 110852338 A CN110852338 A CN 110852338A
- Authority
- CN
- China
- Prior art keywords
- classifier
- users
- target user
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 80
- 238000012549 training Methods 0.000 claims description 61
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用户画像的构建方法及装置,其中,该方法包括:获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。通过本发明,解决了现有技术中构建的用户画像不准确的技术问题,提高了用户画像的准确性和清晰度。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种用户画像的构建方法及装置。
背景技术
随着互联网技术的发展,人们越来越频繁地使用网络平台推出的多项业务。例如,使用电子缴费平台提供的缴费业务,或者使用网络购物平台提供的购物服务等。为用户针对性地提供服务无疑可以提高业务的成功率。
现有技术中,用户画像通常只与用户的属性相关,通过属性特征构建用户画像并推送服务,但是,有些用户的兴趣实际上与其属性关联不大,例如,小学生正常是不会化妆的,但现在越来越多的年轻学生也开始了化妆,这与其年龄属性明显不相符,这导致仅仅使用属性特征构建的用户画像也不够全面,也不准确。
针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种用户画像的构建方法及装置,以至少解决现有技术中构建的用户画像不准确的技术问题。
根据本发明的一个实施例,提供了一种用户画像的构建方法,包括:获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
可选的,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之后,所述方法还包括:确定所述用户画像的兴趣范围;为所述目标用户推送与所述兴趣范围相关的服务内容。
可选的,获取目标用户在多个上网渠道上的舆情特征信息包括:采集所述目标用户的上网账号;查找通过所述上网账号登录的线上软件;通过所述线上软件采集所述目标用户发布的评论信息,以及除所述目标用户之外的其他用户对所述目标用户发布的评论信息和印象标签。
可选的,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之前,所述方法还包括:采用非监督学习方式和监督学习的方式训练所述预设分类器,其中,所述预设分类器为链式分类器。
可选的,采用非监督学习方式训练所述预设分类器包括:获取第一组用户各自的第一特征向量,其中,所述第一特征向量对应于样本用户的舆情特征信息;以及获取所述第一组用户各自的第一标签的值,所述第一标签的值对应于样本用户的第一标签信息的兴趣值;以所述第一特征向量和所述第一标签的值的集合作为第一训练集,训练所述第一分类器;将所述第一组用户各自的第一特征向量和第一标签的值组合,得到所述第一组用户各自的第二特征向量;以及获取所述第一组用户各自的第二标签的值,所述第二标签的值对应于用户的第二标签信息的兴趣值;以所述第二特征向量和第二标签的值的集合作为第二训练集,训练第二分类器。
可选的,采用监督学习方式训练所述预设分类器包括:在训练第二分类器之后,获取第二组用户的各自的第一特征向量,所述第一特征向量对应于所述属性特征信息;将所述第二组用户各自的第一特征向量输入所述第一分类器,得到所述第二组用户的各自的第一标签预测值;将所述第二组用户中每个样本用户的第一特征向量和第一标签预测值组合,得到所述第二组用户各自的第二特征向量;以及获取第二组用户各自的第二标签的值,所述第二标签的值对应于样本用户的第二标签信息的兴趣值;以所述第二组用户各自的第二特征向量和第二标签的值的集合作为第三训练集,继续训练所述第二分类器。
可选的,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像包括:计算所述舆情特征信息和所述属性特征信息的第一特征向量;将所述第一特征向量输入所述第一分类器,获得所述目标用户的第一标签的兴趣值;将所述第一特征向量与所述第一标签的兴趣值组合,得到所述目标用户的第二特征向量;将所述第二特征向量输入所述第二分类器,获得所述目标用户的第二标签的兴趣值。
根据本发明的另一个实施例,提供了一种用户画像的构建装置,包括:获取模块,用于获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;构建模块,用于根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
可选的,所述装置还包括:确定模块,用于在所述构建模块根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之后,确定所述用户画像的兴趣范围;推送模块,用于为所述目标用户推送与所述兴趣范围相关的服务内容。
可选的,所述获取模块包括:第一采集单元,用于采集所述目标用户的上网账号;查找单元,用于查找通过所述上网账号登录的线上软件;第二采集单元,用于通过所述线上软件采集所述目标用户发布的评论信息,以及除所述目标用户之外的其他用户对所述目标用户发布的评论信息和印象标签。
可选的,所述装置还包括:训练模块,用于在所述构建模块根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之前,采用非监督学习方式和监督学习的方式训练所述预设分类器,其中,所述预设分类器为链式分类器。
可选的,所述训练模块包括:第一获取单元,用于获取第一组用户各自的第一特征向量,其中,所述第一特征向量对应于样本用户的舆情特征信息;以及获取所述第一组用户各自的第一标签的值,所述第一标签的值对应于样本用户的第一标签信息的兴趣值;第一训练单元,用于以所述第一特征向量和所述第一标签的值的集合作为第一训练集,训练所述第一分类器;第一处理单元,用于将所述第一组用户各自的第一特征向量和第一标签的值组合,得到所述第一组用户各自的第二特征向量;以及获取所述第一组用户各自的第二标签的值,所述第二标签的值对应于用户的第二标签信息的兴趣值;第二训练单元,用于以所述第二特征向量和第二标签的值的集合作为第二训练集,训练第二分类器。
可选的,所述训练模块包括:第二获取单元,用于在所述第二训练单元训练第二分类器之后,获取第二组用户的各自的第一特征向量,所述第一特征向量对应于所述属性特征信息;第二处理单元,用于将所述第二组用户各自的第一特征向量输入所述第一分类器,得到所述第二组用户的各自的第一标签预测值;第三处理单元,用于将所述第二组用户中每个样本用户的第一特征向量和第一标签预测值组合,得到所述第二组用户各自的第二特征向量;以及获取第二组用户各自的第二标签的值,所述第二标签的值对应于样本用户的第二标签信息的兴趣值;第三训练单元,用于以所述第二组用户各自的第二特征向量和第二标签的值的集合作为第三训练集,继续训练所述第二分类器。
可选的,所述构建模块包括:计算单元,用于计算所述舆情特征信息和所述属性特征信息的第一特征向量;将所述第一特征向量输入所述第一分类器,获得所述目标用户的第一标签的兴趣值;将所述第一特征向量与所述第一标签的兴趣值组合,得到所述目标用户的第二特征向量;将所述第二特征向量输入所述第二分类器,获得所述目标用户的第二标签的兴趣值。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取目标用户在多个上网渠道上的舆情特征信息和属性特征信息,并根据所述舆情特征信息和所述属性特征信息采用预设分类器构建目标用户的用户画像,通过采用舆情特征信息和属性特征信息结合人工智能的分类器构建用户画像,解决了现有技术中构建的用户画像不准确的技术问题,提高了用户画像的准确性和清晰度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种用户画像的构建服务器的硬件结构框图;
图2是根据本发明实施例的用户画像的构建方法的流程图;
图3是本发明实施例中用户画像的示意图;
图4是本发明实施例构建目标用户的用户画像的流程图;
图5是根据本发明实施例的用户画像的构建装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种用户画像的构建服务器的硬件结构框图。如图1所示,服务器10 可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1 所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的用户画像的构建方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种用户画像的构建方法,图2是根据本发明实施例的用户画像的构建方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
步骤S204,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
通过上述步骤,获取目标用户在多个上网渠道上的舆情特征信息和属性特征信息,并根据所述舆情特征信息和所述属性特征信息采用预设分类器构建目标用户的用户画像,通过采用舆情特征信息和属性特征信息结合人工智能的分类器构建用户画像,解决了现有技术中构建的用户画像不准确的技术问题,提高了用户画像的准确性和清晰度。
在本实施例的一个可选实施方式中,获取目标用户在多个上网渠道上的舆情特征信息包括:
S11,采集所述目标用户的上网账号;
S12,查找通过所述上网账号登录的线上软件;
S13,通过所述线上软件采集所述目标用户发布的评论信息,以及除所述目标用户之外的其他用户对所述目标用户发布的评论信息和印象标签。
获取目标用户的舆情特征信息包括:采集目标用户的上网账号和登录账号信息,关联与所述上网账号对应的多个上网渠道的线上软件(向上软件包括:微博,微信,新闻客户端,餐饮软件,理财软件,网络游戏等各种能用户评论的软件),从所述多个上网渠道采集目标用户的评论信息,以及其他用户(如商家,买家,好友,路人,队友等)对所述目标用户的评论信息和印象标签,还可以进一步采集目标用户关注和收藏的信息,如,关注的博主类型,收藏的网页内容,购买的虚拟产品等(具体根据目标用户的上网痕迹,在本地读取软件保存的日志来采集)。目标用户的属性特征信息包括:用户名、性别、归属地、年龄、网上认证信息,财务状况,学历,消费能力,时间充裕程度等。
本实施例在采集目标用户的上网账号时,由于现在通常采用实名制上网,因此,可以将目标用户的身份证号作为标识,检索该身份证号绑定的多个上网账号和登录账号。在另一方面,可以分析目标用户每次上网的IP 地址和MAC地址,筛选使用率最高的一到两个IP地址和MAC地址,将对应的网络设备确定为目标用户的常用设备,进而监测该常用设备产生的网络流量,从所述网络流量中分析出对舆情相关的流量特征。
在本实施例中,用户画像由多个特征标签组成,特征标签越多,特征标签的取值范围越大,用户画像就会越清晰,图3是本发明实施例中用户画像的示意图,其中,该目标用户的兴趣标签包括:食品饮料,零食,团购,奶制品等,各个兴趣标签有一个对应的兴趣值,兴趣值越高,说明用户对该领域交集越多,也越感兴趣。
可选的,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之后,还包括:确定所述用户画像的兴趣范围;为所述目标用户推送与所述兴趣范围相关的服务内容。具体的,确定所述用户画像的兴趣范围包括:确定用户画像的分类器中的所有特征标签,在所有的特征标签中选择兴趣值大于预设值的指定标签,将指定标签确定为目标用户的兴趣标签,兴趣标签即兴趣范围的标签信息,向目标用户发送与兴趣标签对应的服务内容。在一个示例中,兴趣标签包括:宅、游戏迷、喜欢宠物,则可选择向该目标用户推送电子产品,网络代练,狗粮等广告。
可选的,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之前,还包括:采用非监督学习方式和监督学习的方式训练所述预设分类器,其中,所述预设分类器为链式分类器。当然,该预设分类器也可以已经训练好的成熟模型,直接使用即可。
本实施例的训练过程包括非监督训练和监督训练,其中监督训练用于对非监督训练得到的分类器进行进一步的修正,提高精度。采用非监督学习方式训练所述预设分类器包括:
S21,获取第一组用户各自的第一特征向量,其中,所述第一特征向量对应于样本用户的舆情特征信息;以及获取所述第一组用户各自的第一标签的值,所述第一标签的值对应于样本用户的第一标签信息的兴趣值;标签为兴趣标签,如购物,理财,美食,兴趣值为目标用户的感兴趣程序,如范围为0~10,10代表非常感兴趣,0代表完全不感兴趣或讨厌;
S22,以所述第一特征向量和所述第一标签的值的集合作为第一训练集,训练所述第一分类器;其中,第一特征向量为第一分类器的输入标签,所述第一标签的值为第一分类器的输出标签;
S23,将所述第一组用户各自的第一特征向量和第一标签的值组合,得到所述第一组用户各自的第二特征向量;以及获取所述第一组用户各自的第二标签的值,所述第二标签的值对应于用户的第二标签信息的兴趣值;在一个示例中,用户的第二标签与用户的第一标签相关联;
S24,以所述第二特征向量和第二标签的值的集合作为第二训练集,训练第二分类器。
在另一方面,采用监督学习方式训练所述预设分类器包括:
S25,在训练第二分类器之后,获取第二组用户的各自的第一特征向量,所述第一特征向量对应于所述属性特征信息;
S26,将所述第二组用户各自的第一特征向量输入所述第一分类器,得到所述第二组用户的各自的第一标签预测值;
S27,将所述第二组用户中每个样本用户的第一特征向量和第一标签预测值组合,得到所述第二组用户各自的第二特征向量;以及获取第二组用户各自的第二标签的值,所述第二标签的值对应于样本用户的第二标签信息的兴趣值;
S28,以所述第二组用户各自的第二特征向量和第二标签的值的集合作为第三训练集,继续训练所述第二分类器。
在第一分类器和第二分类器训练完成后,使用分类器来构建目标用户的用户画像,图4是本发明实施例构建目标用户的用户画像的流程图,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像包括:
S402,计算所述舆情特征信息和所述属性特征信息的第一特征向量;
S404,将所述第一特征向量输入所述第一分类器,获得所述目标用户的第一标签的兴趣值;其中,第一标签包括一个或多个字标签,计算得到的第一标签为目标用户的一个笼统的兴趣标签,如“时尚白领”,其中,“时尚白领”包括子标签:喜欢购物,年轻,收入高等;
S406,将所述第一特征向量与所述第一标签的兴趣值组合,得到所述目标用户的第二特征向量;
S408,将所述第二特征向量输入所述第二分类器,获得所述目标用户的第二标签的兴趣值。第二标签是第一标签的子标签。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种用户画像的构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的用户画像的构建装置的结构框图,如图5 所示,该装置包括:获取模块50,构建模块52,其中,
获取模块50,用于获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
构建模块52,用于根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
可选的,所述装置还包括:确定模块,用于在所述构建模块根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之后,确定所述用户画像的兴趣范围;推送模块,用于为所述目标用户推送与所述兴趣范围相关的服务内容。
可选的,所述获取模块包括:第一采集单元,用于采集所述目标用户的上网账号;查找单元,用于查找通过所述上网账号登录的线上软件;第二采集单元,用于通过所述线上软件采集所述目标用户发布的评论信息,以及除所述目标用户之外的其他用户对所述目标用户发布的评论信息和印象标签。
可选的,所述装置还包括:训练模块,用于在所述构建模块根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之前,采用非监督学习方式和监督学习的方式训练所述预设分类器,其中,所述预设分类器为链式分类器。
可选的,所述训练模块包括:第一获取单元,用于获取第一组用户各自的第一特征向量,其中,所述第一特征向量对应于样本用户的舆情特征信息;以及获取所述第一组用户各自的第一标签的值,所述第一标签的值对应于样本用户的第一标签信息的兴趣值;第一训练单元,用于以所述第一特征向量和所述第一标签的值的集合作为第一训练集,训练所述第一分类器;第一处理单元,用于将所述第一组用户各自的第一特征向量和第一标签的值组合,得到所述第一组用户各自的第二特征向量;以及获取所述第一组用户各自的第二标签的值,所述第二标签的值对应于用户的第二标签信息的兴趣值;第二训练单元,用于以所述第二特征向量和第二标签的值的集合作为第二训练集,训练第二分类器。
可选的,所述训练模块包括:第二获取单元,用于在所述第二训练单元训练第二分类器之后,获取第二组用户的各自的第一特征向量,所述第一特征向量对应于所述属性特征信息;第二处理单元,用于将所述第二组用户各自的第一特征向量输入所述第一分类器,得到所述第二组用户的各自的第一标签预测值;第三处理单元,用于将所述第二组用户中每个样本用户的第一特征向量和第一标签预测值组合,得到所述第二组用户各自的第二特征向量;以及获取第二组用户各自的第二标签的值,所述第二标签的值对应于样本用户的第二标签信息的兴趣值;第三训练单元,用于以所述第二组用户各自的第二特征向量和第二标签的值的集合作为第三训练集,继续训练所述第二分类器。
可选的,所述构建模块包括:计算单元,用于计算所述舆情特征信息和所述属性特征信息的第一特征向量;将所述第一特征向量输入所述第一分类器,获得所述目标用户的第一标签的兴趣值;将所述第一特征向量与所述第一标签的兴趣值组合,得到所述目标用户的第二特征向量;将所述第二特征向量输入所述第二分类器,获得所述目标用户的第二标签的兴趣值。
通过使用本实施例的装置,由于同时采集了用户基于预设语句产生的音频和视频,在识别后,结合音频中的语音信息和视频中的面部动作信息进行用户画像的构建,解决了现有技术中用户画像的构建率低的技术问题,提高了用户画像的构建的效率。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
S2,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
S2,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户画像的构建方法,其特征在于,包括:
获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
2.根据权利要求1所述的方法,其特征在于,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之后,所述方法还包括:
确定所述用户画像的兴趣范围;
为所述目标用户推送与所述兴趣范围相关的服务内容。
3.根据权利要求1所述的方法,其特征在于,获取目标用户在多个上网渠道上的舆情特征信息包括:
采集所述目标用户的上网账号;
查找通过所述上网账号登录的线上软件;
通过所述线上软件采集所述目标用户发布的评论信息,以及除所述目标用户之外的其他用户对所述目标用户发布的评论信息和印象标签。
4.根据权利要求1所述的方法,其特征在于,在根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像之前,所述方法还包括:
采用非监督学习方式和监督学习的方式训练所述预设分类器,其中,所述预设分类器为链式分类器。
5.根据权利要求4所述的方法,其特征在于,采用非监督学习方式训练所述预设分类器包括:
获取第一组用户各自的第一特征向量,其中,所述第一特征向量对应于样本用户的舆情特征信息;以及获取所述第一组用户各自的第一标签的值,所述第一标签的值对应于样本用户的第一标签信息的兴趣值;
以所述第一特征向量和所述第一标签的值的集合作为第一训练集,训练所述第一分类器;
将所述第一组用户各自的第一特征向量和第一标签的值组合,得到所述第一组用户各自的第二特征向量;以及获取所述第一组用户各自的第二标签的值,所述第二标签的值对应于用户的第二标签信息的兴趣值;
以所述第二特征向量和第二标签的值的集合作为第二训练集,训练第二分类器。
6.根据权利要求5所述的方法,其特征在于,采用监督学习方式训练所述预设分类器包括:
在训练第二分类器之后,获取第二组用户的各自的第一特征向量,所述第一特征向量对应于所述属性特征信息;
将所述第二组用户各自的第一特征向量输入所述第一分类器,得到所述第二组用户的各自的第一标签预测值;
将所述第二组用户中每个样本用户的第一特征向量和第一标签预测值组合,得到所述第二组用户各自的第二特征向量;以及获取第二组用户各自的第二标签的值,所述第二标签的值对应于样本用户的第二标签信息的兴趣值;
以所述第二组用户各自的第二特征向量和第二标签的值的集合作为第三训练集,继续训练所述第二分类器。
7.根据权利要求1所述的方法,其特征在于,根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像包括:
计算所述舆情特征信息和所述属性特征信息的第一特征向量;
将所述第一特征向量输入所述第一分类器,获得所述目标用户的第一标签的兴趣值;
将所述第一特征向量与所述第一标签的兴趣值组合,得到所述目标用户的第二特征向量;
将所述第二特征向量输入所述第二分类器,获得所述目标用户的第二标签的兴趣值。
8.一种用户画像的构建装置,其特征在于,包括:
获取模块,用于获取目标用户在多个上网渠道上的舆情特征信息,以及所述目标用户的属性特征信息;
构建模块,用于根据所述舆情特征信息和所述属性特征信息采用预设分类器构建所述目标用户的用户画像,其中,所述预设分类器包括第一分类器和第二分类器。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684749.5A CN110852338B (zh) | 2019-07-26 | 2019-07-26 | 用户画像的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684749.5A CN110852338B (zh) | 2019-07-26 | 2019-07-26 | 用户画像的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852338A true CN110852338A (zh) | 2020-02-28 |
CN110852338B CN110852338B (zh) | 2024-09-27 |
Family
ID=69595291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910684749.5A Active CN110852338B (zh) | 2019-07-26 | 2019-07-26 | 用户画像的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852338B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429288A (zh) * | 2020-03-04 | 2020-07-17 | 平安医疗健康管理股份有限公司 | 用户画像的构建方法及装置、计算机设备、存储介质 |
CN111966935A (zh) * | 2020-07-22 | 2020-11-20 | 招联消费金融有限公司 | 信息预加载方法、装置、计算机设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106650780A (zh) * | 2016-10-18 | 2017-05-10 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统 |
CN107341245A (zh) * | 2017-07-06 | 2017-11-10 | 广州优视网络科技有限公司 | 数据处理方法、装置及服务器 |
CN107783987A (zh) * | 2016-08-25 | 2018-03-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108470023A (zh) * | 2018-01-18 | 2018-08-31 | 阿里巴巴集团控股有限公司 | 业务功能的推荐方法及装置 |
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN109359248A (zh) * | 2018-09-28 | 2019-02-19 | Oppo广东移动通信有限公司 | 用户画像更新方法、装置、终端及存储介质 |
CN109784406A (zh) * | 2019-01-16 | 2019-05-21 | 平安科技(深圳)有限公司 | 一种用户画像方法、装置、可读存储介质及终端设备 |
CN109934619A (zh) * | 2019-02-13 | 2019-06-25 | 北京三快在线科技有限公司 | 用户画像标签建模方法、装置、电子设备及可读存储介质 |
CN110020117A (zh) * | 2017-09-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种兴趣信息获取方法、装置及电子设备 |
-
2019
- 2019-07-26 CN CN201910684749.5A patent/CN110852338B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN107783987A (zh) * | 2016-08-25 | 2018-03-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106650780A (zh) * | 2016-10-18 | 2017-05-10 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统 |
CN107341245A (zh) * | 2017-07-06 | 2017-11-10 | 广州优视网络科技有限公司 | 数据处理方法、装置及服务器 |
CN110020117A (zh) * | 2017-09-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种兴趣信息获取方法、装置及电子设备 |
CN108470023A (zh) * | 2018-01-18 | 2018-08-31 | 阿里巴巴集团控股有限公司 | 业务功能的推荐方法及装置 |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN109359248A (zh) * | 2018-09-28 | 2019-02-19 | Oppo广东移动通信有限公司 | 用户画像更新方法、装置、终端及存储介质 |
CN109784406A (zh) * | 2019-01-16 | 2019-05-21 | 平安科技(深圳)有限公司 | 一种用户画像方法、装置、可读存储介质及终端设备 |
CN109934619A (zh) * | 2019-02-13 | 2019-06-25 | 北京三快在线科技有限公司 | 用户画像标签建模方法、装置、电子设备及可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429288A (zh) * | 2020-03-04 | 2020-07-17 | 平安医疗健康管理股份有限公司 | 用户画像的构建方法及装置、计算机设备、存储介质 |
CN111966935A (zh) * | 2020-07-22 | 2020-11-20 | 招联消费金融有限公司 | 信息预加载方法、装置、计算机设备和存储介质 |
CN111966935B (zh) * | 2020-07-22 | 2023-12-12 | 招联消费金融有限公司 | 信息预加载方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110852338B (zh) | 2024-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11659050B2 (en) | Discovering signature of electronic social networks | |
CN105630977B (zh) | 应用程序推荐方法、装置及系统 | |
CN109218390B (zh) | 用户筛选方法及装置 | |
CN107862553A (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN107426328B (zh) | 信息推送方法和装置 | |
CN100573504C (zh) | 个性头像提供系统及其方法 | |
CN102227744A (zh) | 用于在社交网络中分发的可定制内容 | |
CN110782318A (zh) | 基于音频交互的营销方法、装置以及存储介质 | |
CN108460627A (zh) | 营销活动方案推送方法、装置、计算机设备及存储介质 | |
WO2017197826A1 (zh) | 图像特征关系的匹配方法、装置和系统 | |
CN112801719A (zh) | 用户行为预测方法、用户行为预测装置、存储介质及设备 | |
CN111582938A (zh) | 一种广告投放方法、装置及电子设备 | |
CN110852338B (zh) | 用户画像的构建方法及装置 | |
CN109886824B (zh) | 交友推荐方法、装置、服务器、快递柜及存储介质 | |
CN116127184A (zh) | 产品的推荐方法及装置、非易失性存储介质、电子设备 | |
CN111787042A (zh) | 用于推送信息的方法和装置 | |
CN110347943A (zh) | 渠道信息处理方法、装置、存储介质及计算机设备 | |
CN113626624A (zh) | 一种资源识别方法和相关装置 | |
CN113469752A (zh) | 内容推荐方法、装置、存储介质及电子设备 | |
CN117611272A (zh) | 商品推荐方法、装置及电子设备 | |
CN113672816B (zh) | 帐号特征信息的生成方法、装置和存储介质及电子设备 | |
CN110765350A (zh) | 一种会员积分的数据融合方法和装置 | |
US11574332B1 (en) | Method for generating and using a 2D barcode | |
US11734357B2 (en) | System and methods for data supply, verification, matching, and acquisition | |
CN114442869A (zh) | 用户分流处理的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |