CN114595323A - 画像构建、推荐、模型训练方法、装置、设备及存储介质 - Google Patents

画像构建、推荐、模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114595323A
CN114595323A CN202210212176.8A CN202210212176A CN114595323A CN 114595323 A CN114595323 A CN 114595323A CN 202210212176 A CN202210212176 A CN 202210212176A CN 114595323 A CN114595323 A CN 114595323A
Authority
CN
China
Prior art keywords
user
sample
information
training
operation behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210212176.8A
Other languages
English (en)
Other versions
CN114595323B (zh
Inventor
李斐斐
冯欣伟
王煜
吴学谦
金宁
王孜钰
孙莺萁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210212176.8A priority Critical patent/CN114595323B/zh
Publication of CN114595323A publication Critical patent/CN114595323A/zh
Application granted granted Critical
Publication of CN114595323B publication Critical patent/CN114595323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本公开提供了一种画像构建、推荐、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及知识图谱、深度学习等技术领域。具体实现方案为:获取用户的特征数据;特征数据是基于用户的属性信息和操作行为信息得到的;基于用户的特征数据,通过预训练模型,得到用户的用户画像的兴趣标签;其中,预训练模型基于样本用户针对样本信息的特征数据进行训练得到。能够实现用户的用户画像的构建。

Description

画像构建、推荐、模型训练方法、装置、设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及知识图谱、深度学习等领域。
背景技术
在互联网逐渐步入大数据时代后,企业的专注点也开始聚焦于怎样利用大数据来精准地向用户提供服务,于是,用户画像也就应运而生了。
发明内容
本公开提供了一种画像构建、推荐、模型训练方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种用户画像构建方法,包括:
获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
基于所述用户的特征数据,通过预训练模型,得到所述用户的用户画像的兴趣标签;其中,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
根据本公开的第二方面,提供了一种内容推荐方法,包括:
获取用户的兴趣标签;其中,所述兴趣标签是基于用户特征数据通过预训练模型得到的,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到;
基于所述兴趣标签确定所述用户的感兴趣文档;
向所述用户推荐所述感兴趣文档。
根据本公开的第三方面,提供了一种目标模型训练方法,包括:
获取样本用户针对样本信息的特征数据;其中,所述特征数据包括所述样本用户的属性信息和操作行为信息;所述操作行为信息包括样本用户在第一时间范围内针对所述样本信息的第一操作行为信息和样本用户在第二时间范围内针对所述样本信息的第二操作行为信息;
基于所述样本用户的属性信息和所述第一操作行为信息,对初始模型进行训练,得到训练后的模型;
基于所述样本用户的属性信息和所述第二操作行为信息对所述训练后的模型进行再训练,得到目标模型。
根据本公开的第四方面,本公开提供了一种用户画像构建方法,包括:
获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
基于所述用户的特征数据,通过如第一方面所述的目标模型训练方法得到的目标模型,得到所述用户的用户画像的兴趣标签。
根据本公开的第五方面,提供了一种用户画像构建装置,包括:
获取模块,用于获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
确定模块,用于基于所述用户的特征数据,通过预训练模型,得到所述用户的用户画像的兴趣标签;其中,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
根据本公开的第六方面,提供了一种内容推荐装置,包括:
获取模块,用于获取用户的兴趣标签;其中,所述兴趣标签是基于用户的特征数据进行训练得到的;
确定模块,用于基于所述兴趣标签确定所述用户的感兴趣文档;
推荐模块,用于向所述用户推荐所述感兴趣文档。
根据本公开的第七方面,提供了一种目标模型训练装置,包括:
获取模块,用于获取样本用户针对样本信息的特征数据;其中,所述特征数据包括所述样本用户的属性信息和操作行为信息;所述操作行为信息包括样本用户在第一时间范围内针对所述样本信息的第一操作行为信息和样本用户在第二时间范围内针对所述样本信息的第二操作行为信息;
训练模块,用于基于所述样本用户的属性信息和所述第一操作行为信息,对初始模型进行训练,得到训练后的模型;
验证模块,用于基于所述样本用户的属性信息和所述第二操作行为信息对所述训练后的模型进行再训练,得到目标模型。
根据本公开的第八方面,本公开提供了一种用户画像构建装置,包括:
获取模块,用于获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
基于所述用户的特征数据,通过如第七方面所述的目标模型训练装置得到的目标模型,得到所述用户的用户画像的兴趣标签。
根据本公开的第九方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面、第二方面、第三方面或第四方面所述的方法。
根据本公开的第十方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面、第二方面、第三方面或第四方面所述的方法。
根据本公开的第十一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面、第二方面、第三方面或第四方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的用户画像构建方法的一种流程图;
图2是本公开实施例提供的用户画像构建方法的另一种流程图;
图3是本公开实施例提供的内容推荐方法的流程图;
图4是本公开实施例中用户画像的示意图;
图5是本公开实施例提供的目标模型训练方法的流程图;
图6A是本公开实施例提供的用户画像构建方法的另一种流程图;
图6B是本公开实施例提供的模型训练方法的流程图;
图7是应用本公开实施例提供的用户画像构建方法的示意图;
图8是本公开实施例提供的用户画像构建装置的一种结构示意图;
图9是本公开实施例提供的内容推荐装置的结构示意图;
图10是本公开实施例提供的目标模型训练装置的结构示意图;
图11是本公开实施例提供的用户画像构建装置的另一种结构示意图;
图12是用来实现本公开实施例的用户画像构建方法、内容推荐方法或目标模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
用户画像技术是根据用户现有的各种信息,采用机器学习或策略等,挖掘用户潜在的属性,从而为不同的用户打上其特有的标签的技术。
本公开实施例提供了一种用户画像构建方法,如图1所示,可以包括:
S101,获取用户的特征数据;特征数据是基于用户的属性信息和操作行为信息得到的。
属性信息可以包括用户的用户信息以及用户的业务相关信息,如业务数据、业务需求、订阅数据等等。
操作行为信息也可以理解为行为数据。
S102,基于用户的特征数据,通过预训练模型,得到用户的用户画像的兴趣标签;其中,预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
基于样本用户针对样本信息的特征数据预先训练得到预训练模型,如此,可以基于用户的特征数据通过预训练模型得到用户的用户画像的兴趣标签。
如此可以实现用户画像的构建。
对于ToC(TO Consumer,面向个人)的场景,其用户行为日志相对容易获得,根据用户行为从而形成用户画像。但对于ToB(TO Business,面向企业)的场景,环境使用私有化部署,用户行为、模块日志均在客户环境中,服务提供方无法拿到后做分析形成画像。对于ToB的场景,企业内部数据具有私密性,类似于内搜的场景,外部无法拿到数据。如此使得无法完成针对企业内部用户的用户画像构建。
企业端外部无法获取企业内部用户的数据,但对于企业端自身来讲,这些数据是可以获取的到的。基于此,本公开实施例中,针对ToB的场景,通过企业端自身获取用户数据,根据用户数据进行用户画像的构建。
服务提供方将服务部署在企业端,企业端通过该服务获取企业内部用户的数据,并基于获取到的企业内部用户的数据进行企业内部用户的用户画像的构建。
为了保证构建的用户画像的效果,本公开实施例中服务提供方先通过一先验阶段,对待部署在企业端的服务进行验证,总的来讲,先通过非企业内部用户的数据对用于预测用户标签的模型进行训练及验证,如此,企业端在用户画像构建过程中,可以利用该经过验证过的模型预测用户感兴趣标签,因为模型是经过先验阶段验证过的,如此,能够保证构建的用户画像的效果,相比较于不经过先验阶段,本公开实施例能够保证企业端预测的用户感兴趣标签的准确性。
在ToB场景中,有一些关于推荐、个性化搜索场景的需求,推荐场景中个性化推荐、订阅推荐等,搜索场景中根据用户不同兴趣给出个性化结果,强依赖用户画像的构建,可谓无用户画像无推荐、无个性。因为企业内部的数据不对外提供,提供给企业的搜索推荐产品是私有化部署的,用户行为数据也不可能拿到,这样导致在企业中推荐、个性化搜索等场景无法实现。
本公开实施例针对ToB的场景,通过企业端自身获取用户数据,根据用户数据进行用户画像的构建,进而可以根据构建的用户画像实现针对企业内部用户的个性化搜索、内容推荐等。
面向企业的用户画像是指企业内部员工的基本画像,可以包括基本信息,行为画像等。可以用于在企业场景中个性化搜索、推荐等场景。
企搜平台提供部署包,部署包完整部署到客户环境上,也可以理解为服务提供方向企业端提供服务,具体是将服务部署在企业端。企业内部管理员可以将内部私密文档上传到企搜平台,量级约为万级到千万级不等。企业内部用户(也即面向企业的用户)可以使用企搜服务检索出想要的文档。这种情况下,企搜平台可以理解为向企业端提供服务的服务提供方,企业端自身可以部署服务提供方提供的服务,利用该服务构建企业内部用户的用户画像,在企业内部用户使用企搜服务检索文档的过程中,可以利用用户画像为企业内部用户推荐其感兴趣的文档、向企业内部用户提供个性化搜素等。
一种可选的实施例中,本公开实施例提供的用户画像构建方法可以应用于企业端。例如,服务提供方将服务部署在企业端,企业端通过该服务对面向企业的用户进行用户画像构建。
用户包括面向企业的用户,特征数据包括面向企业的用户在企业内部的特征数据,预训练模型是向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练得到的。
在上述图1所示实施例的基础上,S101可以包括:获取面向企业的用户在企业内部的特征数据。
S102可以包括:
基于面向企业的用户的特征数据,通过预训练模型,得到面向企业的用户的用户画像的兴趣标签,其中,预训练模型是向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练得到的。
本公开实施例中,企业端获取面向企业的用户在企业内部的特征数据;并基于面向企业的用户的特征数据,通过预训练模型,得到面向企业的用户的兴趣标签,如此可以通过企业端自身构建面向企业的用户的用户画像。同时,企业端构建用户画像的过程中利用了向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练并验证得到的模型,能够保证构建的用户画像的效果,也可以理解为提高了构建的用户画像的准确性。
图2为本公开实施例提供的用户画像构建方法的流程图。参照图2,本公开实施例提供的用户画像构建方法可以包括:
S201,获取面向企业的用户在企业内部的特征数据。
其中,特征数据是基于面向企业的用户的属性信息和操作行为信息而统计得到的。
面向企业的用户也即企业内部用户。
企业内部信息可以包括文档、视频等内容。
例如,企搜平台提供部署包,部署包完整部署到客户环境上。企业内部管理员可以将内部私密文档上传到企搜平台,量级约为万级到千万级不等。企业内部用户(也即面向企业的用户)可以使用企搜服务检索出想要的文档。其中,企业内部管理员上传的内部私密文档即可以理解为企业内部信息。
一种实现方式中,可以获取面向企业的用户的属性信息;获取面向企业的用户针对企业内部信息的操作行为信息,操作行为信息是通过日志埋点得到的;针对属性信息和操作行为信息进行统计,得到特征数据。
属性信息可以包括企业用户信息以及用户的业务相关信息,如业务数据、业务需求、订阅数据等等。
操作行为信息也可以理解为行为数据。
属性信息和操作行为信息可以统称为基础数据。
基于基础数据进行统计分析得到特征数据,特征数据也可以称之为事实数据,例如,可以包括包括使用次数、搜索行为、点击行为、活跃时间、收藏、下载、使用评价等。
可以通过在统一对外的服务上做日志埋点,服务即企业端部署的服务,该服务是提供方提供的服务,埋点行为包括用户点击、用户搜索、点赞、收藏、页面停留时长,反馈数据,用户每次在平台的每次行为都会被记录下来,定时存储在服务日志中。日志埋点可以理解为按照预设格式,把日志信息写到特定的文件或介质中,如按照用户行为:行为信息的格式,将用户的行为信息写入服务日志中。然后,定时转存在线模块的服务日志,根据正则匹配获取用户行为日志并持久化到存储介质上,如持久化到Hadoop分布式文件系统(HadoopDistributed File System,HDFS)上。
可以通过挖掘模块定时从固定位置的日志文件中读取用户行为日志,并经过统计分析得到用户特征,即特征数据。
通过本公开实施例获取特征数据的方式可以更加全面地获取面向企业的用户的已有数据。
S202,基于面向企业的用户的特征数据,通过预训练模型,得到面向企业的用户的用户画像的兴趣标签。
其中,预训练模型是向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练得到的。
服务提供方先通过先验阶段,得到预训练模型,如此,服务提供方将服务部署至企业端,企业端在通过服务构建用户画像的过程中,可以利用该预训练模型确定得到面向企业的用户的兴趣标签。模型的输入是特征数据,输出是兴趣标签。
后续会对服务提供方经过先验阶段得到用于预测用户兴趣标签的模型的过程进行详细说明,这里先不赘述。
获取的面向企业的用户在企业内部的特征数据可以理解为面向企业的用户的已有数据,基于这些已有数据为用户确定兴趣标签。
使用先验阶段得到的预训练模型进行预测形成用户纬度的兴趣标签、活跃度等,将这些信息存储到用户画像库中形成模型标签。
兴趣标签也可以理解为模型标签,可以包括企业用户偏好、活跃度等。
其中,用户偏好是指根据用户自身的属性,例如用户部门、业务范围以及用户的在平台的各种行为,如在某文档上的点赞、收藏、下载、点踩、报错等行为,会根据文档的每个分类的权重以及用户正负向反馈的权重拟合出用户偏好的分类,并将该分类打到用户身上作为用户偏好标签。
用户活跃度是根据用户在企搜平台中的多种操作,例如使用时长,使用次数等计算得到,来评价用户在企搜平台的活跃程度,活跃度用来对用户做分层。
一种可实现方式中,面向企业的用户的用户画像可以包括基础数据、行为数据也即事实数据、兴趣标签也即模型标签等。
得到用户画像后,可以基于用户画像实现个性化搜索、内容推荐等。
图3为本公开实施例提供的内容推荐方法的流程图。参见图3,本公开实施例提供的确定用户感兴趣文档的方法可以包括:
S301,获取用户的兴趣标签;其中,兴趣标签是基于用户特征数据通过预训练模型得到的,预训练模型基于样本用户针对样本信息的特征数据进行训练得到;
S302,基于兴趣标签确定用户的感兴趣文档;
S303,向用户推荐感兴趣文档。
如此可以实现挖掘用户的感兴趣文档,基于兴趣标签为用户提供个性化搜索、内容推荐,以更好地为用户提供服务,提高用户体验。
一种可选的实施例中,本公开实施例提供的内容推荐方法可以应用于企业端。
用户可以包括面向企业的用户,兴趣标签是企业端基于面向企业的用户在企业内部的特征数据,通过预训练模型得到的,预训练模型是服务提供方基于样本用户针对样本信息的特征数据进行训练得到的。
一种可选的实施例中,S301可以包括:
获取面向企业的用户的兴趣标签;其中,兴趣标签是企业端基于面向企业的用户在企业内部的特征数据,通过预训练模型模型得到的,预训练模型是服务提供方基于样本用户针对样本信息的特征数据进行训练得到的;
S302可以包括:基于兴趣标签确定面向企业的用户的感兴趣文档;
S303可以包括:向面向企业的用户推荐感兴趣文档。
在推荐场景中,可以根据用户偏好分类推荐给用户感兴趣的该分类的文档。根据用户活跃度不同,实现不同的推荐策略,例如活跃度较高的用户表明对于推荐的结果相对感兴趣,多样性策略保持。而对于活跃度较低的用户可以调整多样性策略,使之占比高一些,推荐一些新颖分类的文档,以此要挖掘用户更感兴趣的文档。在个性化搜索场景中,根据用户偏好分类可以在搜索排序中根据偏好分类调整排序的结果,基于相关性重排结果,将用户更感兴趣分类中的文档结果排序位置提高。
一种可实现方式中,可以根据已有事实数据和模型标签,来预测企业用户的行为偏好,得到预测标签,具体地基于兴趣标签确定面向企业的用户的感兴趣文档,依据感兴趣文档为面向企业的用户确定预测标签,如预测标签包括感兴趣文档的属性信息,预测标签在一定程度上反映了在这个企业中用户的规律性。除了基础数据、行为数据、兴趣标签,用户画像还可以包括预测标签。
如此可以实现ToB场景挖掘用户的感兴趣文档,实现ToB场景下的个性化搜索、内容推荐,以更好地为用户提供服务,提高用户体验。
标签是一种特征符号的表示,每个标签都提供了一个观察、了解每个面向企业的用户的角度。用户画像可以包括基础数据、事实标签、模型标签、预测标签。如图4所示,利用基础数据进行统计分析得到事实标签,如获取面向企业的用户的属性信息;获取面向企业的用户针对企业内部信息的操作行为信息,操作行为信息是通过日志埋点得到的;针对属性信息和操作行为信息进行统计,得到特征数据。基础数据包括属性信息和操作行为信息,特征数据也可以称之为事实数据、事实标签。对事实标签进行建模分析得到模型标签,具体基于面向企业的用户的特征数据,通过预训练模型,得到面向企业的用户的兴趣标签。对模型标签进行模型预测得到预测标签,预测标签可以包括感兴趣标签、偏好推荐等,具体基于兴趣标签确定面向企业的用户的感兴趣文档,依据感兴趣文档为面向企业的用户确定预测标签,如预测标签包括感兴趣文档的属性信息。
本公开实施例中企业端可以利用大量用户基础信息及用户行为数据,在私有化环境中使用形成一套自流转系统,主要包括基础数据统计、数据分析、建模分析,最终模型预测,为每个用户赋予预测标签。即通过一系列简单、精炼的语言来描述用户的个性,而『标签』是能表示用户某一维度特征的标识。
企业用户画像的呈现,可以理解为在该企业中用户标签的集合,标签的各个纬度之间都不是独立的,存在强关联关系,如用户偏好标签是根据用户基础信息、用户部门、业务数据及事实标签拟合得到的,事实标签是根据用户行为数据分析统计得到的。
本公开实施例提供的目标模型训练方法,可以包括:
获取样本用户针对样本信息的特征数据;其中,特征数据包括样本用户的属性信息和操作行为信息;操作行为信息包括样本用户在第一时间范围内针对样本信息的第一操作行为信息和样本用户在第二时间范围内针对样本信息的第二操作行为信息;
基于样本用户的属性信息和第一操作行为信息,对初始模型进行训练,得到训练后的模型;
基于样本用户的属性信息和第二操作行为信息对训练后的模型进行再训练,得到目标模型。
再训练的过程也可以理解为对训练后的模型进行验证的过程。
根据客户需求场景针对相关领域挖掘文档数据,并获取在该数据集上的用户行为,基于数据集进行模型的训练并验证,得到经过验证的用于预测用户兴趣标签的模型,如此,在将服务部署到客户私有化生产环境后,构建用户画像的过程中可以基于用户的用户行为日志,利用该目标模型预测用户感兴趣标签,因为模型是经过先验阶段验证过的,如此,能够保证构建的用户画像的效果,相比较于不经过先验阶段,能够保证预测的用户感兴趣标签的准确性。
一种可选的实施例中,目标模型训练方法可以应用于向企业端提供服务的服务提供方。
服务提供方获取样本用户针对样本信息的特征数据;其中,特征数据包括样本用户的属性信息和操作行为信息;操作行为信息包括样本用户在第一时间范围内针对样本信息的第一操作行为信息和样本用户在第二时间范围内针对样本信息的第二操作行为信息;基于样本用户的属性信息和第一操作行为信息,对初始模型进行训练,得到训练后的模型;基于样本用户的属性信息和第二操作行为信息对训练后的模型进行再训练,得到目标模型
如此可以实现,服务提供方根据客户需求场景针对相关领域挖掘文档数据,并获取在该数据集上的用户行为,基于数据集进行模型的训练并验证,得到经过验证的用于预测用户兴趣标签的模型,如此,在将服务部署到客户私有化生产环境后,企业端构建用户画像的过程中可以基于企业端获取的企业用户的用户行为日志,利用该模型预测用户感兴趣标签,因为模型是经过先验阶段验证过的,如此,能够保证构建的用户画像的效果,相比较于不经过先验阶段,能够保证企业端预测的用户感兴趣标签的准确性。
参照图5,本公开实施例提供的目标模型训练方法,可以包括:
S501,获取样本用户针对样本信息的特征数据。
其中,特征数据包括样本用户的属性信息和操作行为信息;操作行为信息包括样本用户在第一时间范围内针对样本信息的第一操作行为信息和样本用户在第二时间范围内针对样本信息的第二操作行为信息。
样本用户可以理解为针对样本信息进行操作行为的用户,非企业内部用户。操作行为可以包括对文档的点击、收藏、评论等行为。
样本信息可以包括多个领域的文档。
具体地,S501可以包括:
获取样本用户的属性信息;针对每一文档,利用文档的标识信息,获取针对文档的用户交互记录;用户交互记录包括至少一个用户在预设时间范围内针对文档的行为记录;利用至少一个用户针对文档的行为记录,确定至少一个用户中的活跃用户;确定活跃用户的用户关系;利用文档标识获取文档。
用户交互记录可以包括样本用户针对样本信息进行操作行为的信息,如操作时间、操作行为、操作次数等等。
一种可实现方式中,可以利用操作次数确定活跃用户,如针对样本信息操作次数超过预设次数的样本用户为活跃用户。
不同样本用户之间存在关系,如存在工作关系,职级、职位、职位关系等等。用户关系可以理解为样本用户的属性信息。
一种可实现方式中,为了计算简便,可以从多个用户中筛选出活跃用户作为样本用户。获取活跃用户针对样本信息的特征数据。
从多个领域挖掘文档,并基于样本用户的属性信息以及针对样本信息的操作行为信息确定用于训练并验证模型的数据集,能够提高数据集的全面性,能够保证模型训练及验证的准确性。
S502,基于样本用户的属性信息和第一操作行为信息,对初始模型进行训练,得到训练后的模型。
初始模型可以包括:用户特征输入层、层次注意力融合层、特征交叉层和预测层。
一种可实现方式中,层次注意力融合层与用户特征输入层连接、特征交叉层与层次注意力融合层连接、全连接层与特征交叉层连接、以及预测层与全连接层连接。
S502可以包括:
将样本用户的属性信息和第一操作行为信息通过用户特征输入层输入层次注意力融合层;通过层次注意力融合层,针对样本用户的属性信息和第一操作行为信息进行特征融合,并将得到的融合结果输入特征交叉层;通过特征交叉层对得到的融合结果进行特征交叉,并将得到的特征交叉结果输入全连接层;通过全连接层将得到的特征交叉结果进行线性整流,将线性整流结果输入预测层,并基于线性整流结果,得到样本用户针对样本信息的预测行为标签。
将预测行为标签与第一操作行为信息对应的标签真值进行比较,基于比较结果调整初始模型的参数;响应于满足预设训练结束条件,得到训练后的模型。
将预测行为标签与第一操作行为信息对应的标签真值进行一次比较理解为一次迭代,预设训练结束条件可以包括迭代次数达到预设次数如1000次、2000次等,或者,预设训练结束条件可以包括预测行为标签与第一操作行为信息对应的标签真值的差异小于预设值,如0.1,0.01等等。
标签真值可以包括操作行为所针对的样本信息的分类标签等,例如,一操作行为信息是样本用户A针对文档A进行的操作,该第一操作行为信息对应的标签值可以是文档A。
服务提供方基于样本用户的属性信息和操作行为信息可以训练得到用于预测用户的兴趣标签的模型,如此,服务提供方将服务部署到企业端,企业端可以利用该模型预测兴趣标签,能够保证预测兴趣标签的效果。
S503,基于样本用户的属性信息和第二操作行为信息对训练后的模型进行再训练,得到目标模型。
将样本用户的属性信息和第二操作行为信息输入训练后的模型,得到输出结果;将输出结果与第二操作行为信息对应的标签真值进行比较,基于比较结果对训练后的模型进行再训练;响应于满足验证结束条件,得到目标模型。
将输出结果与第二操作行为信息对应的标签真值进行一次比较可以理解为一次迭代,验证结束条件可以包括迭代次数达到预设次数如1000次、2000次等,或者,验证结束条件可以包括输出结果与第二操作行为信息对应的标签真值的差异小于预设值,如0.1,0.01等等。
再训练也可以理解为对训练后的模型的参数进行微调,进一步提高模型的准确性。
本公开提供了一种用户画像构建方法,如图6A所示,可以包括:
S601,获取用户的特征数据;特征数据是基于用户的属性信息和操作行为信息得到的;
S602,基于用户的特征数据,通过目标模型,得到用户的用户画像的兴趣标签。
目标模型是通过上述目标模型训练方法得到的。
基于用户的特征数据,通过目标模型,得到用户的用户画像的兴趣标签,类似于上述实施例中基于用户的特征数据,通过预训练模型,得到用户的用户画像的兴趣标签的过程。即目标模型可以理解为上述预训练模型,即预先训练得到目标模型,如此,可以基于用户的特征数据,通过该目标模型,得到用户的用户画像的兴趣标签。具体地,基于用户的特征数据,通过预训练模型,得到用户的用户画像的兴趣标签在上述实施例中已经进行了详细说明,这里不再赘述。
一个具体的例子中,本公开实施例可以对包括用户特征输入层、与用户特征输入层连接的层次注意力融合层、与层次注意力融合层连接的特征交叉层、与特征交叉层连接的全连接层和与全连接层连接的预测层的初始模型训练得到用于预测兴趣标签的模型。
先分析下推荐场景。推荐需求概括来说,是基于用户的工作关系(职级、职位)和行为数据(搜索、点击、下载、购买)来构建用户的知识画像,根据知识画像来推荐用户在工作中可能用到的信息,从而缩短用户获取信息的路径,以达到提升工作效率的目的。基于此,本公开实施例中根据客户需求场景针对相关领域挖掘文档数据,并获取在该数据集上的用户行为。
第二步,选择离线评价指标。推荐常用的模型验证方式是,用第t-1天以及之前的数据用来训练模型,用第t天的数据来验证模型。结合能够获取到的资源和推荐需求来说,基于用户评分的数据集并不适合。同时,推荐需求,第一阶段需要解决推荐的全的问题,第二阶段再解决排的准的问题。另一方面,因为点击率预估(Click-Through-Rate,CTR)的训练方式是从底层开始喂进去用户与item的各种特征,之后通过模型去自动学习用户和item的交叉特征。但对于画像预估来说,这种模式的性能很不友好。因为CTR处理的是召回后的结果,量级在千级别,不会太大。但画像需要对整个标签的空间(百万量级的标签)进行打分,故直接把标签放到label侧,然后建模成一个多分类的任务,可以大大加快训练和预测效率。
基于此,本公开实施例中将推荐任务当做是一个CTR的分类任务,使用准确率、召回率和f1指标(精确率和召回率的调和平均数)来评测。
根据获取数据便利性与数据完备性,选择包括多个文档的数据集。针对可提供的行为数据来说,可提供用户的搜索、点击、下载和购买数据。虽然在真实场景中并没有购买选项,但可以将购买行为认作是该文档满足用户需求的强标识属性。
数据集可以包括:使用前30天的行为数据(搜索、点击、购买),来预测第31天的购买行为。例如:基于2020-10-01至2020-10-30的用户行为数据,去预测2020-10-31日的购买文档。
综上,构建数据集可以包括:抽取一万名领域活跃用户在连续30天的文库行为数据,去预测第31天的用户购买文档,用f1-score(用于表示精确率和召回率的调和平均数的分数)来评估推荐系统的效果。
具体地,构建数据集可以通过如下步骤:
第一步,构建领域分类文库数据集;分别构建金融、能源、军事的领域文库,每个领域文库包含约50万的文档;
第二步,根据文档的id(标识)获取每个文档近一个月的用户-文档交互记录;包括强行为记录和弱行为记录(强行为记录包括下单、支付、购买等,弱行为记录包括搜索、点击、阅读、下载、顶踩等);
第三步,通过领域文档的强行为记录,圈定一批领域用户,每个领域大约1万量级的用户(假定购买过某领域专业文档的用户是该领域专业用户);
第四步,获取并判定领域间用户关系;
第五步,通过领域文档的id获取相应文档;
第六步,清洗数据(例:去除最后一天没有购买行为的用户);
第七步,划分训练集和测试集(例:训练集用前29天的数据预测第30天的购买行为,测试集用前30天的数据预测第31天的购买行为)。
得到数据集后进行模型训练,如图6B所示。
层次注意力融合层,基于层次注意力对多个用户的特征做融合。特征交叉层对用户的特征交叉验证。
特征交叉层中可以通过线性函数层(Linear)以及交叉层(Cross)与全连接层中激活层连接,如通过线性整流(relu)层进行整流。
先对每个用户的多个离散特征进行注意力融合。离散特征主要为用户属性信息如年龄、职位、性别等,每个用户特征域输出embedding(特征向量),然后多个特征域的embedding再通过一个注意力融合,输出一个融合好的embedding。
本公开实施例中注意力融合采用的Attention(注意力)机制即一个加权求和过程。通过Query(查询内容)和Key计算权重;使用权重对Value进行加权求和从而得到Attention Value。例如,输入Query,Key1为Value1的权重,Key2为Value2的权重,Key3为Value3的权重,Key4为Value4的权重,进行加权求和,得到Attention Value。具体地,层次注意力融合层第一次输入的是分类和标签。每个注意力单元中的Feature vector(特征向量),如F1:Feature vector-1,F2:Feature vector-2,这个特征向量预先使用模型学习得到的一个向量,主要是评价哪些特征是对分类或者标签是更有价值的。根据Attention的思路,Feature-Vector类似注意力机制中的Query,每个分类或者标签为Key,对于每个注意力单元,每个特征与Feature-vector相乘,累加得到注意力权重。第二次输入的是上一步的权重产出和用户的基本信息。每个注意力单元里上一步的产出为注意力机制中的Query,每个用户信息为Key,利用注意力机制计算累加得到注意力权重。
特征交叉层也可以理解为交叉验证层,类似于文本处理的方式。本公开实施例中把融合好的稠密特征向量做特征交叉。使用类似FM的交叉方法,具体采用公式:
Ci,j=(Vi TVj)xixj
C=[C1,2,C1,3,……Ci,j,……](i<j≤n)
其中,Ci,j表示特征交叉值,每个i,j维特征计算方式为各自特征隐向量的内积再乘以他们的数值。之后做归一化,然后一起传到下一层。xi表示i维融合向量,xj表示j维融合向量,Vi、Vj表示上述层次注意力融合层中通过注意力机制计算出的权重,Vi T表示Vi的装置,n为自然数。
以C1,2为例,这里的x表示一个分类或者标签向量,V表示注意力机制计算出的权重。C1,2的计算为(x1v2 T)*x2V2,C1,3的计算为(x1v3 T)*x1v3
全连接层:按照常规使用。
预测层:根据用户的实际行为,例如点击、点赞、收藏、下载等行为,当用户点击过一篇文档,停留时长超过20秒,并且有正向行为(如收藏、下载等),则将这篇文档作为正例。用户对这篇文档中的标签或者分类的感兴趣权重相加决定用户最终的权重,这样模型去学习哪些分类或者标签用户应该更感兴趣,学习到的这些分类或者标签作为正例。曝光但没点击或者点击后停留时长小于20秒,无正向行为或存在负向行为(如点踩等)的文档标签全部作为负例。预测层产出用户感兴趣的标签或分类,如预测层可以通过代价函数(Joint-loss)预测产出用户感兴趣的标签或分类.
根据预测后的用户兴趣标签,对于预测的结果进行人工评估准确率和计算f1,不断调整特征参数以达到最优效果。
如此,服务提供方完成先验阶段。
基于ToB场景下,服务提供方无法获取到用户信息与行为数据等,本公开实施例中用户画像的构建过程部署在企业端,对于服务提供方来讲,也可以理解为部署在客户端,用户画像整体构建均在客户端,无监督地执行所有流程后,产出用户画像。为了保证构建的用户画像的效果,本公开实施例中通过两阶段构建法。第一个阶段为先验阶段,先验阶段是指根据先验知识集合,客观评价的构建方法。因在出厂前,服务提供方无法拿到企业内部用户的真实行为数据,本公开实施例中不依赖客户真实文档和用户行为数据来完成先验阶段,是根据客户需求场景针对相关领域挖掘文档数据,并获取在该数据集上的用户行为,基于数据集进行模型的训练并验证,得到经过验证的用于预测用户兴趣标签的模型。第二个阶段为后验阶段,后验阶段是指服务部署到客户私有化生产环境后,即服务部署到企业端后,企业端内部自循环生产用户感兴趣的标签,即利用先验阶段得到的模型预测用户兴趣标签。
如图7所示。服务端统一对外的服务上做日志埋点,埋点行为包括用户点击、用户搜索、点赞、收藏、页面停留时长,反馈数据,用户每次在平台的每次行为都会被记录下来,定时存储在服务日志中。定时转存在线模块的服务日志,根据正则匹配拿到用户行为日志并持久化到HDFS存储介质上。策略挖掘,挖掘模块定时从固定位置的日志文件中读取用户行为日志,并分析用户特征,使用先验阶段得到的预训练模型进行预测形成用户纬度的兴趣标签、活跃度等,也即得到兴趣标签,将这些信息存储到用户画像库中形成模型标签。
当用户再次搜索时,检索服务从用户画像库中获取模型给出的用户纬度兴趣标签、活跃度等,预测用户感兴趣的文档、感兴趣的内容来推荐给用户。
在企业场景中实现个性化推荐提供基础用户数据支持,同时为个性化搜索也提供数据依赖。本公开实施例是基于通用数据集构建并训练模型,私有化部署后可形成一个良好的生态系统,自给自足,用户是数据的生产者,同时也是消费者。不同于一般场景下,如ToC场景下是服务端收集客户端用户的相关信息,模型训练、策略分析进而为用户进行推荐。本公开实施例中是企业端自身通过定时触发的方式,收集用户行为信息并构建用户画像,进而进行推荐或个性化搜索的。
对应于上述实施例提供的用户画像构建方法,本公开实施例还提供了一种用户画像构建装置,如图8所示,可以包括:
获取模块801,用于获取用户的特征数据;特征数据是基于用户的属性信息和操作行为信息得到的;
确定模块802,用于基于用户的特征数据,通过预训练模型,得到用户的用户画像的兴趣标签;其中,预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
可选地,获取模块801,具体用于获取用户的属性信息;获取用户的操作行为信息,操作行为信息是通过日志埋点得到的;针对属性信息和操作行为信息进行统计,得到特征数据。
可选地,用户画像构建方法应用于企业端,用户包括面向企业的用户,特征数据包括面向企业的用户在企业内部的特征数据,预训练模型是向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练得到的。
对应于上述实施例提供的内容推荐方法,本公开实施例还提供了一种内容推荐装置,如图9所示,可以包括:
获取模块901,用于获取用户的兴趣标签;其中,兴趣标签是基于用户特征数据通过预训练模型得到的,预训练模型基于样本用户针对样本信息的特征数据进行训练得到;
确定模块902,用于基于兴趣标签确定用户的感兴趣文档;
推荐模块903,用于向用户推荐感兴趣文档。
可选地,用户包括面向企业的用户,兴趣标签是企业端基于面向企业的用户在企业内部的特征数据,通过预训练模型得到的,预训练模型是服务提供方基于样本用户针对样本信息的特征数据进行训练得到的。
对应于上述实施例提供的目标模型训练方法,本公开实施例还提供了一种目标模型训练装置,如图10所示,可以包括:
获取模块1001,用于获取样本用户针对样本信息的特征数据;其中,特征数据包括样本用户的属性信息和操作行为信息;操作行为信息包括样本用户在第一时间范围内针对样本信息的第一操作行为信息和样本用户在第二时间范围内针对样本信息的第二操作行为信息;
训练模块1002,用于基于样本用户的属性信息和第一操作行为信息,对初始模型进行训练,得到训练后的模型;
验证模块1003,用于基于样本用户的属性信息和第二操作行为信息对训练后的模型进行再训练,得到目标模型。
可选的,初始模型包括:初始模型包括:用户特征输入层、层次注意力融合层、特征交叉层、全连接层和预测层;
训练模块1002,具体用于将样本用户的属性信息和第一操作行为信息通过用户特征输入层输入层次注意力融合层;通过层次注意力融合层,针对样本用户的属性信息和第一操作行为信息进行特征融合,并将得到的融合结果输入特征交叉层;通过特征交叉层对得到的融合结果进行特征交叉,并将得到的特征交叉结果输入全连接层;通过全连接层将得到的特征交叉结果进行线性整流,将线性整流结果输入预测层,并基于线性整流结果,得到样本用户针对样本信息的预测行为标签;将预测行为标签与第一操作行为信息对应的标签真值进行比较,基于比较结果调整初始模型的参数;响应于满足预设训练结束条件,得到训练后的模型。
可选的,验证模块1003,具体用于将样本用户的属性信息和第二操作行为信息输入训练后的模型,得到输出结果;将输出结果与第二操作行为信息对应的标签真值进行比较,基于比较结果对训练后的模型进行再训练;响应于满足验证结束条件,得到目标模型。
可选的,获取模块1001,具体用于获取样本用户的属性信息;针对每一文档,利用文档的标识信息,获取针对文档的用户交互记录;用户交互记录包括至少一个用户在预设时间范围内针对文档的行为记录;利用至少一个用户针对文档的行为记录,确定至少一个用户中的活跃用户;确定活跃用户的用户关系;利用文档标识获取文档。
本公开实施例还提供了一种用户画像构建装置,如图11所示,可以包括:
获取模块1101,用于获取用户的特征数据;特征数据是基于用户的属性信息和操作行为信息得到的;
确定模块1102,用于基于用户的特征数据,通过目标模型训练装置得到的目标模型,得到用户的用户画像的兴趣标签。
目标模型训练装置即上述实施例中的目标模型训练装置。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图12所示,电子设备1200包括计算单元1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
电子设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如例如用户画像构建方法、内容推荐方法或目标模型训练方法。例如,在一些实施例中,例如用户画像构建方法、内容推荐方法或目标模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时,可以执行上文描述的用户画像构建方法、内容推荐方法或目标模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述用户画像构建方法、内容推荐方法或目标模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种用户画像构建方法,包括:
获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
基于所述用户的特征数据,通过预训练模型,得到所述用户的用户画像的兴趣标签;其中,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
2.根据权利要求1所述的方法,其中,所述获取用户的特征数据,包括:
获取所述用户的属性信息;
获取所述用户的操作行为信息,所述操作行为信息是通过日志埋点得到的;
针对所述属性信息和所述操作行为信息进行统计,得到所述特征数据。
3.根据权利要求1或2所述的方法,其中,所述用户画像构建方法应用于企业端;
所述用户包括面向企业的用户,所述特征数据包括面向企业的用户在企业内部的特征数据,所述预训练模型是向企业端提供服务的服务提供方,基于样本用户针对样本信息的特征数据进行训练得到的。
4.一种内容推荐方法,包括:
获取用户的兴趣标签;其中,所述兴趣标签是基于用户特征数据通过预训练模型得到的,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到;
基于所述兴趣标签确定所述用户的感兴趣文档;
向所述用户推荐所述感兴趣文档。
5.根据权利要求4所述的方法,其中,所述用户包括面向企业的用户,所述兴趣标签是企业端基于特征数据而通过预训练模型得到的,所述特征数据包括面向企业的用户在企业内部的特征数据,所述预训练模型是服务提供方基于样本用户针对样本信息的特征数据进行训练得到的。
6.一种目标模型训练方法,包括:
获取样本用户针对样本信息的特征数据;其中,所述特征数据包括所述样本用户的属性信息和操作行为信息;所述操作行为信息包括样本用户在第一时间范围内针对所述样本信息的第一操作行为信息和样本用户在第二时间范围内针对所述样本信息的第二操作行为信息;
基于所述样本用户的属性信息和所述第一操作行为信息,对初始模型进行训练,得到训练后模型;
基于所述样本用户的属性信息和所述第二操作行为信息对所述训练后的模型进行再训练,得到目标模型。
7.根据权利要求6所述的方法,其中,所述初始模型包括:用户特征输入层、层次注意力融合层、特征交叉层和预测层;
所述基于所述样本用户的属性信息和所述第一操作行为信息,对初始模型进行训练,得到训练后的模型,包括:
将所述样本用户的属性信息和所述第一操作行为信息通过所述用户特征输入层输入所述层次注意力融合层;
通过所述层次注意力融合层,针对所述样本用户的属性信息和所述第一操作行为信息进行特征融合,并将得到的融合结果输入所述特征交叉层;
通过所述特征交叉层对得到的融合结果进行特征交叉,并将得到的特征交叉结果输入所述全连接层;
通过所述全连接层将得到的特征交叉结果进行线性整流,将线性整流结果输入预测层,并基于所述线性整流结果,得到所述样本用户针对所述样本信息的预测行为标签;
将所述预测行为标签与所述第一操作行为信息对应的标签真值进行比较,基于比较结果调整所述初始模型的参数;
响应于满足预设训练结束条件,得到训练后的模型。
8.根据权利要求6所述的方法,其中,所述基于所述样本用户的属性信息和所述第二操作行为信息对所述训练后的模型进行再训练,得到目标模型,包括:
将所述样本用户的属性信息和所述第二操作行为信息输入所述训练后的模型,得到输出结果;
将所述输出结果与所述第二操作行为信息对应的标签真值进行比较,基于比较结果对所述训练后的模型进行再训练;
响应于满足验证结束条件,得到目标模型。
9.根据权利要求6至8任一项所述的方法,其中,所述获取样本用户针对样本信息的特征数据,包括:
获取所述样本用户的属性信息;
针对每一文档,利用所述文档的标识信息,获取针对所述文档的用户交互记录;所述用户交互记录包括至少一个用户在预设时间范围内针对所述文档的行为记录;
利用所述至少一个用户针对所述文档的行为记录,确定所述至少一个用户中的活跃用户;
确定所述活跃用户的用户关系;
利用所述文档标识获取所述文档。
10.一种用户画像构建方法,包括:
获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
基于所述用户的特征数据,通过如权利要求6至9任一项所述的目标模型训练方法得到的目标模型,得到所述用户的用户画像的兴趣标签。
11.一种用户画像构建装置,包括:
获取模块,用于获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
确定模块,用于基于所述用户的特征数据,通过预训练模型,得到所述用户的用户画像的兴趣标签;其中,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到。
12.根据权利要求11所述的装置,其中,所述获取模块,具体用于获取所述用户的属性信息;获取所述用户的操作行为信息,所述操作行为信息是通过日志埋点得到的;针对所述属性信息和所述操作行为信息进行统计,得到所述特征数据。
13.一种内容推荐装置,包括:
获取模块,用于获取用户的兴趣标签;其中,所述兴趣标签是基于用户特征数据通过预训练模型得到的,所述预训练模型基于样本用户针对样本信息的特征数据进行训练得到;
确定模块,用于基于所述兴趣标签确定所述用户的感兴趣文档;
推荐模块,用于向所述用户推荐所述感兴趣文档。
14.一种目标模型训练装置,包括:
获取模块,用于获取样本用户针对样本信息的特征数据;其中,所述特征数据包括所述样本用户的属性信息和操作行为信息;所述操作行为信息包括样本用户在第一时间范围内针对所述样本信息的第一操作行为信息和样本用户在第二时间范围内针对所述样本信息的第二操作行为信息;
训练模块,用于基于所述样本用户的属性信息和所述第一操作行为信息,对初始模型进行训练,得到训练后的模型;
验证模块,用于基于所述样本用户的属性信息和所述第二操作行为信息对所述训练后的模型进行再训练,得到目标模型。
15.根据权利要求14所述的装置,其中,所述初始模型包括:用户特征输入层、层次注意力融合层、特征交叉层、全连接层和预测层;
所述训练模块,具体用于将所述样本用户的属性信息和所述第一操作行为信息通过所述用户特征输入层输入所述层次注意力融合层;通过所述层次注意力融合层,针对所述样本用户的属性信息和所述第一操作行为信息进行特征融合,并将得到的融合结果输入所述特征交叉层;通过所述特征交叉层对得到的融合结果进行特征交叉,并将得到的特征交叉结果输入所述全连接层;通过所述全连接层将得到的特征交叉结果进行线性整流,将线性整流结果输入预测层,并基于所述线性整流结果,得到所述样本用户针对所述样本信息的预测行为标签;将所述预测行为标签与所述第一操作行为信息对应的标签真值进行比较,基于比较结果调整所述初始模型的参数;响应于满足预设训练结束条件,得到训练后的模型。
16.根据权利要求14所述的装置,其中,所述验证模块,具体用于将所述样本用户的属性信息和所述第二操作行为信息输入所述训练后的模型,得到输出结果;将所述输出结果与所述第二操作行为信息对应的标签真值进行比较,基于比较结果对所述训练后的模型进行再训练;响应于满足验证结束条件,得到目标模型。
17.一种用户画像构建装置,包括:
获取模块,用于获取用户的特征数据;所述特征数据是基于所述用户的属性信息和操作行为信息得到的;
确定模块,用于基于所述用户的特征数据,通过如权利要求14至16任一项所述的目标模型训练装置得到的目标模型,得到所述用户的用户画像的兴趣标签。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项的方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202210212176.8A 2022-03-04 2022-03-04 画像构建、推荐、模型训练方法、装置、设备及存储介质 Active CN114595323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210212176.8A CN114595323B (zh) 2022-03-04 2022-03-04 画像构建、推荐、模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210212176.8A CN114595323B (zh) 2022-03-04 2022-03-04 画像构建、推荐、模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114595323A true CN114595323A (zh) 2022-06-07
CN114595323B CN114595323B (zh) 2023-03-10

Family

ID=81814901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210212176.8A Active CN114595323B (zh) 2022-03-04 2022-03-04 画像构建、推荐、模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114595323B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN112541122A (zh) * 2020-12-23 2021-03-23 北京百度网讯科技有限公司 推荐模型的训练方法、装置、电子设备及存储介质
US20210405742A1 (en) * 2020-06-30 2021-12-30 Beijing Xiaomi Mobile Software Co., Ltd. Method and device for determining gaze position of user, storage medium, and electronic apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
US20210405742A1 (en) * 2020-06-30 2021-12-30 Beijing Xiaomi Mobile Software Co., Ltd. Method and device for determining gaze position of user, storage medium, and electronic apparatus
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN112541122A (zh) * 2020-12-23 2021-03-23 北京百度网讯科技有限公司 推荐模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIHONG YAO 等: "A Personalized Recommendation System Based on User Portrait" *
YIBING WU 等: "User Portraits and Investment Planning Based on Accounting Data" *
孙明瑞: "基于特征关联的特征识别与推荐算法研究" *

Also Published As

Publication number Publication date
CN114595323B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN107908740B (zh) 信息输出方法和装置
US20180342004A1 (en) Cumulative success-based recommendations for repeat users
US10503569B2 (en) Feature-based application programming interface cognitive comparative benchmarking
CN106557480B (zh) 查询改写的实现方法及装置
US10558987B2 (en) System identification framework
US20200234218A1 (en) Systems and methods for entity performance and risk scoring
CN110955831B (zh) 物品推荐方法、装置、计算机设备及存储介质
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
US20140337275A1 (en) Method and system for scaling panels
US10678821B2 (en) Evaluating theses using tree structures
US20200293898A1 (en) System and method for generating and optimizing artificial intelligence models
CN111667024B (zh) 内容推送方法、装置、计算机设备和存储介质
CN117235586B (zh) 酒店客户画像构建方法、系统、电子设备及存储介质
KR102422408B1 (ko) 협업 필터링 신경망을 이용하여 상품을 추천하는 방법 및 장치
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
US20190205702A1 (en) System and method for recommending features for content presentations
CN114647627A (zh) 基于数据属性对数据集进行排序
CN113424207B (zh) 高效地训练可理解模型的系统和方法
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
US20190251581A1 (en) System and method for client application user acquisition
CN110020118B (zh) 一种计算用户之间相似度的方法及装置
CN114595323B (zh) 画像构建、推荐、模型训练方法、装置、设备及存储介质
CN116739665A (zh) 信息投放方法、装置、电子设备及存储介质
CN102799593B (zh) 个人化搜寻排序方法以及系统
CN112328899A (zh) 信息处理方法、信息处理装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant