CN110209875B - 用户内容画像确定方法、访问对象推荐方法和相关装置 - Google Patents
用户内容画像确定方法、访问对象推荐方法和相关装置 Download PDFInfo
- Publication number
- CN110209875B CN110209875B CN201810719454.2A CN201810719454A CN110209875B CN 110209875 B CN110209875 B CN 110209875B CN 201810719454 A CN201810719454 A CN 201810719454A CN 110209875 B CN110209875 B CN 110209875B
- Authority
- CN
- China
- Prior art keywords
- user
- matrix
- theme
- content
- access object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 135
- 239000011159 matrix material Substances 0.000 claims abstract description 340
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000006399 behavior Effects 0.000 claims description 122
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000017105 transposition Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 19
- 238000003860 storage Methods 0.000 description 19
- 238000009825 accumulation Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 238000009482 thermal adhesion granulation Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络数据分析及处理技术领域,公开了一种用户内容画像确定方法、访问对象推荐方法和相关装置。本发明提供的方法及装置中,根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,根据用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,再根据用户主题矩阵和关系矩阵,确定用户的用户内容画像。采用上述方法,直接根据用户行为数据和内容数据得到表征用户行为主题与内容主题之间关系的关系矩阵,进而基于用户主题矩阵和关系矩阵确定出用户内容画像,流程简单且无需对内容数据进行人工标注,避免了现有技术中利用传统算法因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题。
Description
技术领域
本发明涉及网络数据分析与处理技术领域,尤其涉及一种用户内容画像确定方法、访问对象推荐方法、相关装置和可读介质。
背景技术
传统的用户内容画像算法,主要累积用户对于内容喜好的画像,需要在基于行为的统计类算法的基础上设计复杂的累积逻辑,引入许多人工参数并反复调试。在内容侧画像的描述上,传统方案通常依赖内容数据粒度,而内容侧数据的标准多依赖人工,基于这一情况下,传统内容侧画像方案往往面临粒度不可控的问题;此外,传统方案建立的用户行为画像和内容画像通常是两套“语言”体系,实际应用有诸多不便。
因此,如何简化利用用户的内容数据和行为数据得到用户的用户内容画像的流程,避免传统算法因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题是需要考虑的问题。
发明内容
本发明实施例提供一种用户内容画像确定方法、访问对象推荐方法和相关装置,用以简化获得用户的用户内容画像的流程,避免因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题。
第一方面,本发明实施例提供一种用户内容画像确定方法,包括:
根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,所述用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的;
根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的;
根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像。
这样,本发明利用用户行为数据得到的用户主题矩阵和能够表征用户行为主图与内容主题之间的关系矩阵,将用户行为数据与内容数据关联起来,来确定用户的用户内容画像,无需设计复杂的累积逻辑,流程简单,从而避免了现有技术中因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题。
较佳地,根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,具体包括:
利用文档主题生成模型LDA对所述用户行为数据进行处理,确定用于表征用户特征的用户主题矩阵。
优选地,根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,具体包括:
利用文档主题生成模型LDA分别对所述用户行为数据和所述内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵,其中第一主题矩阵的行数与第二主题矩阵的行数相同;
将所述第一主题矩阵进行转置处理得到所述第一主题矩阵的转置矩阵;并
将所述转置矩阵与所述第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵,其中,所述用户主题矩阵的列数与所述第一主题矩阵的列数相同。
采用上述流程,通过利用LDA模型对用户行为数据和内容数据进行处理得到用户行为主题与内容主题之间的关系矩阵,无需人工标注,无需设计复杂的累积逻辑。
可选地,根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,具体包括:
利用文档主题生成模型LDA对所述内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵;并
利用所述词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵,所述Author LDA模型为利用所述词主题矩阵和所述内容数据进行训练得到的;
将所述作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵。
进一步地,根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像,具体包括:
将基于所述用户主题矩阵与所述关系矩阵的乘积得到的乘积矩阵,确定为用户的用户内容画像。
本发明无需进行截断来得到用户内容画像,解决了传统算法中由于累积造成的需要截断的问题导致用户内容画像多样性降低的问题。
优选地,所述日志数据包括用户的标识信息和用户访问的访问对象的标识信息;以及所述用户行为数据为由各个用户的标识信息及各个用户访问的访问对象的标识信息构成的矩阵。
优选地,所述内容数据为由各个访问对象的标识信息及每一访问对象的内容项进行切词处理后得到的关键词构成的矩阵,所述内容项为从访问对象的属性信息中提取得到的;每一内容项至少包括以下一项内容:访问对象的标题、访问对象所属的标签和访问对象所属的类别。
通过对内容项进行切词处理得到的内容数据,无需进行人工标注,避免了传统算法描述粒度不可控,需要人工介入的问题。
第二方面,本发明实施例提供一种访问对象推荐方法,包括:
获取用户的用户内容画像,所述用户内容画像为基于本发明提供的用户内容画像确定方法确定的;
对所述用户内容画像进行采样,得到用户感兴趣的内容主题;
根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
采用上述方法,通过利用本发明提供的用户内容画像确定方法确定出的用户内容画像,能够及时向用户推荐用户感兴趣的访问对象。
较佳地,根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合,具体包括:
确定所述对象主题矩阵的转置矩阵;并
根据所述内容主题,按照随机采样或阈值截断的方法从所述转置矩阵中提取用户感兴趣的访问对象集合。
第三方面,本发明实施例提供一种用户内容画像确定装置,包括:
第一确定单元,用于根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,所述用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的;
第二确定单元,用于根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的;
第三确定单元,用于根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像。
较佳地,所述第一确定单元,具体用于利用文档主题生成模型LDA对所述用户行为数据进行处理,确定用于表征用户特征的用户主题矩阵。
优选地,所述第二确定单元,具体用于利用文档主题生成模型LDA分别对所述用户行为数据和所述内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵,其中第一主题矩阵的行数与第二主题矩阵的行数相同;将所述第一主题矩阵进行转置处理得到所述第一主题矩阵的转置矩阵;并将所述转置矩阵与所述第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵,其中,所述用户主题矩阵的列数与所述第一主题矩阵的列数相同。
优选地,所述第二确定单元,具体用于利用文档主题生成模型LDA对所述内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵;并利用所述词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵,所述Author LDA模型为利用所述词主题矩阵和所述内容数据进行训练得到的;将所述作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵。
可选地,所述第三确定单元,具体用于将基于所述用户主题矩阵与所述关系矩阵的乘积得到的乘积矩阵,确定为用户的用户内容画像。
较佳地,所述日志数据包括用户的标识信息和用户访问的访问对象的标识信息;以及所述用户行为数据为由各个用户的标识信息及各个用户访问的访问对象的标识信息构成的矩阵。
较佳地,所述内容数据为由各个访问对象的标识信息及每一访问对象的内容项进行切词处理后得到的关键词构成的矩阵,所述内容项为从访问对象的属性信息中提取得到的;每一内容项至少包括以下一项内容:访问对象的标题、访问对象所属的标签和访问对象所属的类别。
第四方面,本发明实施例提供一种访问对象推荐装置,包括:
获取单元,用于获取用户的用户内容画像,所述用户内容画像为基于本发明提供的用户内容画像确定方法确定的;
采样单元,用于对所述用户内容画像进行采样,得到用户感兴趣的内容主题;
确定单元,用于根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
较佳地,所述确定单元,具体用于确定所述对象主题矩阵的转置矩阵;并根据所述内容主题,按照随机采样或阈值截断的方法从所述转置矩阵中提取用户感兴趣的访问对象集合。
第五方面,本发明实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的用户内容画像确定方法,或者执行本申请提供的访问对象推荐方法。
第六方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的用户内容画像确定方法,或者执行本申请提供的访问对象推荐方法。
本发明有益效果:
本发明实施例提供的用户内容画像确定方法、访问对象推荐方法和相关装置,根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,然后根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,再根据所述用户主题矩阵和所述关系矩阵,确定所述用户的用户内容画像。通过采用上述方法,直接根据用户行为数据和内容数据得到表征用户行为主题与内容主题之间关系的关系矩阵,使得内容数据的粒度可控,进而基于用户主题矩阵和关系矩阵确定出用户内容画像,流程简单且无需对内容数据进行人工标注,避免了现有技术中利用传统算法因需要设计复杂的累积逻辑所可能带来的过于泛化或细化问题。
进一步地,通过获取本发明提供的用户内容画像,对所述用户内容画像进行采样,得到用户感兴趣的内容主题;根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐。通过利用本发明确定出的用户内容画像,可以向用户及时推荐用户感兴趣的访问对象,不仅提高了推荐结果的多样性,而且提高了用户对应用程序的满意程度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的设置有用户内容画像确定方法的计算装置10的结构示意图;
图2a为本发明实施例提供的访问对象推荐方法的应用场景示意图;
图2b为本发明实施例提供的基于某用户的视频的用户内容画像向该用户推荐的视频的界面图;
图3为本发明实施例提供的用户内容画像确定方法的流程示意图;
图4为本发明实施例提供的确定用户主题矩阵、第一和第二主题矩阵的原理示意图;
图5a为本发明实施例提供的利用LDA模型确定用户行为主题与内容主题之间的关系矩阵的流程示意图;
图5b为本发明实施例提供的确定关系矩阵的原理示意图;
图6a为本发明实施例提供的Author LDA模型的原理示意图;
图6b为本发明实施例提供的利用Author LDA模型确定用户行为主题与内容主题之间的关系矩阵的流程示意图;
图7为本发明实施例提供的确定用户内容画像的原理示意图;
图8为本发明实施例提供的访问对象推荐方法的流程示意图;
图9为本发明实施例提供的确定用户感兴趣的访问对象集合的流程示意图;
图10为本发明实施例提供的用户内容画像确定装置的结构示意图;
图11为本发明实施例提供的访问对象推荐装置的结构示意图;
图12为本发明实施例提供的实施用户内容画像确定方法或访问对象推荐方法的终端设备800的硬件结构示意图。
具体实施方式
本发明实施例提供的一种用户内容画像确定方法、访问对象推荐方法和相关装置,用以简化获得用户的用户内容画像的流程,避免现有技术中利用传统算法因需要设计复杂的累积逻辑所可能带来的过于泛化或细化问题。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了便于理解本发明,本发明涉及的技术术语中:
1、应用程序:为可以完成某项或多项特定工作的计算机程序,它具有可视的显示界面,能与用户进行交互,比如电子地图、QQ音乐和微信等都可以称为应用程序。
2、访问对象,是指用户访问应用程序中的资源,也称物品,简称ITEM。例如,若应用程序为视频APP,则访问对象为视频;若应用程序为音乐APP,则访问对象为歌曲;若应用程序为淘宝,则访问对象可以为衣服、护肤品、化妆品和儿童玩具等等。
3、用户行为数据:是指用户访问应用程序中访问对象时,从应用程序记录的访问对象的日志数据中提取出与用户内容画像相关的数据。本发明中的日志数据包括用户的标识信息、访问对象的标识信息和用户设备标识等等,而用户的标识信息可以由用户ID来表征,即用户登录应用程序的ID;而应用程序中的访问对象具有唯一的访问对象ID,故访问对象的标识信息可以由访问对象ID来表征。而本发明是为了确定用户的用户内容画像,故用户ID和访问对象ID是确定用户内容画像必须的因素,因此本发明中的用户行为数据为:由各个用户的用户ID和各个用户访问的访问对象的ID构成的矩阵。
4、内容数据:是指从用于表征用户访问的访问对象的属性信息中提取出与用户的用户内容画像相关的数据。
5、文档主题生成模型:(Latent Dirichlet Allocation,LDA),是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息,它是将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。本发明中通过将用户的用户行为数据输入到LDA模型中,可以得到用于表征用户特征的用户主题矩阵,而矩阵的每一行即为一个行向量,表征的是该行用户的用户主题向量。同理,通过将内容数据输入到LDA模型中,可以得到用于表征访问对象的主题矩阵,即本发明中的第一主题矩阵和第二主题矩阵,而主题矩阵中的每一行同样为一个行向量,其表征的是该行对应的访问对象的访问对象主题向量。
6、作者文档主题生成模型,也称Author LDA,在传统的LDA模型上加入Author的概念,即一篇文章可能有多个Author,一个Author可能有多篇文章,词是文章的组成元素,而Author LDA模型可以描述Author与词之间的关系。本发明利用Author LDA可以得到用户行为主题与内容主题之间的关系矩阵。
现有的用户内容侧画像计算方法主要统计用户对推荐系统中访问对象ITEM的访问行为,将被访问的访问对象带有的内容属性“传递”到用户身上,由此得到用户的用户内容画像。例如在视频推荐领域,以访问对象为视频为例进行说明,现有技术中建立一个用户内容画像的流程大致如下:首先,搜集用户在过去一段时间内的播放的所有视频id,然后通过视频id获得视频的内容数据;再将每个id对应的内容数据累积到用户id上。例如,在视频推荐中,一个常用的方法是获得每个视频的标签TAG和分类,如果用户内容画像域中还不存在某个TAG和分类时,则将当前TAG和分类座位新的内容项加入到用户内容画像中并给一个初始权重,如果用户内容画像中已经存在则更新当前TAG和分类的权重。基于此得到的用户内容画像存在以下问题:内容项的选择粒度影响得到的用户内容画像,而且选择的TAG或分类是人工标记的,标准不一存在歧义和近义等问题;此外,现有的累积算法是在用户内容画像域中增加内容项的权重,显然这么做没有考虑时间衰减的问题,内容项本身权重问题,故现有技术需要设计一套累积逻辑将这些因素考虑在内,从而导致累积算法需要引入诸多参数,复杂度非常高,而且由此获得的内容画像也很有可能过于泛化或者细化;再者,随着用户访问的ITEM越来越多,导致累积数量较多的内容项。在实际应用中,由于存储和性能等因素不可能对于用户的所有内容项都予以保留,现有的方法是采用截断技术去除哪些不常出现的内容项,即从用户内容画像中去掉低权重内容项,这样操作会导致得到的用户内容画像多样性降低,进而利用得到的用户内容画像进行推荐时推荐结果不准确的概率也相应很高。
为了解决现有技术中存在的上述问题,本发明实施例给出了解决方案,提供了一种用户内容画像确定方法。本发明提供的方法可以应用到计算装置中,该计算装置以通用计算设备的形式表现,例如该计算设备可以为服务器。计算装置可以获取具有推荐功能的应用程序记录的用户访问该应用程序中的访问对象的日志数据,并获取用户访问该应用程序中访问对象的属性信息,然后从上述日志数据中获取用户的用户行为数据,以及从上述属性信息中获取访问对象的内容数据;在获得用户行为数据和内容数据后,计算装置根据获取到的用户行为数据确定用于表征用户特征的用户主题矩阵,然后再根据用户行为数据和访问对象的内容数据确定出用户行为主题与内容主题之间的关系矩阵;最后根据确定出的用户主题矩阵和上述关系矩阵得到用户的用户内容画像。采用本发明提供的方法,无需设计复杂的累积算法,直接根据用户的用户行为数据和内容数据即可得到用户的用户内容画像,流程简单,同时避免了传统算法因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题。
图1示出了一种计算装置10的结构示意图,计算装置1的组件可以包括但不限于:上述至少一个处理单元11、上述至少一个存储单元12、连接不同系统组件(包括存储单元12和处理单元11)的总线13。
总线13表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元12可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)121和/或高速缓存存储器122,还可以进一步包括只读存储器(ROM)123。
存储单元12还可以包括具有一组(至少一个)程序模块124的程序/实用工具125,这样的程序模块124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置10也可以与一个或多个外部设备14(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置10交互的设备通信,和/或与使得该计算装置10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口15进行。并且,计算装置10还可以通过网络适配器16与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器16通过总线13与用于计算装置10的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员可以理解,图1显示的计算装置10仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本发明提供的用户内容画像确定方法的应用场景是,可以利用确定出的用户内容画像进行推荐,参考图2a所示的应用场景示意图,服务器22在利用本发明提供的方法确定用户内容画像后,可以获取某一用户的用户内容画像,然后对所述用户内容画像进行采样,得到用户感兴趣的内容主题;再根据上述内容主题和用于表征访问对象的对象主题矩阵,确定出用户感兴趣的访问对象集合,以此在通过用户设备21中安装的应用程序向用户20推荐访问对象集合中的对象。基于本发明提供的用户内容画像,不仅可以向用户推荐用户感兴趣的内容,还可以提高用户对应用程序的体验度。例如将本发明提供的方法应用到视频推荐领域,则本发明中的访问对象为视频,在利用上述方法得到关于视频的用户内容画像后,服务器22可以基于上述方法通过用户设备21中安装的腾讯视频应用程序向用户20推荐用户比较感兴趣的视频,参考图2b所示,为利用本发明确定出的某用户的基于视频的用户内容画像向该用户推荐的视频的界面图,基于该用户历史浏览视频应用程序记录的日志和访问的视频的内容数据,利用本发明提供的方法得到了该用户的用户内容画像,然后利用上述方法获知该用户对足球比较感兴趣,则向用户推荐了与足球相关的视频。这样一来,用户不仅可以看到比较感兴趣的视频,还可以提高对视频应用程序的使用率。
下面结合图1的计算装置的结构示意图、图2a和2b所示的应用场景及视频推荐效果图,参考图3-图12来描述根据本发明示例性实施方式提供的用户内容画像确定方法和访问对象推荐方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图3所示,为本发明实施例提供的用户内容画像确定方法的流程示意图,在下文的介绍过程中,以将该方法应用在图1所示的计算装置10为例。该方法的具体实时流程如下:
S11、获取用户行为数据和访问对象的内容数据。
本步骤中,用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的,而日志数据可以为应用程序定期向计算装置10上报的,也可以为计算装置主动从应用程序中获取的。当用户访问应用程序中的访问对象后,会为每一访问对象记录一条日志数据。该日志数据一般包括用户的标识信息、访问对象的标识信息、访问时间、包含上述应用程序的用户设备的标识信息和用户设备的地址信息等等。由于本发明是为了获得用户的用户内容画像,故本发明只需从每一用户的日志数据中提取用户的标识信息和访问对象的标识信息即可。
需要说明的是,本发明中的用户的标识信息可以为用户ID标识,记为User ID,本发明中的访问对象的标识信息可以为访问对象的ID,记为Item ID。
在获取到日志数据后,可以选取预设时间段内的日志数据,然后从这些日志数据中提取用户行为数据,本发明获取到的用户行为数据为由各个用户的标识信息及各个用户访问的访问对象的标识信息构成的矩阵。矩阵中的每一行由每一用户的User ID和访问对象的ITEM ID构成,可以将该矩阵记为User Actions矩阵,其表达式为:该矩阵中User IDi表示第i个用户的用户ID,Item IDi1~Item IDiN表示第i个用户的访问应用程序中各个访问对象的Item ID。由于各个用户访问的访问对象可能不相同,故本发明中利用下标来区分各个Item ID,虽然下标不同但可能表示的是相同的访问对象的ID,例如第1个用户和第二个用户均访问了同一个访问对象,则表明这两个用户对应的用户行为数据中相同的访问对象ID。以访问对象为视频为例,则User Actions矩阵中每一用户的用户行为数据为该用户的标识信息及该用户访问的视频的视频ID。
本发明中的内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。较佳地,本发明中的内容数据为由各个访问对象的标识信息及每一访问对象的内容项进行切词处理后得到的关键词构成的矩阵,所述内容项为从访问对象的属性信息中提取得到的;每一内容项可以但不限于包括以下一项内容:访问对象的标题、访问对象所属的标签和访问对象所属的类别等。
具体地,在根据确定出用户访问的访问对象的属性信息后,确定出各个访问对象的内容项,然后对内容项包含的内容都可以看做是由若干个关键词构成,则基于此原理对各个访问对象的内容项中的内容进行切词处理得到若干个关键词,由此可以得到由各个访问对象的标识信息及切词后得到的关键词构成的矩阵,即图4中N个访问对象对应的Itemwords构成的矩阵,表达式为:该矩阵的每一行表示的是该行访问对象的内容数据,矩阵中Item IDj表示第j个访问对象的ID,wodj1~wordjl表示对第j个访问对象的内容数据包含的内容项进行切词处理得到的关键词。还以访问对象为视频为例进行说明,每一视频的内容项可以为视频的标题、视频所属的类别和视频所属的标签等。对于视频的标题,可以对该标题进行切词处理,得到若干个关键词words,而对于视频的标签TAGs,每个视频可能具有多个标签,则每个标签都可以看作是一个关键词,同样对于视频的类别,每一个类别也可以看作是一个关键词,例如一个爱情喜剧电影,则该视频的类型可以为爱情、喜剧等,则可以得到两个关键词。本发明中的内容数据还可以包括其他属性信息,这些属性信息同样可以进行切词处理得到关键词。通过对内容数据进行切词处理,无需人工标注选择内容项,从而解决了传统算法中内容项选择影响用户内容画像的结果的问题。
S12、根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵。
具体利用文档主题生成模型(LDA)对清洗后的用户行为数据进行处理,确定出用于表征用户特征的用户主题矩阵,可以参考图4所示,将用户行为数据输入到LDA模型中得到用户主题矩阵,即图4中的User Topic Matrix,可以用U1表示得到的用户主题矩阵。
较佳地,在利用用户行为数据得到用于表征用户特征的用户主题矩阵之前,可以对用户行为数据进行清洗,具体可以采用现有的数据清洗方法来清洗用户行为数据。通过对用户行为数据进行数据清洗可以将一些无法反映用户行为的数据清洗掉,例如确定出短时间内访问量特别大的访问对象,明显是存在不良操作行为,这样的数据明显不能表征用户的用户特征,故可以将这些数据清洗掉。在对用户行为数据执行清洗操作之后,再利用LDA对清洗后的用户行为数据进行处理,确定出用户主题矩阵。
S13、根据用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵。
本步骤中,通过将用户行为数据和内容数据处理成同样的形式,利用这两类数据直接得到用户行为主题与内容主题之间的关系矩阵,基于此得到用户的用户内容画像,从而使得行为和内容画像得到一致且可控的刻画,有效避免了传统算法过于泛化或细化的问题。
优选地,在获得内容数据后,可以对内容数据进行数据清洗,具体可以采用常规的清洗方法清洗上述内容数据,由此可以避免利用相关性不大的数据来确定用户内容画像所可能带来的处理资源的浪费。
S14、根据用户主题矩阵和关系矩阵,确定用户的用户内容画像。
采用本发明实施例给出的上述步骤S11~S14,无需设计复杂的累积算法,直接根据用户的用户行为数据和内容数据即可得到用户的用户内容画像,流程简单,同时避免了传统算法因需要设计复杂的累积逻辑所可能带来的过于泛化或细化问题。
下面以一个具体示例,详细说明如何根据用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵。如图5a所示,确定用户行为主题与内容主题之间的关系矩阵,主要包括以下步骤:
S21、利用文档主题生成模型LDA分别对用户行为数据和内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵。
其中,第一主题矩阵的行数与第二主题矩阵的行数相同。
本步骤中,参考图4所示,在将用户行为数据输入到LDA模型中得到用户主题矩阵的同时,还会得到用于表征访问对象特征的第一主题矩阵,即图4中的Item TopciMatrix1。需要说明的是,步骤S12得到的用户主题矩阵的列数与所述第一主题矩阵的列数相同,记为K1列。例如,输入到LDA模型中的用户行为数据包含M个用户,则得到的用户主题矩阵的维数为:M*K1,而第一主题矩阵表征的是访问对象的特征,故第一主题矩阵的行表征各个访问对象的特征,即第一主题矩阵的行数为访问对象的数量,以访问对象具有N个,则第一主题矩阵的维数为:N*K1。本发明中K1的取值可以根据实际用户的数量和访问对象的数量来定,本发明在此不对K1的取值进行限定。
同理,可以将内容数据输入到LDA模型中,可以输出用于表征访问对象特征的第二主题矩阵,即图4中的Item Topic Matrix2,第二主题矩阵的行数与第一主题矩阵的行数相同,即为访问对象的数量N,而第二主题矩阵的列数可以根据实际情况来设定,例如为K2列,则第二主题矩阵的维数为:N*K2。本发明在此不对K2的取值进行限定,根据实际情况可以灵活配置,通过采用上述方法,可以获知本发明无需对访问对象的内容数据的粒度进行人工标注,从而避免了传统算法内容画像描述粒度和标准化需要人工介入的问题。
需要说明的是,用户行为数据输入的LDA模型与内容数据输入的LDA模型为利用不同的数据训练得到的,即属于不同的LDA模型。例如,用于输入用户行为数据的LDA模型是基于用户行为数据训练得到的,而用于输入内容数据的LDA模型是基于内容数据训练得到的。
S22、将第一主题矩阵进行转置处理得到第一主题矩阵的转置矩阵。
在基于步骤S21得到第一主题矩阵后,由于步骤S21得到的第一主题矩阵和第二主题矩阵行数一致,为了得到用户行为主题与内容主题之间的关系矩阵,需要对第一主题矩阵进行转置处理,得到第一主题矩阵的转置矩阵,例如,第一主题矩阵用M1N*K1表示,则其转置矩阵表示为(M1T)K1*N。
S23、将转置矩阵与第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵。
具体地,可以将步骤S22确定出的转置矩阵与第二主题矩阵相乘,由此即可得到用户行为主题与内容主题之间的关系矩阵,用C表示,将本发明中的第二主题矩阵用M2N*K2表示,则关系矩阵的表达式为:C=(M1T)K1*N*M2N*K2,由此可以得到关系矩阵的维数为K1*K2,记为C∈RK1*K2,参考图5b所示。
较佳地,还可以采用AuthorLDA模型确定用户行为主题与内容主题之间的关系矩阵,在此先对Author LDA进行介绍:
结合图6a所示,Author LDA模型与LDA不同之处在于,Author LDA模型每次生成一个word的过程为:先从作者分布中随机采样得到一个author,然后基于author-topic矩阵确定这个author对应的主题topic向量,例如采样得到的author为图6a中的张三,则张三对应的topic向量为author-topic矩阵中的第一行,然后对这个行向量中元素进行采样,这样可以采样得到一个topic,例如得到的topic为topic2,则最后根据topic-word矩阵确定topic2对应的word向量,从这个向量中进行采样即可得到一个word。
基于上述对Author LDA的描述,可以按照图6b所示的流程确定用户行为主题与内容主题之间的关系矩阵,主要包括以下步骤:
S31、利用文档主题生成模型LDA对内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵。
本步骤中,还参考图4所示,在将内容数据输入到LDA模型中得到第二主题矩阵的同时,还可以得到用于表征内容数据中词特征的词主题矩阵,即图4中的Word TopicMatrix,其列数与第二主题矩阵的列数相同,其行数为word的个数,记为L*K2。
S32、利用词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵。
具体地,本发明中的Author LDA模型为利用步骤S31确定出的词主题矩阵和步骤S11获取到的内容数据进行训练得到的。基于Author LDA的原理,可以将步骤S31得到的词主题矩阵看作是Author LDA模型训练好的word-topic矩阵,这样Author LDA中只剩author-topic矩阵是未知的,则可以利用内容数据作为Author LDA模型的输入来得到author-topic矩阵。具体为:可以将获取到的内容数据看作是K1个不同的作者产生的,因此需要通过训练即可得到author-topic矩阵。初始化时将步骤S31得到的词主题矩阵初始化Author LDA模型中的word-topic矩阵,author-topic矩阵进行随机初始化,可以理解为初始化时随机对author topic进行赋值。由于用于初始化Author LDA模型中的word-topic矩阵的词主题矩阵的维数为L*K2,则可以得出训练得到的author-topic矩阵的维数为K1*K2,而训练得到的author-topic矩阵即为步骤S32中的作者主题矩阵。
需要说明的是,在训练过程中,保持word-topic矩阵不更新,一直为步骤S31确定出的词主题矩阵,只更新author-topic矩阵。训练过程中得到的author-topic矩阵呈收敛趋势,最终输出的即为稳定的author-topic矩阵。
S33、将作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵。
本发明中,步骤S32得到的author-topic矩阵即为用户行为主题与内容主题之间的关系矩阵。
基于此,可以采用步骤S21~S23或S31~S33的方法来确定用户行为主题与内容主题之间的关系矩阵,其本质上是计算行为侧topic与内容侧topic这两个多维随机变量的协方差矩阵。当然还可以采用其他方法来确定用户行为主题与内容主题之间的关系矩阵,本发明在此不再一一介绍。
通过上述确定出的关系矩阵和步骤S12确定出的用户主题矩阵,将这两个矩阵的乘积矩阵确定为本发明中用户的用户内容画像。以用户主题矩阵用U1表示,关系矩阵用C表示,则可以得到用户的用户内容画像U2的表达式为:U2=U1*C,结合图7所示,由于用户主题矩阵的维数为M*K1,而关系矩阵的维数为K1*K2,则得到的用户内容画像U2的维数为M*K2,而M表示用户的数量,K2表征的是访问对象的主题的维数,则可以得出用户内容画像中每一行表示的是该行表征用户的用户内容画像,而各个列上的数值则表示的是用户对各个列表征的主题的喜好程度。
由于本发明中每个用户只有一个长度为K2的向量表示该用户的用户内容画像,这样就解决了传统方案中由于累积造成的需要截断带来的多样性降低的问题,采用本发明提供的方法不会带来明显的截断损失。
基于以上描述,即可得出用户的用户内容画像,基于此用户内容画像即可向用户推荐用户喜好程度比较高的访问对象。
基于同一发明构思,本发明提供的用户内容画像确定方法可以在主流的分布式处理系统上实现,比如在Spark平台上,可以利用Spark平台的并行数据处理能力完成对用户行为数据和内容数据的清洗,完成输入模型中的数据准备工作。然后利用Spark平台中的MLLib算法包分别训练用于输入用户行为数据的LDA模型和用于输入内容数据的LDA模型,然后将清洗后的用户行为数据输入到训练好的用于输入用户行为数据的LDA模型中,得到用户主题矩阵和第一主题矩阵,同时将内容数据输入到另一个LDA模型中,得到第二主题矩阵。最后利用Spark平台中的Breeze包完成对上述三个矩阵的操作,得到我们需要的用户内容画像。在上述描述中,实际可以调整超参数K1和K2,由此可以根据实际情况得到所需要的用户内容画像。实际上LDA模型中还有两个Dir分布的超参数α和β需要设置,但这两个超参数的选择相对固定和容易,对确定出的用户内容画像的结果影响十分轻微,因此避免了传统方案需要设计复杂的累积逻辑的问题。
本发明提供的用户内容画像确定方法,计算装置可以根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,然后根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,再根据所述用户主题矩阵和所述关系矩阵,确定所述用户的用户内容画像。通过采用上述方法,直接根据用户行为数据和内容数据得到表征用户行为主题与内容主题之间关系的关系矩阵,使得内容数据的粒度可控,进而基于用户主题矩阵和关系矩阵确定出用户内容画像,流程简单且无需对内容数据进行人工标注,避免了现有技术中利用传统算法因需要设计复杂的累积逻辑而可能带来的过于泛化或细化问题。
本发明提供的用户内容画像确定方法可以应用到推荐场景中,在离线状态下确定用户的用户内容画像,然后在线场景下基于离线确定出的用户内容画像向用户推荐用户感兴趣的访问对象。以视频为例进行说明,可以将本发明提供的用户内容画像确定方法应用到视频推荐系统的召回侧,通过本发明确定出的有关视频的用户内容画像,可以召回包含用户内容画像中用户比较感兴趣的主题的视频,然后推荐给用户。以下详细介绍之:
如图8所示,为本发明实施例提供的访问对象推荐方法的流程示意图,结合图2a所示的应用场景和图2b所示的界面图进行说明,本发明提供的访问对象推荐方法可以包括以下步骤:
S41、获取用户的用户内容画像。
基于图3所示的流程确定出用户内容画像后,以确定出的用户内容画像为视频的用户内容画像,视频应用程序的服务器22在用户20打开用户设备21中的视频应用程序时,通过获取到的关于视频的用户内容画像向用户20推荐用户感兴趣的视频。
S42、对用户内容画像进行采样,得到用户感兴趣的内容主题。
由于本发明中用户内容画像U2中包含各个用户的用户内容画像,对于任一用户,可以从U2中提取出该用户的用户内容画像,即U2矩阵中该用户所在的行向量即为该用户的用户内容画像,记为u,其为一个维数为K2的行向量。例如得到的用户内容画像U2的表达式为:则第一行表示的是User ID1的用户内容画像,则以向User ID1对应的用户推荐视频为例进行说明,则U2中a11~a1K2为用户对各个列对应的内容主题的喜爱程度。
实际上该用户的行向量u表示的是该用户在K2个内容主题上的兴趣分布,基于这个分布,可以在一次召回动作中,从这个兴趣分布中采样得到预设数量的内容主题,例如采用出k个用户感兴趣的内容主题。即:通过对u=[a11,a12,a13,......,a1j,......,a1K2]这一行向量的值进行采样处理,可以得到用户感兴趣的内容主题,显然可以得出行向量u中数值越大其对应的内容主题越容易被采样到,若连续采样m次得到的是同一个内容主题,则继续进行采样直至采样出k个不同的内容主题为止。当然,也可以利用固定的采样次数进行采样,当采样次数达到固定次数时,也可以得到内容主题,但内容主题的数量根据实际情况而定。
S43、根据内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐。
其中,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
本步骤中,为了得到向用户推荐的视频,可以先获取基于内容数据利用LDA模型得到的对象主题矩阵,也就是上述第二主题矩阵M2N*K2,为用于表征访问对象的一些内容主题,例如该对象主题矩阵的表达式可以为:该矩阵中的tij表示第i个访问对象与第j个内容主题的关联紧密程度。根据该对象主题矩阵和步骤S42确定出的内容主题,即可确定出包含用户感兴趣的内容主题的视频的集合,然后将这些视频推荐给用户。
具体地,可以采用图9所示的流程确定用户感兴趣的访问对象集合,包括以下步骤:
S51、确定对象主题矩阵的转置矩阵。
本步骤中,通过将对象主题矩阵进行转置,得到的转置矩阵T可以表示为:转置矩阵T可以表征内容主题与各个访问对象之间的关系。转置矩阵T的每一行表示的是该行对应的内容主题下访问对象与该内容主题之间的关联紧密程度。
S52、根据内容主题,按照随机采样或阈值截断的方法从转置矩阵中提取用户感兴趣的访问对象集合。
基于步骤S51中对转置矩阵T的描述,对于转置矩阵T的某一行t,t的维数是1*N,是一个长度等于访问对象总个数的行向量。行向量t中的每一分量值表示的是某一个访问对象与当前的内容主题之间的关联紧密程度。基于上述事实,针对步骤S42采样得到的每一内容主题,均执行下述过程:可以通过随机采样的方法确定该内容主题下用户感兴趣的访问对象,显然可以得出关联紧密程度较大的访问对象其被采样到的概率比较大,从而可以基于该内容主题得到于该内容主题紧密度比较高的访问对象。由此可以得出与步骤S42中得到的各个内容主题紧密度比较高的访问对象,将这些访问对象构成访问对象集合,服务器22确定出该访问对象集合后,基于此向用户推荐用户感兴趣的访问对象。还以视频为例进行说明,基于步骤S42确定出的用户感兴趣的内容主题,服务器22利用图5a所示的随机采样流程可以确定出与上述内容主题紧密度比较高的视频集合,然后基于该视频集合基于用户设备21中的视频应用程序向用户20推荐用户感兴趣的视频。
当然,还可以采用阈值截断的方法确定用户感兴趣的访问对象集合,具体来说,针对每一内容主题,可以取Top K个高关联度的访问对象,即取针对该内容主题所在的行向量,将数值在前K个的访问对象提取出来,从而可以得到与该内容主题紧密度比较高的访问对象,进而分别得到各个内容主题紧密度比较高的访问对象,构成访问对象集合,并基于该访问对象集合向用户推荐访问对象。当然还可以采用其他方法得到与内容主题紧密度比较高的访问对象集合,本发明在此不再一一列举。
本发明中的访问对象可以为任何可以推荐的物品,例如视频、歌曲和商品等等。
但在实际应用中,会采用多种不同的推荐算法,如基于行为、基于内容和基于热门等推荐算法,然后每一个算法都会召回多个视频推荐结果,然后将多个推荐算法分别得到的视频推荐结果进行综合处理得到一个视频推荐结果排名,基于这个排名向用户进行视频推荐。一般情况下,一个推荐算法的视频推荐结果中的若干个会被选中推荐给用户。
本发明提供的访问对象推荐方法,在获取到用户的用户内容画像后,对所述用户内容画像进行采样,得到用户感兴趣的内容主题;根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐。通过利用本发明确定出的用户内容画像,可以向用户及时推荐用户感兴趣的访问对象,不仅提高了推荐结果的多样性,而且提高了用户对应用程序的满意程度。
基于同一发明构思,本发明实施例中还提供了一种用户内容画像确定装置,由于上述装置解决问题的原理与用户内容画像确定方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图10所示,为本发明实施例提供的用户内容画像确定装置的结构示意图,包括:
第一确定单元61,用于根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,所述用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的;
第二确定单元62,用于根据所述用户行为数据和访问对象的内容数据,确定用户行为主题与内容主题之间的关系矩阵,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的;
第三确定单元63,用于根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像。
较佳地,所述第一确定单元61,具体用于利用文档主题生成模型LDA对所述用户行为数据进行处理,确定用于表征用户特征的用户主题矩阵。
优选地,所述第二确定单元62,具体用于利用文档主题生成模型LDA分别对所述用户行为数据和所述内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵,其中第一主题矩阵的行数与第二主题矩阵的行数相同;将所述第一主题矩阵进行转置处理得到所述第一主题矩阵的转置矩阵;并将所述转置矩阵与所述第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵,其中,所述用户主题矩阵的列数与所述第一主题矩阵的列数相同。
优选地,所述第二确定单元62,具体用于利用文档主题生成模型LDA对所述内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵;并利用所述词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵,所述Author LDA模型为利用所述词主题矩阵和所述内容数据进行训练得到的;将所述作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵。
可选地,所述第三确定单元63,具体用于将基于所述用户主题矩阵与所述关系矩阵的乘积得到的乘积矩阵,确定为用户的用户内容画像。
较佳地,所述日志数据包括用户的标识信息和用户访问的访问对象的标识信息;以及所述用户行为数据为由各个用户的标识信息及各个用户访问的访问对象的标识信息构成的矩阵。
较佳地,所述内容数据为由各个访问对象的标识信息及每一访问对象的内容项进行切词处理后得到的关键词构成的矩阵,所述内容项为从访问对象的属性信息中提取得到的;每一内容项至少包括以下一项内容:访问对象的标题、访问对象所属的标签和访问对象所属的类别。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于同一发明构思,本发明实施例中还提供了一种访问对象推荐装置,由于上述装置解决问题的原理与访问对象推荐方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图11所示,为本发明实施例提供的访问对象推荐装置的结构示意图,包括:
获取单元71,用于获取用户的用户内容画像,所述用户内容画像为基于本发明提供的用户内容画像确定方法确定的;
采样单元72,用于对所述用户内容画像进行采样,得到用户感兴趣的内容主题;
确定单元73,用于根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
较佳地,所述确定单元73,具体用于确定所述对象主题矩阵的转置矩阵;并根据所述内容主题,按照随机采样或阈值截断的方法从所述转置矩阵中提取用户感兴趣的访问对象集合。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于同一技术构思,本申请实施例还提供了一种终端设备800,参照图12所示,终端设备800用于实施上述各个方法实施例记载的方法,例如实施图3或图8所示的实施例,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例,该终端设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线850或者其他方式连接,图12中以通过总线850连接为例。
存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的用户内容画像确定方法对应的程序指令/模块(例如,附图10所示的第一确定单元61、第二确定单元62、第三确定单元63),或者如本发明实施例中的访问对象推荐方法对应的程序指令/模块(例如,附图11所示的获取单元71、采样单元72和确定单元73)。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中用户内容画像确定方法或访问对象推荐方法。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用户内容画像确定装置或访问对象推荐装置使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至列表项操作的处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可接收输入的数字或字符信息,以及产生与用户内容画像确定装置或访问对象推荐装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的用户内容画像确定方法或访问对象推荐方法。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本发明提供的用户内容画像确定方法或访问对象推荐方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的用户内容画像确定方法中的步骤或者访问对象推荐方法中的步骤,例如,所述计算机设备可以执行如图3所示的步骤S11~S14中的用户内容画像确定流程,或者执行如图8所示的步骤S41~S43中的访问对象推荐流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于用户内容画像确定方法或访问对象推荐方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种用户内容画像确定方法,其特征在于,包括:
根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,所述用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的;
利用文档主题生成模型LDA分别对所述用户行为数据和内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵,其中,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的,第一主题矩阵的行数与第二主题矩阵的行数相同;将所述第一主题矩阵进行转置处理得到所述第一主题矩阵的转置矩阵;并将所述转置矩阵与所述第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵,其中,所述用户主题矩阵的列数与所述第一主题矩阵的列数相同;或者,
利用文档主题生成模型LDA对内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的;并利用所述词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵,所述Author LDA模型为利用所述词主题矩阵和所述内容数据进行训练得到的;将所述作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵;
根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像。
2.如权利要求1所述的方法,其特征在于,根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,具体包括:
利用文档主题生成模型LDA对所述用户行为数据进行处理,确定用于表征用户特征的用户主题矩阵。
3.如权利要求1所述的方法,其特征在于,根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像,具体包括:
将基于所述用户主题矩阵与所述关系矩阵的乘积得到的乘积矩阵,确定为用户的用户内容画像。
4.如权利要求1~2任一所述的方法,其特征在于,所述日志数据包括用户的标识信息和用户访问的访问对象的标识信息;以及所述用户行为数据为由各个用户的标识信息及各个用户访问的访问对象的标识信息构成的矩阵。
5.如权利要求1~2任一所述的方法,其特征在于,所述内容数据为由各个访问对象的标识信息及每一访问对象的内容项进行切词处理后得到的关键词构成的矩阵,所述内容项为从访问对象的属性信息中提取得到的;每一内容项至少包括以下一项内容:访问对象的标题、访问对象所属的标签和访问对象所属的类别。
6.一种访问对象推荐方法,其特征在于,包括:
获取用户的用户内容画像,所述用户内容画像为基于权利要求1~5任一所述的方法确定的;
对所述用户内容画像进行采样,得到用户感兴趣的内容主题;
根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
7.如权利要求6所述的方法,其特征在于,根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合,具体包括:
确定所述对象主题矩阵的转置矩阵;并
根据所述内容主题,按照随机采样或阈值截断的方法从所述转置矩阵中提取用户感兴趣的访问对象集合。
8.一种用户内容画像确定装置,其特征在于,包括:
第一确定单元,用于根据获取到的用户行为数据,确定用于表征用户特征的用户主题矩阵,所述用户行为数据为根据被访问的应用程序记录的访问对象的日志数据获取到的;
第二确定单元,用于利用文档主题生成模型LDA分别对所述用户行为数据和内容数据进行处理,确定用于表征访问对象特征的第一主题矩阵和第二主题矩阵,其中,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的,第一主题矩阵的行数与第二主题矩阵的行数相同;将所述第一主题矩阵进行转置处理得到所述第一主题矩阵的转置矩阵;并将所述转置矩阵与所述第二主题矩阵的乘积,确定为用户行为主题与内容主题之间的关系矩阵,其中,所述用户主题矩阵的列数与所述第一主题矩阵的列数相同;或者,利用文档主题生成模型LDA对内容数据进行处理,确定用于表征内容数据中词特征的词主题矩阵,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的;并利用所述词主题矩阵和训练得到的作者文档主题生成模型Author LDA,确定作者主题矩阵,所述Author LDA模型为利用所述词主题矩阵和所述内容数据进行训练得到的;将所述作者主题矩阵确定为用户行为主题与内容主题之间的关系矩阵;
第三确定单元,用于根据所述用户主题矩阵和所述关系矩阵,确定用户的用户内容画像。
9.一种访问对象推荐装置,其特征在于,包括:
获取单元,用于获取用户的用户内容画像,所述用户内容画像为基于权利要求1~5任一所述的方法确定的;
采样单元,用于对所述用户内容画像进行采样,得到用户感兴趣的内容主题;
确定单元,用于根据所述内容主题和用于表征访问对象特征的对象主题矩阵,确定用户感兴趣的访问对象集合并进行推荐,所述对象主题矩阵为利用文档主题生成模型LDA对内容数据进行处理得到的,所述内容数据为根据被访问的应用程序中访问对象的属性信息获取到的。
10.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至5任一权利要求所述的方法,或者执行如权利要求6或7所述的方法。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5任一权利要求所述的方法,或者执行如权利要求6或7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719454.2A CN110209875B (zh) | 2018-07-03 | 2018-07-03 | 用户内容画像确定方法、访问对象推荐方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719454.2A CN110209875B (zh) | 2018-07-03 | 2018-07-03 | 用户内容画像确定方法、访问对象推荐方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209875A CN110209875A (zh) | 2019-09-06 |
CN110209875B true CN110209875B (zh) | 2022-09-06 |
Family
ID=67779778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810719454.2A Active CN110209875B (zh) | 2018-07-03 | 2018-07-03 | 用户内容画像确定方法、访问对象推荐方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209875B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674410B (zh) * | 2019-10-08 | 2022-05-24 | 北京物灵科技有限公司 | 用户画像构建、内容推荐方法、装置及设备 |
CN112733006B (zh) * | 2019-10-14 | 2022-12-02 | 中国移动通信集团上海有限公司 | 用户画像的生成方法、装置、设备及存储介质 |
CN111739649B (zh) * | 2020-07-04 | 2021-12-10 | 爱优牙信息技术(深圳)有限公司 | 一种用户画像捕捉方法、装置及系统 |
CN113779384B (zh) * | 2021-08-23 | 2022-07-05 | 广州百奕信息科技有限公司 | 一种基于乘客画像的航班推荐方法 |
CN116383521B (zh) * | 2023-05-19 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 主题词挖掘方法及装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354293A (zh) * | 2015-11-02 | 2016-02-24 | 海信集团有限公司 | 一种移动终端上进行播放对象推送的辅助实现方法及装置 |
CN105718579A (zh) * | 2016-01-22 | 2016-06-29 | 浙江大学 | 一种基于上网日志挖掘和用户活动识别的信息推送方法 |
CN105869058A (zh) * | 2016-04-21 | 2016-08-17 | 北京工业大学 | 一种多层潜变量模型用户画像提取的方法 |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
CN107766449A (zh) * | 2017-09-26 | 2018-03-06 | 杭州云赢网络科技有限公司 | 热点挖掘方法、装置、电子设备及存储介质 |
CN107885754A (zh) * | 2016-09-30 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 基于lda模型从交易数据中提取信用变量的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098579B2 (en) * | 2011-06-07 | 2015-08-04 | Kodak Alaris Inc. | Automatically selecting thematically representative music |
US20160162554A1 (en) * | 2014-12-08 | 2016-06-09 | GM Global Technology Operations LLC | Methods for applying text mining to identify and visualize interactions with complex systems |
-
2018
- 2018-07-03 CN CN201810719454.2A patent/CN110209875B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354293A (zh) * | 2015-11-02 | 2016-02-24 | 海信集团有限公司 | 一种移动终端上进行播放对象推送的辅助实现方法及装置 |
CN105718579A (zh) * | 2016-01-22 | 2016-06-29 | 浙江大学 | 一种基于上网日志挖掘和用户活动识别的信息推送方法 |
CN105869058A (zh) * | 2016-04-21 | 2016-08-17 | 北京工业大学 | 一种多层潜变量模型用户画像提取的方法 |
CN107885754A (zh) * | 2016-09-30 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 基于lda模型从交易数据中提取信用变量的方法和装置 |
CN106897363A (zh) * | 2017-01-11 | 2017-06-27 | 同济大学 | 基于眼动追踪的文本推荐方法 |
CN107766449A (zh) * | 2017-09-26 | 2018-03-06 | 杭州云赢网络科技有限公司 | 热点挖掘方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110209875A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209875B (zh) | 用户内容画像确定方法、访问对象推荐方法和相关装置 | |
US20170034107A1 (en) | Annotating content with contextually relevant comments | |
CN109918662B (zh) | 一种电子资源的标签确定方法、装置和可读介质 | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
CN108509465A (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
CN110110233B (zh) | 信息处理方法、装置、介质和计算设备 | |
CN105446973A (zh) | 社交网络中用户推荐模型的建立及应用方法和装置 | |
CN108959323B (zh) | 视频分类方法和装置 | |
CN111859149A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN112084413B (zh) | 一种信息推荐的方法、装置及存储介质 | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
CN111523324A (zh) | 命名实体识别模型的训练方法及装置 | |
CN112231554A (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN117787290A (zh) | 基于知识图谱的绘图提示方法和装置 | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
CN111127057B (zh) | 一种多维用户画像恢复方法 | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
CN116225848A (zh) | 日志监测方法、装置、设备和介质 | |
CN112801053B (zh) | 视频数据处理方法、装置 | |
CN110020120A (zh) | 内容投放系统中的特征词处理方法、装置及存储介质 | |
CN114363664A (zh) | 生成视频合集标题的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |