CN109408670A

CN109408670A - 基于主题模型的家庭成员属性预测方法、装置及智能终端

Info

Publication number: CN109408670A
Application number: CN201811240542.0A
Authority: CN
Inventors: 王新杰; 王洁; 徐钊
Original assignee: Poly Polytron Technologies Inc
Current assignee: Poly Polytron Technologies Inc; Juhaokan Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-01

Abstract

本发明提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端，方法包括：获取媒资库中各视频在各个主题上的概率分布；根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布；利用用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布；根据多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。本申请提供的家庭成员属性预测方法能够极大地提升家庭成员属性特征覆盖度，有效地丰富了大屏用户画像人群基本属性维度。

Description

基于主题模型的家庭成员属性预测方法、装置及智能终端

技术领域

本公开涉及计算机数据挖掘技术领域，尤其涉及一种基于主题模型的家庭成员属性预测方法、装置及智能终端。

背景技术

目前，各大视频网站为了提升产品服务和提高企业利润，在产品与用户交互的各个业务领域实施了越来越多的以用户画像(即通过对人群基本属性、行为习惯、商业价值等多种维度信息数据的综合分析结果)为基础的大数据优化策略。例如，为了提升用户体验，增加用户粘性，将视频个性化地组织推荐给用户，或者为提升广告投放精准度，提高投入产出比，进行广告个性化投放等。

区别于移动设备，大屏设备为家庭共用设备，对于大部分设备而言，其用户角色超过一种，不同性别、年龄段的用户角色的行为模式及偏好可能存在较大差异，因此，用户画像人群基本属性中家庭成员属性的扩充对完备用户画像维度，以及对推荐系统、广告系统、搜索引擎的优化等方面至关重要。

发明内容

本发明实施例中提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端，以解决现有技术中针对大屏设备的用户画像中缺少家庭成员属性分析的问题。

第一方面，本发明提供了一种基于主题模型的家庭成员属性预测方法，包括：

获取媒资库中各视频在各个主题上的概率分布；

根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布；

利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布，所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本；

根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。

第二方面，本发明提供了一种基于主题模型的家庭成员属性预测装置，包括：

获取模块，用于获取媒资库中各视频在各个主题上的概率分布；

生成模块，用于根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布；

输出模块，用于利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布，所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本；

统计模块，用于根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。

第三方面，本发明提供了一种智能终端，包括上述的基于主题模型的家庭成员属性预测装置。

本申请的有益效果如下：

本发明提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端，方法包括：获取媒资库中各视频在各个主题上的概率分布；根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布；利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布，所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本；根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。本申请提供的家庭成员属性预测方法能够极大地提升家庭成员属性特征覆盖度，有效地丰富了大屏用户画像人群基本属性维度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于主题模型的家庭成员属性预测方法的流程图；

图2为本申请实施例提供的一种步骤S200的流程图；

图3为本申请实施例提供的一种利用外部数据资源获取用户属性的标准样本的流程图；

图4为本申请实施例提供的外部数据资源的示意图；

图5为本申请实施例提供的一种步骤S400的流程图；

图6为本申请实施例提供的一种基于主题模型的家庭成员属性预测装置的示意图；

图7为本申请实施例提供的一种统计模块40的示意图；

图8为本申请实施例提供的一种输出模块30的示意图；

图9为本申请实施例提供的一种生成模块20的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

针对现有技术中针对大屏设备的用户画像中缺少家庭成员属性分析的问题，本申请提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端，先利用主题模型得到视频在各个主题上的概率值，再根据用户近期观影记录，进而得到用户在各个主题上的偏好程度，作为逻辑回归的特征输入。然后分别用逻辑回归模型预测家庭成员性别及年龄段等属性概率，再结合整个群体的特征值分布情况进行显著性判断，最终得到家庭成员数量值。这样，极大地提升了家庭成员属性特征覆盖度，有效地丰富了大屏用户画像人群基本属性维度。下面结合附图和具体实施例进行详细描述。

请参考图1，所示为本申请实施例提供的一种基于主题模型的家庭成员属性预测方法的流程图。由图1可见，该方法包括如下步骤：

步骤S100：获取媒资库中各视频在各个主题上的概率分布。

本实施例中，采用LDA(英文全称：Latent Dirichlet Allocation，文档主题生成模型)来获取媒资库中各视频在各个主题上的概率分布，包含文档，主题，词三个层面，文档到主题服从狄利克雷分布，主题到词服从多项式分布。LDA可以用来识别大规模文档集或预料库中的潜在隐藏的主题信息。LDA算法的核心思想：每篇文章由多个主题混合而成的，而每个主题可以由多个词的概率表征。该方法假设每个词是由背后的一个潜在隐藏的主题中抽取的。

LDA算法具体的实现流程如下：

Step1：构建语料库。对媒资库中视频的Summary(视频简介)、Title(视频名)进行分词处理，与tag(视频标签)、category(视频二级类型，其中，视频一级类型包括电影、电视剧、资讯等，视频二级类型包括爱情、都市、历史、恐怖等)一起构建语料库，将媒资库数据整理成LDA模型要求的输入格式，以电影超时空同居为例，对应的媒资库里的ID为11015785614，处理后的格式为：{11015785614:[“时空”,“重叠”,“意外”,“房间”,“嫌弃”,“试图”,“共谋”,“大业”,“阴差阳错”,“好笑”,“神秘”,,“投机取巧”,“当代”,“感动”,“纯爱”,“友情”,“奇幻”,“超能力”,“穿越”,“搞笑”,“爱情”,“喜剧”,“同居”]}。

Step2：将Step1中生成的数据作为LDA模型的输入，同时设置主题数目N(本实施例中N为25)。经测试10-30的主题数目，得到25时聚类效果最好。

Step3：LDA模型输出每个视频在各个主题上的概率分布。以电影超时空同居为例，主题模型的训练结果是(该电影属于每个主题的概率矩阵)：[0.03,0.03,0.06,0.15,0.02,0.02,0.02,0.02,0.02,0.02,0.18,0.02,0.02,0.02,0.02,0.03,0.05,0.03,0.02,0.02,0.02,0.09,0.02,0.02,0.04]。经LDA模型输出的每个视频在各个主题上的概率分布可存入Hive表中，Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive表存储的具体格式如下：

表1：LDA模型输出数据在Hive表中的存储形式

经过文档主题生成模型的聚类后，生成25个不同的主题，例如表1中Topic1-Topic5可分别为：

Topic1：

[旅行,太空,印度,宇宙,幻想,情人,摄影师,飞船,女人,星际,柏林国际电影节,女性,奥斯卡金像奖,英国电影和电视艺术学院奖,子女,外星人,美国金球奖,地球,哲学,太太,婚姻,怪兽,搞笑,作战,奥斯卡,喜剧,幽默,宇航员,伦理,比尔]

Topic2：

[巴黎,精灵,疯狂,公路,搞笑,恶搞,民间传说改编,奇幻,圣诞,喜剧,洛杉矶,魔幻,黄金,冒险,幽默,神秘,东方,配音,计划,好莱坞,致命,强奸,吸血鬼,恶魔,爆米花,中成本,黎明,喜剧片,假期,混乱]

Topic3：

[自制,贵族,古代,机场,人间,历史,骑士,爱情,饭店,公主,古装,奇幻,搞笑,少爷,决战,企鹅,太子,喜剧,古典,叔叔,美丽,书生,华丽,王宫,皇室,宫廷,爆米花,善良,爱情片,回到]

Topic4：

[奇幻,科幻,虚拟空间,冒险,普通话,动画,机器人,穿越,未来,超能力,科幻片,土星奖,人类,巨制,外星人,世界,技术,怪物,魔幻,院线,儿童,好莱坞,动画片,冒险片,沙漠,地球,魔法,迪士尼,安妮奖,女巫]

Topic11

[青春,爱情,男女关系,三角恋,文艺,纯爱,暧昧,感动,婚姻,恋人,北京,搞笑,现代,暗恋,小人物,学校,人生,老板,成长,都市,喜剧,创业,分手,老师,两性矛盾,职场,风流,真爱,友情,女神]

步骤S200：根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布。

请参考图2，所示为本申请实施例提供的一种步骤S200的流程图。由图2可见，步骤S200包括如下步骤：

步骤S201：获取用户观看视频的总时长。

步骤S202：根据用户对各视频的观看时长与所述总时长的比例计算得出用户对各视频的偏好权重矩阵。

步骤S203：将所述偏好权重矩阵与各视频在各个主题上的概率分布矩阵相乘，得到用户的主题偏好概率分布。

例如，使用近90天用户在各视频上的观看时长进行度量，且对同类视频进行观看时长标准化，如用户在电影类目下总共观看时长100分钟，电影(1)观看70分钟，电影(2)观看30分钟，用户对电影(1)的偏好权重为70/100＝0.7，用户对电影(2)的偏好权重为30/100＝0.3。用户近90天看了L部影片，在各影片上的偏好权重矩阵可表示为:{media1:weight1,media2:weight2,...,mediaL:weightL}，每个视频在各个主题上的概率分布已在步骤S100中获得，将步骤S202得到的偏好权重矩阵与步骤S100得到的各视频在各个主题上的概率分布矩阵相乘，即可得到用户的主题偏好概率分布。该主题偏好概率分布可表示为：[Topic1_weights,Topic2_weights,…,Topic25_weights]。

步骤S300：利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布，所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本。本实施例中，用户属性包括用户的性别和年龄段，其中，性别属性包括男性和女性；年龄段属性又包括1-17岁阶段、18-24阶段、25-30阶段、31-35阶段、36-40阶段和40岁以上的阶段。当然，本申请其他实施例中，用户属性也可以包括教育程度，具体包括幼儿园及以下学历、小学学历、初中学历、高中学历、大学学历以及研究生及以上学历。

请参考图3，所示为本申请实施例提供的一种利用外部数据资源获取用户属性的标准样本的流程图。由图3可见，该方法包括如下步骤：

步骤S301：分别获取外部用户对多个视频观看时间以及各个视频的观看用户群属性特征概率分布。

外部数据资源可以利用大数据平台获取，通过外部数据资源科获取各个视频的观看用户群属性特征分布。如百度指数、爱奇艺指数等。以电视剧延禧攻略为例，通过外部网站可获取到观看延禧攻略的人群的性别比例，以及年龄段分布(如图4所示)。这样，本实施例可以通过内部数据资源获取多部影片对应的观看时长，以及，通过外部数据资源获得对应的用户群体的性别概率分布和年龄段分布。

步骤S302：利用计算出用户的属性概率，其中，n为所述多个视频的数量，1≤i≤n。

例如：以用户1的性别属性为例，：用户1对视频1的观看时长为T1，视频1的男性概率为P_男1，女性概率为P_女1；用户1对视频2的观看时长为T2，视频2的男性概率为P_男2，女性概率为P_女2；以此类推，用户1对视频n的观看时长为Tn，视频1的男性概率为P_男n，女性概率为P_女n。根据公式(1)和公式(2)能够分别计算出用户为男性概率和用户为女性概率。

步骤S303：将所述用户的属性概率做归一化处理，得到用户属性的归一化概率。

步骤S304：选取所述归一化概率大于预设阈值的用户作为用户属性的标准样本。

本实施例中，归一化处理的具体公式如下：

PA＝A/(A+B) 公式(3)；

PB＝A/(A+B) 公式(4)；

其中，公式(3)为男性概率归一化处理公式，公式(4)为女性概率归一化处理公式。经过以上归一化操作后，可得到各属性特征下样本可靠程度，归一化概率(PA或PB)的值越大，则样本该特征越显著。本实施例中，预设阈值为0.9，将PA＞0.9的样本作为男性标签样本；将PB＞0.9的样本作为女性标签样本。对于其他用户属性标准样本的获取方法与性别熟属性类似，这里不再举例论述。

步骤S400：根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。

请参考图5，所示为本申请实施例提供的一种步骤S400的流程图。由图5可见，步骤S400包括如下步骤：

步骤S401：获取用户在多种属性条件下的综合概率分布。

步骤S402：获取整个用户群体在所述多种属性下的群体概率分布。整个用户群体在所述多种属性下的群体概率分布是利用整个用户群体预测的结果。

步骤S403：统计出所述综合概率高于所述群体概率分布的预设点位的属性数量。

本实施例可将步骤S300获得的用户性别概率及年龄段概率相结合(两者概率相乘)，得到用户在不同性别不同年龄段下的综合概率分布。例如，用户1为男性的概率为0.3，用户1为女性的概率为0.7，用户年龄段属性的概率分布为：1-17阶段0.1、18-24阶段0.5、25-30阶段0.1、31-35阶段0.1、36-40阶段0.1和40岁以上0.1。这样，用户1为18-24岁之间的女性概率为0.7*0.5＝0.35。在该性别及该年龄段内，将整个用户群体的概率值排序。本实施例中，若用户综合概率值高于整个用户群体的概率分布中四分之三分位点，则认为该用户相比于其他用户在该性别及该年龄段下具有显著特征。例如在男性且1-17岁的属性特征下，整个用户群体包括A、B、C、D四个用户，用户A概率为0.5，用户B概率为0.6，用户C概率为0.7，用户D概率为0.8，整个用户群体的四分之三分位点为0.7，则认为用户D相比于其他用户男性且1-17岁的属性特征显著。本实施例中，仅保留每个用户的显著属性特征，统计用户最终显著属性特征个数作为该用户家庭成员数量。

与上述方法相对应，本申请还提供了一种基于主题模型的家庭成员属性预测装置。请参考图6，所示为本申请实施例提供的一种基于主题模型的家庭成员属性预测装置的示意图。由图6可见，该装置包括：

获取模块10，用于获取媒资库中各视频在各个主题上的概率分布；

生成模块20，用于根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布；

输出模块30，用于利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征，得到逻辑回归模型输出的多种用户属性的概率分布，所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本；

统计模块40，用于根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量，将所述符合显著属性特性的属性数量确认为家庭成员的数量，并记录各个家庭成员对应的用户属性。

请参考图7，所示为本申请实施例提供的一种统计模块40的示意图。由图7可见，统计模块40还包括：

第一获取子模块41，用于获取用户在多种属性条件下的综合概率分布；

第二获取子模块42，用于获取整个用户群体在所述多种属性下的群体概率分布；

第一统计子模块43，用于统计出所述综合概率高于所述群体概率分布的预设点位的属性数量。

请参考图8，所示为本申请实施例提供的一种输出模块30的示意图。由图8可见，输出模块30还包括：

第三获取子模块31，用于分别获取多个视频观看时间以及各个视频的观看用户群属性特征概率分布；

第一计算子模块32，利用计算出用户的属性概率，其中，n为所述多个视频的数量，1≤i≤n；

归一化子模块33，用于将所述用户的属性概率做归一化处理，得到用户属性的归一化概率；

选取子模块34，用于选取所述归一化概率大于预设阈值的用户作为用户属性的标准样本。

请参考图9，所示为本申请实施例提供的一种生成模块20的示意图。由图9可见，生成模块20还包括：

第四获取子模块21，用于获取用户观看视频的总时长；

第二计算子模块22，用于根据用户对各视频的观看时长与所述总时长的比例计算得出用户对各视频的偏好权重矩阵；

第三计算子模块23，用于将所述偏好权重矩阵与各视频在各个主题上的概率分布矩阵相乘，得到用户的主题偏好概率分布。

另外，本申请还提供一种智能终端，包括上述的基于主题模型的家庭成员属性预测装置。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于主题模型的家庭成员属性预测方法，其特征在于，包括：

获取媒资库中各视频在各个主题上的概率分布；

2.根据权利要求1所述的方法，其特征在于，根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量包括：

获取用户在多种属性条件下的综合概率分布；

获取整个用户群体在所述多种属性下的群体概率分布；

统计出所述综合概率高于所述群体概率分布的预设点位的属性数量。

3.根据权利要求1所述的方法，其特征在于，利用外部数据资源获取用户属性的标准样本包括：

利用内部数据资源获取多个视频观看时间，并利用外部数据资源获取各个视频的观看用户群属性特征概率分布P_i；

利用(观看时间_i*P_i)计算出用户的属性概率，其中，n为多个视频的数量，1≤i≤n；

将所述用户的属性概率做归一化处理，得到用户属性的归一化概率；

选取所述归一化概率大于预设阈值的用户作为用户属性的标准样本。

4.根据权利要求1所述的方法，其特征在于，所述根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布包括：

获取用户观看视频的总时长；

根据用户对各视频的观看时长与所述总时长的比例计算得出用户对各视频的偏好权重矩阵；

将所述偏好权重矩阵与各视频在各个主题上的概率分布矩阵相乘，得到用户的主题偏好概率分布。

5.一种基于主题模型的家庭成员属性预测装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量包括：

第一获取子模块，用于获取用户在多种属性条件下的综合概率分布；

第二获取子模块，用于获取整个用户群体在所述多种属性下的群体概率分布；

第一统计子模块，用于统计出所述综合概率高于所述群体概率分布的预设点位的属性数量。

7.根据权利要求5所述的装置，其特征在于，利用外部数据资源获取用户属性的标准样本包括：

第三获取子模块，用于分别获取多个视频观看时间以及各个视频的观看用户群属性特征概率分布P_i；

第一计算子模块，用于利用(观看时间_i*P_i)计算出用户的属性概率，其中，n为多个视频的数量，1≤i≤n；

归一化子模块，用于将所述用户的属性概率做归一化处理，得到用户属性的归一化概率；

选取子模块，用于选取所述归一化概率大于预设阈值的用户作为用户属性的标准样本。

8.根据权利要求5所述的装置，其特征在于，所述根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布，生成用户的主题偏好概率分布包括：

第四获取子模块，用于获取用户观看视频的总时长；

第二计算子模块，用于根据用户对各视频的观看时长与所述总时长的比例计算得出用户对各视频的偏好权重矩阵；

第三计算子模块，用于将所述偏好权重矩阵与各视频在各个主题上的概率分布矩阵相乘，得到用户的主题偏好概率分布。

9.一种智能终端，其特征在于，包括如权利要求5-8中任一项所述的基于主题模型的家庭成员属性预测装置。