发明内容
有鉴于此,本发明提供一种用户属性信息提取方法及其系统以解决上述问题。
为解决上述问题,本发明提供了一种用户属性信息提取系统包括:用户信息处理模块,用以接收用户输入,并从该用户输入中提取用户观看信息和/或用户属性信息;视频信息处理模块,用以接收该用户观看信息,依据该用户观看信息提取视频对应的视频描述词;以及学习模块,用以接收该用户属性信息和该视频描述词,用以依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
其中,所述视频信息处理模块包括对照表和视频描述词提取模块,所述对照表表示该视频与该视频描述词之间的对照关系;所述视频提取模块用以接收该用户观看信息,并依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
其中,所述学习模块为强化学习模块,该强化学习模块进一步包括:统计分析模块,用于接收该用户属性信息和该视频描述词以产生初步用户属性概率分布;用户浏览行为特征提取模块,用于基于该初步用户属性概率分布提取用户浏览行为特征;用户属性分类模型确定模块,用以依据已知属性用户的该用户浏览行为特征确定用户属性分类模型;用户属性预测模块,用以依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;以及筛选模块,用以对该用户属性预测结果进行筛选,其中该筛选后的用户属性预测结果被反馈至该统计分析模块用以校正该初步用户属性概率分布。
所述用户属性分类模型确定模块,用以依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。
所述用户观看信息为预设时间内的用户观看信息。
所述用户属性为用户的性别、年龄、收入、职业和/或受教育程度。
为解决上述问题,本发明还提供了用户属性信息提取方法包括以下步骤:接收用户输入;从该用户输入中提取用户观看信息和/或用户属性信息;依据该用户观看信息提取视频对应的视频描述词;以及依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
用户属性信息提取方法进一步包括:提供对照表,其中该对照表表示该视频与该视频描述词之间的对应关系;依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
其中依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布的步骤进一步包括:依据该用户属性信息和该视频描述词以产生初步用户属性概率分布;基于该初步用户属性概率分布提取用户浏览行为特征;依据已知属性用户的该用户浏览行为特征确定用户属性分类模型; 依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;对该用户属性预测结果进行筛选,反馈该筛选后的用户属性预测结果以校正该初步用户属性概率分布。
依据已知属性用户的该用户浏览行为特征确定用户属性分类模型的步骤进一步包括:依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。
与现有技术相比,本申请所述的用户属性信息提取方法及其系统,达到了如下效果:
(1)本发明可得到观看视频的用户属性概率分布,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。
(2)本发明通过视频标签、关键词等内容,提取视频内容的描述,从中挖掘不同视频内容的观众构成特点。
(3)本发明还可以通过视频描述词的用户属性概率分布,提取用户的观看行为特征,从而预测未知用户的性别。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
不同的互联网内容,例如特定内容的视频,其观众的属性分布具有自己的特点,例如:足球视频的观众大部分是年轻男性;健身瑜伽视频的观众则大部分是年轻中产阶层的女性。因此本发明通过分析不同互联网内容(例如特定内容的视频)的用户属性,为服务信息的投放提供参考依据,使得服务信息的投放更具有针对性。具体而言,本发明分析登陆用户的注册信息来获取用户属性,并分析登陆用户所观看的视频,提取视频的标题、标签、关键词等作为视频描述词来表示该视频内容信息,利用用户属性和视频描述词之间的对应关系可获得视频描述词的用户属性概率分布。从而在对特定视频投放服务信息时,可依据用户属性概率分布来选择提供不同的服务信息内容。
图1为依据本发明一实施例的用户属性信息提取系统100。如图1所示,用户属性信息提取系统包括:用户信息处理模块102、视频信息处理模块104和学习模块106。
用户信息处理模块102接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。从用户输入中提取在预设时间段内的用户观看信息(例如,该用户在三个月内的视频浏览信息)。如果该用户是登陆用户,则进一步从用户输入中提取用户属性信息(例如注册用户帐号时填写的性别、年龄、收入、职业、受教育程度等个人信息)。
视频处理模块104包括对照表108和视频描述词提取模块110,其中对照表108如下述表1所示,其为视频与视频描述词之间的对照表,其中视频描述词可以为该视频的标签、标题和/或关键词等,一个视频可以具有多个描述词,一个描述词也可对应多个视频。需要说明的是,对照表108可存储于任何具有存储功能的存储器,例如只读存储器、闪存、挥发性存储器、非挥发性存储器等,上述存储器可位于视频处理模块106内部,也可位于视频处理模块106外部,本发明并不以此为限。
视频描述词提取模块110接收用户信息处理模块102输出的用户观看信息,依据该用户观看信息从对照表108中提取视频对应的视频描述词。
表1
学习模块106接收用户信息处理模块102输出的用户属性信息以及视频处理模块104输出的视频描述词,用以依据用户属性信息和视频描述词得到视频描述词对应的用户属性概率分布。
由上述可知,视频描述词可以为该视频的标签、标题和/或关键词等,也就是说,视频描述词刻画了视频的内容信息,不同的视频可能含有相似的内容,表现在它们可能拥有相同的描述词。而不同内容的视频观看的用户群体分布是有其各自特点的。例如:足球视频观众大多是年轻男性;而健身瑜伽类视频观众大多是年轻、受教育程度较高并且收入较高的女性。如何量化描述词的用户属性分布特性是一个关键的问题。由于视频网站仅仅有极少量的登陆用户(已知属性的用户),而统计概率分布需要比较充分的样本数量,这造成直接利用这些已知用户的观看信息和用户信息所统计得到的视频描述词对应的用户属性概率分布与真实分布之间具有较大的误差。同时,已知用户其观看次数和观看范围也十分有限,导致许多内容的视频无法获得视频描述词对应的用户属性概率分布。
因此,本发明进一步提出一种基于强化学习的用户属性提取系统。具体而言,本发明分析登陆用户的注册信息来获取用户属性,并分析登陆用户所观看的视频,提取视频的标题、标签、关键词等作为视频描述词来表示该视频内容信息,利用用户属性和视频描述词之间的对应关系可获得视频描述词的初步用户属性概率分布。然后,依据基于视频描述词的初步用户属性概率分布,提取每一个用户(包括已知属性用户和未知属性用户)预设时间内的浏览行为特征。当用户为已知属性用户(例如登陆用户)时,提取已知属性用户的浏览行为特征,然后使用机器学习算法(例如:线性分类器、支持向量机等方法)进行用户属性分类模型学习,得到用户属性分类模型。当用户为未知属性用户时,提取未知属性用户的浏览行为特征,再利用已得到的用户属性分类模型,对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集。经过筛选处理,反馈给统计分析算法,用以对初步用户属性概率分布进行校正,以得到精确的用户属性概率分布。
例如:篮球这个描述词,登陆用户中有30个男性观看,20个女性观看,那么篮球这个描述词上的初始用户性别分布为(0.6,0.4)。当用户为未知属性用户时,通过性别预测,我们对另外950名观看篮球的用户判明了性别,其中920人为男性,30人为女性,则校正后的属性分布为(0.95,0.05)。
在本发明的一实施例中,根据用户的观看记录,找到该用户预定时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述的特性标签的标签特征来获得用户这段时间内的浏览行为特征,具体的获取过程可以通过一些本领域技术人员了解的算法来实现。在本发明的另一实施例中,根据多个已知属性用户的浏览行为特征,通过最大化目标函数来得到用户属性分类模型。
图2为依据本发明另一实施例的用户属性信息提取系统200。如图2所示,用户属性信息提取系统200包括:用户信息处理模块202、视频信息处理模块204和强化学习模块206。
其中,用户信息处理模块202和视频信息处理模块204的结构和功能分别与图1所示的用户信息处理模块102和视频信息处理模块104相同,在此不再赘述。
强化学习模块206包括:统计分析模块212、用户浏览行为特征提取模块214、用户属性分类模型确定模块216、用户属性预测模块218、筛选模块220。
其中,统计分析模块212用于获取初步用户属性概率分布,用户浏览行为特征提取模块214用以提取用户的浏览行为特征;
用户属性分类模型确定模块216用以确定用户属性分类模型,用户属性预测模块218用以对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集;
筛选模块220用以对未知属性用户的用户属性预测结果集进行筛选以提供给统计分析模块212。
在本发明的一实施例中,统计分析模块212提取用户在预设时间(例如三个月)内的浏览记录,针对每个视频描述词,在每个用户属性纬度上进行浏览频率数统计,以获得视频描述词的初步用户属性概率分布。
用户浏览行为特征提取模块214提取每个用户(包括已知属性用户和未知属性用户)在三个月内的浏览行为特征。
用户属性分类模型确定模块216对于已知属性用户的浏览行为特征,使用机器学习算法(例如:线性分类器、支持向量机等)进行模型学习,得到各属性的分类模型。
用户属性预测模块218利用分类模型,对未知属性用户进行预测判别,获得未知用户的属性预测结果集。在本发明的一实施例中,为了获得精确的用户属性概率分布,可以重复执行上述方法,例如可重复执行上述方法一至三次。
在本发明的另一实施例中,为了准确预测每个用户的属性,在提取用户浏览行为特征时,会对描述词进行一定的筛选过滤。因为许多描述词对于区分用户的属性没有作用,例如“剧情”这个词,对视频内容没有什么描述力,观看的用户可能男女各半,老少都有,就不宜把它放在用户浏览的特征里。另外,一些生僻内容,观看的人很少,或者已知用户观看很少甚至没有观看,那么其观众属性分布的结果是不确定的,也不宜将其引入用户浏览行为的特征。所以,提取用户行为特征时,会对描述词进行一定的筛选过滤。
图3为依据本发明一实施例的用户属性信息提取方法,其中该方法由图1的用户属性信息提取系统100所执行。
如图3所示,在步骤300中,接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。在步骤302中,从用户输入中提取用户属性信息和/或预设时间段内的用户观看信息。在步骤304中,依据用户观看信息从对照表中提取对应的视频描述词。在步骤306中,依据用户属性信息和视频描述词得到视频描述词对应的用户属性概率分布。
需注意的是,本发明提出的用户属性信息提取方法并不限制上述步骤的执行顺序,依据不同设计需求,可调整上述步骤的执行顺序。本领域技术人员在本发明的基础上所作的适应性修改均落入本发明的范围。此外,由于已经对执行该方法的用户属性信息提取系统进行了详细描述,对实施例中涉及的方法细节,不再赘述。
图4为依据本发明另一实施例的用户属性信息提取方法,其中该方法由图2的用户属性信息提取系统200所执行。
如图4所示,在步骤400中,接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。在步骤402中,从用户输入中提取用户属性信息和/或预设时间段内的用户观看信息。在步骤404中,依据用户观看信息从对照表中提取对应的视频描述词。在步骤406中,依据用户属性信息和视频描述词得到视频描述词对应的初步用户属性概率分布。在步骤408中,提取用户的浏览行为特征。在步骤410中,确定用户属性分类模型。在步骤412中,对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集。在步骤414中,对未知属性用户的用户属性预测结果集进行筛选。步骤414中的筛选结果被反馈至步骤406,用以得到精确的用户属性概率分布。
需注意的是,本发明提出的用户属性信息提取方法并不限制上述步骤的执行顺序,依据不同设计需求,可调整上述步骤的执行顺序。本领域技术人员在本发明的基础上所作的适应性修改均落入本发明的范围。此外,由于已经对执行该方法的用户属性信息提取系统进行了详细描述,对实施例中涉及的方法细节,不再赘述。
利用本发明提供的用户属性信息提取系统100及其执行的方法,可得到视频描述词的用户属性概率分布,可了解观看该视频的用户的兴趣方向,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。利用本发明提供的用户属性信息提取系统200及其执行的方法,相比于用户属性信息提取系统100仅仅使用已知属性用户进行统计分析,用户属性信息提取系统200通过强化学习可获取更高的内容(或视频)覆盖率以及更准确的结果。
接下来,将以两个具体实例来描述如何利用本发明提出的用户属性信息提取方法来确定用户属性。
实例一:视频网站不同内容视频的男女用户概率分布统计。
该视频网站有视频集合S={V1,...,Vn},其中V表示一个视频,n为正整数,每个视频包含一组内容描述词,不同视频之间可能具有相同的描述词。
首先,根据每个视频的描述词,统计所有的视频描述词,建立视频与视频描述词之间对应关系的对照表。接着,根据已知属性用户(例如登陆用户)预定时间(例如三个月)内的浏览日志,得到已知属性用户所有观看过的视频,以及每个视频的观看次数。然后根据视频与视频描述词的对照表,统计每个视频描述词上用户的观看信息,从而得到每个视频描述词的初步男女概率分布。过滤掉那些统计量(观看次数)不足的视频描述词,以及那些男女区分性不大的视频描述词。接着利用初步男女概率分布,来提取每个用户的浏览行为特征。假设用户Ui观看了视频(其中m为正整数,i代表用户ID),利用视频与视频描述词的对照表,将观看记录映射至视频描述词维度,然后,将每个视频描述词上的男女概率分布作为这一维的特征,从而可以得到用户的浏览行为特征。接着,将已知属性用户的男女属性作为标签,使用机器学习方法(例如:线性分类器、支持向量机等)进行模型训练,得到用户男女分类模型。对于未知属性用户,利用男女分类模型对其进行预测,得到未知属性用户的男女属性预测结果。经过一定的过滤筛选,将可信度不高的结果滤除。将预测得到的男女属性预测结果反馈给统计分析部分,对初步男女概率分布进行校正以得到更加精确的男女概率分布。可以重复上述步骤一至三次以便得到覆盖更广、更可信的视频描述词的男女概率分布(如下表2所示例)。
表2
实例二:视频网站未登陆用户性别预测
该视频网站有视频集合S={V1,...,Vn},其中V表示一个视频,n为正整数,每个视频包含一组内容描述词,不同视频之间可能具有相同的描述词。该视频网站通过注册用户及问卷调查得到了少量有性别标定用户信息。首先,根据每个视频的描述词,统计所有的视频描述词,建立视频与视频描述词的对照表。然后根据已知属性用户(例如登陆用户)预定时间(例如三个月)内的浏览日志,得到已知属性用户所有观看过的视频,以及每个视频的观看次数。然后根据视频与视频描述词的对照表,统计每个视频描述词上用户的观看信息,从而得到每个视频描述词的初步男女概率分布。过滤掉那些统计量(观看次数)不足的视频描述词,以及那些男女区分性不大的视频描述词。接着利用初步男女概率分布,来提取每个用户的浏览行为特征。假设用户Ui观看了视频(其中m为正整数,i代表用户ID),利用视频与视频描述词的对照表,将观看记录映射至视频描述词维度,然后,将每个视频描述词上的男女概率分布作为这一维的特征,从而可以得到用户的浏览行为特征。接着,将已知属性用户的男女属性作为标签,使用机器学习方法(例如:线性分类器、支持向量机等)进行模型训练,得到用户男女分类模型。对于未知属性用户(例如未登陆用户),利用男女分类模型对其进行预测,得到未知属性用户的男女属性预测结果。经过一定的过滤筛选,将可信度不高的结果滤除。将预测得到的男女属性预测结果反馈给统计分析部分,对初步男女概率分布进行校正,同时可增加视频描述词的覆盖。利用校正后的视频描述词的男女概率分布结果,对用户重新提取浏览行为特征。接着利用已知属性用户(例如登陆用户)新的浏览行为特征重新训练男女分类模型,利用新的男女分类模型对未知属性用户重新进行性别预测,得到校正的性别预测结果。可以重复上述步骤一至三次以便得到未知属性用户的可信度较高的性别预测结果。
与现有技术相比,本申请所述的用户属性信息提取方法及其系统,达到了如下效果:
(1)本发明可得到观看视频的用户属性概率分布,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。
(2)本发明通过视频标签、关键词等内容,提取视频内容的描述,从中挖掘不同视频内容的观众构成特点。
(3)本发明还可以通过视频描述词的用户属性概率分布,提取用户的观看行为特征,从而预测未知用户的性别。
本领域所属技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。