CN103984741A - 用户属性信息提取方法及其系统 - Google Patents

用户属性信息提取方法及其系统 Download PDF

Info

Publication number
CN103984741A
CN103984741A CN201410220854.0A CN201410220854A CN103984741A CN 103984741 A CN103984741 A CN 103984741A CN 201410220854 A CN201410220854 A CN 201410220854A CN 103984741 A CN103984741 A CN 103984741A
Authority
CN
China
Prior art keywords
user
video
attribute information
customer attribute
video presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410220854.0A
Other languages
English (en)
Other versions
CN103984741B (zh
Inventor
房晓宇
江建博
朱凯泉
章岑
张缓迅
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Unification Infotech (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unification Infotech (beijing) Co Ltd filed Critical Unification Infotech (beijing) Co Ltd
Priority to CN201410220854.0A priority Critical patent/CN103984741B/zh
Publication of CN103984741A publication Critical patent/CN103984741A/zh
Application granted granted Critical
Publication of CN103984741B publication Critical patent/CN103984741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用户属性信息提取方法及其系统。其中,用户属性信息提取方法包括:接收用户输入;从该用户输入中提取用户观看信息和/或用户属性信息;依据该用户观看信息提取视频对应的视频描述词;以及依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。利用本发明提供的用户属性信息提取方法及其系统,可得到观看视频的用户的属性的概率分布,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。

Description

用户属性信息提取方法及其系统
技术领域
本申请涉及数字信息提取,具体地说,涉及一种用户属性信息提取方法及其系统。
背景技术
随着互联网用户数量的递增,越来越多的商家将目光由传统媒体,例如,电视、报纸、杂志等转向互联网。举例而言,商家在用户浏览网页、观看视频、社交聊天时会以某种不影响用户使用的模式投放服务信息,例如弹出小窗口、网页的小区域滚动播放等。不同用户其感兴趣的服务信息也会不同,例如年轻男性偏向电子产品、年轻女性则对护肤品更有兴趣、中年用户对资产增值感兴趣、而老年用户则更关注保健产品。换句话说,用户的属性(例如,性别、年龄、收入、职业、受教育程度等)会反映其作为消费者的基本特点,会直接决定服务信息的投放效果。但由于使用习惯等问题,大多数用户不会登陆去使用互联网,因此并不能从登陆信息中预先得知用户的属性,从而使得所投放服务信息的受众变得随机和不确定,其效果也随之变得不确定。
因此亟需一种数字信息提取方法,使得服务信息投放更有针对性以达到最优的投放效果。
发明内容
有鉴于此,本发明提供一种用户属性信息提取方法及其系统以解决上述问题。
为解决上述问题,本发明提供了一种用户属性信息提取系统包括:用户信息处理模块,用以接收用户输入,并从该用户输入中提取用户观看信息和/或用户属性信息;视频信息处理模块,用以接收该用户观看信息,依据该用户观看信息提取视频对应的视频描述词;以及学习模块,用以接收该用户属性信息和该视频描述词,用以依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
其中,所述视频信息处理模块包括对照表和视频描述词提取模块,所述对照表表示该视频与该视频描述词之间的对照关系;所述视频提取模块用以接收该用户观看信息,并依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
其中,所述学习模块为强化学习模块,该强化学习模块进一步包括:统计分析模块,用于接收该用户属性信息和该视频描述词以产生初步用户属性概率分布;用户浏览行为特征提取模块,用于基于该初步用户属性概率分布提取用户浏览行为特征;用户属性分类模型确定模块,用以依据已知属性用户的该用户浏览行为特征确定用户属性分类模型;用户属性预测模块,用以依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;以及筛选模块,用以对该用户属性预测结果进行筛选,其中该筛选后的用户属性预测结果被反馈至该统计分析模块用以校正该初步用户属性概率分布。
所述用户属性分类模型确定模块,用以依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。 
所述用户观看信息为预设时间内的用户观看信息。
所述用户属性为用户的性别、年龄、收入、职业和/或受教育程度。
为解决上述问题,本发明还提供了用户属性信息提取方法包括以下步骤:接收用户输入;从该用户输入中提取用户观看信息和/或用户属性信息;依据该用户观看信息提取视频对应的视频描述词;以及依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
用户属性信息提取方法进一步包括:提供对照表,其中该对照表表示该视频与该视频描述词之间的对应关系;依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
其中依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布的步骤进一步包括:依据该用户属性信息和该视频描述词以产生初步用户属性概率分布;基于该初步用户属性概率分布提取用户浏览行为特征;依据已知属性用户的该用户浏览行为特征确定用户属性分类模型; 依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;对该用户属性预测结果进行筛选,反馈该筛选后的用户属性预测结果以校正该初步用户属性概率分布。
依据已知属性用户的该用户浏览行为特征确定用户属性分类模型的步骤进一步包括:依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。 
与现有技术相比,本申请所述的用户属性信息提取方法及其系统,达到了如下效果:
(1)本发明可得到观看视频的用户属性概率分布,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。
(2)本发明通过视频标签、关键词等内容,提取视频内容的描述,从中挖掘不同视频内容的观众构成特点。
(3)本发明还可以通过视频描述词的用户属性概率分布,提取用户的观看行为特征,从而预测未知用户的性别。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
 
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为依据本发明一实施例的用户属性信息提取系统100;
图2为依据本发明另一实施例的用户属性信息提取系统200;
图3为依据本发明一实施例的用户属性信息提取方法;
图4为依据本发明另一实施例的用户属性信息提取方法。
 
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
不同的互联网内容,例如特定内容的视频,其观众的属性分布具有自己的特点,例如:足球视频的观众大部分是年轻男性;健身瑜伽视频的观众则大部分是年轻中产阶层的女性。因此本发明通过分析不同互联网内容(例如特定内容的视频)的用户属性,为服务信息的投放提供参考依据,使得服务信息的投放更具有针对性。具体而言,本发明分析登陆用户的注册信息来获取用户属性,并分析登陆用户所观看的视频,提取视频的标题、标签、关键词等作为视频描述词来表示该视频内容信息,利用用户属性和视频描述词之间的对应关系可获得视频描述词的用户属性概率分布。从而在对特定视频投放服务信息时,可依据用户属性概率分布来选择提供不同的服务信息内容。
图1为依据本发明一实施例的用户属性信息提取系统100。如图1所示,用户属性信息提取系统包括:用户信息处理模块102、视频信息处理模块104和学习模块106。
用户信息处理模块102接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。从用户输入中提取在预设时间段内的用户观看信息(例如,该用户在三个月内的视频浏览信息)。如果该用户是登陆用户,则进一步从用户输入中提取用户属性信息(例如注册用户帐号时填写的性别、年龄、收入、职业、受教育程度等个人信息)。
视频处理模块104包括对照表108和视频描述词提取模块110,其中对照表108如下述表1所示,其为视频与视频描述词之间的对照表,其中视频描述词可以为该视频的标签、标题和/或关键词等,一个视频可以具有多个描述词,一个描述词也可对应多个视频。需要说明的是,对照表108可存储于任何具有存储功能的存储器,例如只读存储器、闪存、挥发性存储器、非挥发性存储器等,上述存储器可位于视频处理模块106内部,也可位于视频处理模块106外部,本发明并不以此为限。
视频描述词提取模块110接收用户信息处理模块102输出的用户观看信息,依据该用户观看信息从对照表108中提取视频对应的视频描述词。
表1
学习模块106接收用户信息处理模块102输出的用户属性信息以及视频处理模块104输出的视频描述词,用以依据用户属性信息和视频描述词得到视频描述词对应的用户属性概率分布。
由上述可知,视频描述词可以为该视频的标签、标题和/或关键词等,也就是说,视频描述词刻画了视频的内容信息,不同的视频可能含有相似的内容,表现在它们可能拥有相同的描述词。而不同内容的视频观看的用户群体分布是有其各自特点的。例如:足球视频观众大多是年轻男性;而健身瑜伽类视频观众大多是年轻、受教育程度较高并且收入较高的女性。如何量化描述词的用户属性分布特性是一个关键的问题。由于视频网站仅仅有极少量的登陆用户(已知属性的用户),而统计概率分布需要比较充分的样本数量,这造成直接利用这些已知用户的观看信息和用户信息所统计得到的视频描述词对应的用户属性概率分布与真实分布之间具有较大的误差。同时,已知用户其观看次数和观看范围也十分有限,导致许多内容的视频无法获得视频描述词对应的用户属性概率分布。
因此,本发明进一步提出一种基于强化学习的用户属性提取系统。具体而言,本发明分析登陆用户的注册信息来获取用户属性,并分析登陆用户所观看的视频,提取视频的标题、标签、关键词等作为视频描述词来表示该视频内容信息,利用用户属性和视频描述词之间的对应关系可获得视频描述词的初步用户属性概率分布。然后,依据基于视频描述词的初步用户属性概率分布,提取每一个用户(包括已知属性用户和未知属性用户)预设时间内的浏览行为特征。当用户为已知属性用户(例如登陆用户)时,提取已知属性用户的浏览行为特征,然后使用机器学习算法(例如:线性分类器、支持向量机等方法)进行用户属性分类模型学习,得到用户属性分类模型。当用户为未知属性用户时,提取未知属性用户的浏览行为特征,再利用已得到的用户属性分类模型,对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集。经过筛选处理,反馈给统计分析算法,用以对初步用户属性概率分布进行校正,以得到精确的用户属性概率分布。
例如:篮球这个描述词,登陆用户中有30个男性观看,20个女性观看,那么篮球这个描述词上的初始用户性别分布为(0.6,0.4)。当用户为未知属性用户时,通过性别预测,我们对另外950名观看篮球的用户判明了性别,其中920人为男性,30人为女性,则校正后的属性分布为(0.95,0.05)。
在本发明的一实施例中,根据用户的观看记录,找到该用户预定时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述的特性标签的标签特征来获得用户这段时间内的浏览行为特征,具体的获取过程可以通过一些本领域技术人员了解的算法来实现。在本发明的另一实施例中,根据多个已知属性用户的浏览行为特征,通过最大化目标函数来得到用户属性分类模型。
图2为依据本发明另一实施例的用户属性信息提取系统200。如图2所示,用户属性信息提取系统200包括:用户信息处理模块202、视频信息处理模块204和强化学习模块206。
其中,用户信息处理模块202和视频信息处理模块204的结构和功能分别与图1所示的用户信息处理模块102和视频信息处理模块104相同,在此不再赘述。
强化学习模块206包括:统计分析模块212、用户浏览行为特征提取模块214、用户属性分类模型确定模块216、用户属性预测模块218、筛选模块220。
其中,统计分析模块212用于获取初步用户属性概率分布,用户浏览行为特征提取模块214用以提取用户的浏览行为特征;
用户属性分类模型确定模块216用以确定用户属性分类模型,用户属性预测模块218用以对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集;
筛选模块220用以对未知属性用户的用户属性预测结果集进行筛选以提供给统计分析模块212。
在本发明的一实施例中,统计分析模块212提取用户在预设时间(例如三个月)内的浏览记录,针对每个视频描述词,在每个用户属性纬度上进行浏览频率数统计,以获得视频描述词的初步用户属性概率分布。
用户浏览行为特征提取模块214提取每个用户(包括已知属性用户和未知属性用户)在三个月内的浏览行为特征。
用户属性分类模型确定模块216对于已知属性用户的浏览行为特征,使用机器学习算法(例如:线性分类器、支持向量机等)进行模型学习,得到各属性的分类模型。
用户属性预测模块218利用分类模型,对未知属性用户进行预测判别,获得未知用户的属性预测结果集。在本发明的一实施例中,为了获得精确的用户属性概率分布,可以重复执行上述方法,例如可重复执行上述方法一至三次。
在本发明的另一实施例中,为了准确预测每个用户的属性,在提取用户浏览行为特征时,会对描述词进行一定的筛选过滤。因为许多描述词对于区分用户的属性没有作用,例如“剧情”这个词,对视频内容没有什么描述力,观看的用户可能男女各半,老少都有,就不宜把它放在用户浏览的特征里。另外,一些生僻内容,观看的人很少,或者已知用户观看很少甚至没有观看,那么其观众属性分布的结果是不确定的,也不宜将其引入用户浏览行为的特征。所以,提取用户行为特征时,会对描述词进行一定的筛选过滤。
图3为依据本发明一实施例的用户属性信息提取方法,其中该方法由图1的用户属性信息提取系统100所执行。
如图3所示,在步骤300中,接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。在步骤302中,从用户输入中提取用户属性信息和/或预设时间段内的用户观看信息。在步骤304中,依据用户观看信息从对照表中提取对应的视频描述词。在步骤306中,依据用户属性信息和视频描述词得到视频描述词对应的用户属性概率分布。
需注意的是,本发明提出的用户属性信息提取方法并不限制上述步骤的执行顺序,依据不同设计需求,可调整上述步骤的执行顺序。本领域技术人员在本发明的基础上所作的适应性修改均落入本发明的范围。此外,由于已经对执行该方法的用户属性信息提取系统进行了详细描述,对实施例中涉及的方法细节,不再赘述。
图4为依据本发明另一实施例的用户属性信息提取方法,其中该方法由图2的用户属性信息提取系统200所执行。
如图4所示,在步骤400中,接收用户的输入,例如,登陆网站、点击视频、浏览视频等输入信息。在步骤402中,从用户输入中提取用户属性信息和/或预设时间段内的用户观看信息。在步骤404中,依据用户观看信息从对照表中提取对应的视频描述词。在步骤406中,依据用户属性信息和视频描述词得到视频描述词对应的初步用户属性概率分布。在步骤408中,提取用户的浏览行为特征。在步骤410中,确定用户属性分类模型。在步骤412中,对未知属性用户进行预测判别,获得未知属性用户的用户属性预测结果集。在步骤414中,对未知属性用户的用户属性预测结果集进行筛选。步骤414中的筛选结果被反馈至步骤406,用以得到精确的用户属性概率分布。
需注意的是,本发明提出的用户属性信息提取方法并不限制上述步骤的执行顺序,依据不同设计需求,可调整上述步骤的执行顺序。本领域技术人员在本发明的基础上所作的适应性修改均落入本发明的范围。此外,由于已经对执行该方法的用户属性信息提取系统进行了详细描述,对实施例中涉及的方法细节,不再赘述。
利用本发明提供的用户属性信息提取系统100及其执行的方法,可得到视频描述词的用户属性概率分布,可了解观看该视频的用户的兴趣方向,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。利用本发明提供的用户属性信息提取系统200及其执行的方法,相比于用户属性信息提取系统100仅仅使用已知属性用户进行统计分析,用户属性信息提取系统200通过强化学习可获取更高的内容(或视频)覆盖率以及更准确的结果。
接下来,将以两个具体实例来描述如何利用本发明提出的用户属性信息提取方法来确定用户属性。
实例一:视频网站不同内容视频的男女用户概率分布统计。
该视频网站有视频集合S={V1,...,Vn},其中V表示一个视频,n为正整数,每个视频包含一组内容描述词,不同视频之间可能具有相同的描述词。
首先,根据每个视频的描述词,统计所有的视频描述词,建立视频与视频描述词之间对应关系的对照表。接着,根据已知属性用户(例如登陆用户)预定时间(例如三个月)内的浏览日志,得到已知属性用户所有观看过的视频,以及每个视频的观看次数。然后根据视频与视频描述词的对照表,统计每个视频描述词上用户的观看信息,从而得到每个视频描述词的初步男女概率分布。过滤掉那些统计量(观看次数)不足的视频描述词,以及那些男女区分性不大的视频描述词。接着利用初步男女概率分布,来提取每个用户的浏览行为特征。假设用户Ui观看了视频(其中m为正整数,i代表用户ID),利用视频与视频描述词的对照表,将观看记录映射至视频描述词维度,然后,将每个视频描述词上的男女概率分布作为这一维的特征,从而可以得到用户的浏览行为特征。接着,将已知属性用户的男女属性作为标签,使用机器学习方法(例如:线性分类器、支持向量机等)进行模型训练,得到用户男女分类模型。对于未知属性用户,利用男女分类模型对其进行预测,得到未知属性用户的男女属性预测结果。经过一定的过滤筛选,将可信度不高的结果滤除。将预测得到的男女属性预测结果反馈给统计分析部分,对初步男女概率分布进行校正以得到更加精确的男女概率分布。可以重复上述步骤一至三次以便得到覆盖更广、更可信的视频描述词的男女概率分布(如下表2所示例)。
 
表2
实例二:视频网站未登陆用户性别预测
该视频网站有视频集合S={V1,...,Vn},其中V表示一个视频,n为正整数,每个视频包含一组内容描述词,不同视频之间可能具有相同的描述词。该视频网站通过注册用户及问卷调查得到了少量有性别标定用户信息。首先,根据每个视频的描述词,统计所有的视频描述词,建立视频与视频描述词的对照表。然后根据已知属性用户(例如登陆用户)预定时间(例如三个月)内的浏览日志,得到已知属性用户所有观看过的视频,以及每个视频的观看次数。然后根据视频与视频描述词的对照表,统计每个视频描述词上用户的观看信息,从而得到每个视频描述词的初步男女概率分布。过滤掉那些统计量(观看次数)不足的视频描述词,以及那些男女区分性不大的视频描述词。接着利用初步男女概率分布,来提取每个用户的浏览行为特征。假设用户Ui观看了视频(其中m为正整数,i代表用户ID),利用视频与视频描述词的对照表,将观看记录映射至视频描述词维度,然后,将每个视频描述词上的男女概率分布作为这一维的特征,从而可以得到用户的浏览行为特征。接着,将已知属性用户的男女属性作为标签,使用机器学习方法(例如:线性分类器、支持向量机等)进行模型训练,得到用户男女分类模型。对于未知属性用户(例如未登陆用户),利用男女分类模型对其进行预测,得到未知属性用户的男女属性预测结果。经过一定的过滤筛选,将可信度不高的结果滤除。将预测得到的男女属性预测结果反馈给统计分析部分,对初步男女概率分布进行校正,同时可增加视频描述词的覆盖。利用校正后的视频描述词的男女概率分布结果,对用户重新提取浏览行为特征。接着利用已知属性用户(例如登陆用户)新的浏览行为特征重新训练男女分类模型,利用新的男女分类模型对未知属性用户重新进行性别预测,得到校正的性别预测结果。可以重复上述步骤一至三次以便得到未知属性用户的可信度较高的性别预测结果。
与现有技术相比,本申请所述的用户属性信息提取方法及其系统,达到了如下效果:
(1)本发明可得到观看视频的用户属性概率分布,可依据用户属性概率分布来选择提供用户感兴趣的服务信息内容,并为其提供更广泛的个性化服务。
(2)本发明通过视频标签、关键词等内容,提取视频内容的描述,从中挖掘不同视频内容的观众构成特点。
(3)本发明还可以通过视频描述词的用户属性概率分布,提取用户的观看行为特征,从而预测未知用户的性别。
本领域所属技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (12)

1.一种用户属性信息提取系统,其特征在于,包括:
用户信息处理模块,用以接收用户输入,并从该用户输入中提取用户观看信息和/或用户属性信息;
视频信息处理模块,用以接收该用户观看信息,依据该用户观看信息提取视频对应的视频描述词;以及
学习模块,用以接收该用户属性信息和该视频描述词,用以依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
2.如权利要求1所述的用户属性信息提取系统,其特征在于,所述视频信息处理模块包括:对照表和视频描述词提取模块,其中,
所述对照表表示该视频与该视频描述词之间的对照关系;
所述视频提取模块用以接收该用户观看信息,并依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
3.如权利要求1所述的用户属性信息提取系统,其特征在于,所述学习模块为强化学习模块,该强化学习模块进一步包括:
统计分析模块,用于接收该用户属性信息和该视频描述词以产生初步用户属性概率分布;
用户浏览行为特征提取模块,用于基于该初步用户属性概率分布提取用户浏览行为特征;
用户属性分类模型确定模块,用以依据已知属性用户的该用户浏览行为特征确定用户属性分类模型; 
用户属性预测模块,用以依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;以及
筛选模块,用以对该用户属性预测结果进行筛选,
其中该筛选后的用户属性预测结果被反馈至该统计分析模块用以校正该初步用户属性概率分布。
4.如权利要求3所述的用户属性信息提取系统,其特征在于,所述用户属性分类模型确定模块,用以依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。
5.如权利要求1所述的用户属性信息提取系统,其特征在于,所述用户观看信息为预设时间内的用户观看信息。
6.如权利要求1所述的用户属性信息提取系统,其特征在于,所述用户属性为用户的性别、年龄、收入、职业和/或受教育程度。
7.一种用户属性信息提取方法,其特征在于,包括:
接收用户输入;
从该用户输入中提取用户观看信息和/或用户属性信息;
依据该用户观看信息提取视频对应的视频描述词;以及
依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布。
8.如权利要求7所述的用户属性信息提取方法,其特征在于,所述方法进一步包括:
提供对照表,其中该对照表表示该视频与该视频描述词之间的对应关系;
依据该用户观看信息从该对照表中提取该视频对应的该视频描述词。
9.如权利要求7所述的用户属性信息提取方法,其特征在于,依据该用户属性信息和该视频描述词产生该视频描述词所对应的用户属性概率分布的步骤,进一步包括:
依据该用户属性信息和该视频描述词以产生初步用户属性概率分布;
基于该初步用户属性概率分布提取用户浏览行为特征;
依据已知属性用户的该用户浏览行为特征确定用户属性分类模型; 
依据未知属性用户的该用户浏览行为特征以及该用户属性分类模型对该未知属性用户进行预测判别,以产生该未知属性用户的用户属性预测结果;
对该用户属性预测结果进行筛选,
反馈该筛选后的用户属性预测结果以校正该初步用户属性概率分布。
10.如权利要求9所述的用户属性信息提取方法,其特征在于,依据已知属性用户的该用户浏览行为特征确定用户属性分类模型的步骤进一步包括:
依据该已知属性用户的该用户浏览行为特征使用机器学习算法进行该用户属性分类模型的学习,以产生该用户属性分类模型。
11.如权利要求7所述的用户属性信息提取方法,其特征在于,所述用户观看信息为预设时间内的用户观看信息。
12.如权利要求7所述的用户属性信息提取系统,其特征在于,所述用户属性为用户的性别、年龄、收入、职业和/或受教育程度。
CN201410220854.0A 2014-05-23 2014-05-23 用户属性信息提取方法及其系统 Active CN103984741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410220854.0A CN103984741B (zh) 2014-05-23 2014-05-23 用户属性信息提取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410220854.0A CN103984741B (zh) 2014-05-23 2014-05-23 用户属性信息提取方法及其系统

Publications (2)

Publication Number Publication Date
CN103984741A true CN103984741A (zh) 2014-08-13
CN103984741B CN103984741B (zh) 2016-09-21

Family

ID=51276714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410220854.0A Active CN103984741B (zh) 2014-05-23 2014-05-23 用户属性信息提取方法及其系统

Country Status (1)

Country Link
CN (1) CN103984741B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN105989047A (zh) * 2015-02-05 2016-10-05 富士通株式会社 获取装置、获取方法、训练装置以及检测装置
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN106326329A (zh) * 2015-07-01 2017-01-11 富士通株式会社 群形成方法和群形成设备
CN106339409A (zh) * 2016-08-10 2017-01-18 乐视控股(北京)有限公司 用户语料信息的获取方法及装置
CN108076128A (zh) * 2016-12-28 2018-05-25 北京市商汤科技开发有限公司 用户属性提取方法、装置和电子设备
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN108347651A (zh) * 2017-01-24 2018-07-31 北京康得新创科技股份有限公司 推送信息的播放方法、装置及系统
CN108810573A (zh) * 2018-06-14 2018-11-13 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及系统
CN109408670A (zh) * 2018-10-23 2019-03-01 聚好看科技股份有限公司 基于主题模型的家庭成员属性预测方法、装置及智能终端
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN110121088A (zh) * 2019-04-17 2019-08-13 北京奇艺世纪科技有限公司 一种用户属性信息确定方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894129A (zh) * 2010-05-31 2010-11-24 中国科学技术大学 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN102521320A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于视频热点描述的内容相关广告分发方法
CN103096139A (zh) * 2013-01-23 2013-05-08 深圳市龙视传媒有限公司 一种视频关联推荐的方法及服务器
CN103729403A (zh) * 2005-11-30 2014-04-16 皇家飞利浦电子股份有限公司 用于更新用户简档的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729403A (zh) * 2005-11-30 2014-04-16 皇家飞利浦电子股份有限公司 用于更新用户简档的方法和系统
CN101894129A (zh) * 2010-05-31 2010-11-24 中国科学技术大学 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN102521320A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于视频热点描述的内容相关广告分发方法
CN103096139A (zh) * 2013-01-23 2013-05-08 深圳市龙视传媒有限公司 一种视频关联推荐的方法及服务器

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989047A (zh) * 2015-02-05 2016-10-05 富士通株式会社 获取装置、获取方法、训练装置以及检测装置
CN106326329B (zh) * 2015-07-01 2019-11-05 富士通株式会社 群形成方法和群形成设备
CN106326329A (zh) * 2015-07-01 2017-01-11 富士通株式会社 群形成方法和群形成设备
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN106339409A (zh) * 2016-08-10 2017-01-18 乐视控股(北京)有限公司 用户语料信息的获取方法及装置
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN108076128A (zh) * 2016-12-28 2018-05-25 北京市商汤科技开发有限公司 用户属性提取方法、装置和电子设备
CN108347651A (zh) * 2017-01-24 2018-07-31 北京康得新创科技股份有限公司 推送信息的播放方法、装置及系统
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN108076154B (zh) * 2017-12-21 2019-12-31 Oppo广东移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN108810573A (zh) * 2018-06-14 2018-11-13 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及系统
CN108810573B (zh) * 2018-06-14 2022-01-04 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及系统
CN109408670A (zh) * 2018-10-23 2019-03-01 聚好看科技股份有限公司 基于主题模型的家庭成员属性预测方法、装置及智能终端
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN110008332B (zh) * 2019-02-13 2020-11-10 创新先进技术有限公司 通过强化学习提取主干词的方法及装置
CN110121088A (zh) * 2019-04-17 2019-08-13 北京奇艺世纪科技有限公司 一种用户属性信息确定方法、装置及电子设备
CN110121088B (zh) * 2019-04-17 2021-05-25 北京奇艺世纪科技有限公司 一种用户属性信息确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN103984741B (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN103984741A (zh) 用户属性信息提取方法及其系统
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN106331778B (zh) 视频推荐方法和装置
US11455465B2 (en) Book analysis and recommendation
CN106921891B (zh) 一种视频特征信息的展示方法和装置
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
CN106354872B (zh) 文本聚类的方法及系统
CN107832437B (zh) 音/视频推送方法、装置、设备及存储介质
WO2017096877A1 (zh) 一种推荐方法和装置
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN107924401A (zh) 基于视频标题的视频推荐
CN105847985A (zh) 一种视频推荐方法及装置
CN105069041A (zh) 基于视频用户性别分类的广告投放方法
CN105760521A (zh) 信息输入方法和装置
Bhattacharjee et al. Identifying the causal relationship between social media content of a Bollywood movie and its box-office success-a text mining approach
US20160381433A1 (en) Information distribution device, information distribution method, and program
Chiny et al. Netflix recommendation system based on TF-IDF and cosine similarity algorithms
CN103207917A (zh) 标注多媒体内容的方法、生成推荐内容的方法及系统
CN103942328A (zh) 一种视频检索方法及视频装置
CN112507163A (zh) 时长预测模型训练方法、推荐方法、装置、设备及介质
CN104503988A (zh) 搜索方法及装置
CN109547863A (zh) 一种标签的标记方法、装置、服务器和存储介质
US20150227970A1 (en) System and method for providing movie file embedded with advertisement movie
KR102560610B1 (ko) 동영상 자동 생성을 위한 참조 영상 데이터 추천 방법 및 이를 실행하는 장치
CN108460131B (zh) 一种分类标签处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee after: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee before: HEYI INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200320

Address after: Room 517, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer D

Patentee before: YOUKU INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.