CN106339409A - 用户语料信息的获取方法及装置 - Google Patents

用户语料信息的获取方法及装置 Download PDF

Info

Publication number
CN106339409A
CN106339409A CN201610653562.5A CN201610653562A CN106339409A CN 106339409 A CN106339409 A CN 106339409A CN 201610653562 A CN201610653562 A CN 201610653562A CN 106339409 A CN106339409 A CN 106339409A
Authority
CN
China
Prior art keywords
user
multimedia
candidate user
preference value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610653562.5A
Other languages
English (en)
Inventor
周二亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610653562.5A priority Critical patent/CN106339409A/zh
Publication of CN106339409A publication Critical patent/CN106339409A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供一种用户语料信息的获取方法及装置,涉及数据挖掘技术领域,主要目的是提高获取语料的质量。本发明实施例所采用的技术方案是:根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。本发明主要用于用户语料信息的获取。

Description

用户语料信息的获取方法及装置
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种用户语料信息的获取方法及装置。
背景技术
在大数据背景下,用户在各种平台的行为数据很大程度上决定了用户的意图和习惯,因此,利用用户在各种平台的行为数据构建的预测模型来进行有监督学习的数据挖掘能够更加深入观察用户的目标行为。
现有技术在构建预测模型之前往往需要输入可靠的用户语料信息,从而将用户语料信息作为输入来构建合理的预测模型。这里用户语料信息的获取途径主要有以下几种:用户注册信息、用户填写的问卷调查或者从第三方平台购买等等。
然而,发明人在实现发明的过程中发现了如下问题,上述的通过用户注册信息获取语料的途径可能存在用户输入的虚假信息,导致获取的用户语料信息的质量较低;通过用户填写问卷调查获取语料的途径由于用户输入的几率较低,导致获取的用户语料信息有限;从第三方平台购买获取的用户语料信息相对来说成本较高,而且所提供用户语料信息的质量也无法保障。
发明内容
本发明实施例提供一种用户语料信息的获取方法及装置,提高了获取的用户语料信息的质量。
一方面,本发明实施例提供了一种用户语料信息的获取方法,包括:
根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;
根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;
根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
另一方面,本发明实施例提供了一种用户语料信息的获取装置,包括:
评估单元,用于根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;
第一获取单元,用于根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,根据所述置信度从所述候选用户中选择目标用户;
选择单元,用于将所述目标用户的用户语料信息作为样本用户的用户语料信息。
本发明实施例提供的一种用户语料信息的获取方法及装置,首先根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息,这里的用户行为的属性分布信息在一定程度上反映了不同属性特征的用户对多媒体的关注程度,该偏好值反映候选用户从不同属性特征角度对视频的偏好情况,进一步根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息,以便将属性特征不明显的候选用户进行过滤,从而使得选取出的候选用户对应的语料信息的质量符合预设条件,进而得到优质的样本用户。与现有技术的用户语料信息的获取方法相比,本发明实施例通过评估所述候选用户在不同属性类别上的偏好值,能够挖掘出属性特征明显的样本用户,然后选取所述偏好值符合预设条件的候选用户对应的用户语料信息作为样本用户,提高了获取的用户语料信息的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户语料信息的获取方法流程示意图;
图2为本发明实施例提供的另一种用户语料信息的获取方法流程示意图;
图3为本发明实施例提供的一种用户语料信息的获取装置结构示意图;
图4为本发明实施例提供的另一种用户语料信息的获取装置结构示意图;
图5示出了本发明实施例提供的一种用户语料信息的获取装置的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在大数据背景下,利用用户在各种平台的行为数据构建的预测模型来进行有监督学习的数据挖掘能够更加深入观察用户的目标行为,然而在构建预测模型之前往往需要输入可靠的用户语料信息,现有的通过用户注册信息获取语料的途径可能存在用户输入的虚假信息,导致获取的用户语料信息的质量较低。
为了解决上述问题,本发明实施例提供了一种用户语料信息的获取方法,能够提高获取用户语料信息的质量。图1所示,该方法包括:
101、根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值。
其中,所述用户行为的属性分布信息用于从属性特征角度对用户观看所述多媒体行为的分布信息,这里的属性特征可包括但不限制于用户的年龄、性别、职业、爱好等等,这里的多媒体可以包括但不限制于用户观看的视频、音频或者动画等,本发明实施例对上述多媒体的形式和属性特征不做限定,具体可以根据实际需求进行选取。
该属性分布信息能够反映多媒体从不同属性特征角度受用户欢迎的程度,如体育赛事类的视频比较受男性用户的欢迎,而韩剧类的视频比较受女性用户的欢迎。需要说明的是,在获取多媒体对应的用户行为的属性分布信息之前,可预先生成多媒体列表,并按照该多媒体列表中的多媒体顺序获取每个多媒体对应的用户行为的属性分布信息,该多媒体列表可以按照预定时间间隔内用户观看多媒体次数由高至低生成的列表,以覆盖用户最广的多媒体列表。
具体地,评估所述候选用户在不同的属性类别上的偏好值可以采用但不局限于下述方法,将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值,这里的偏好值越大则说明用户在从该属性类别角度对多媒体的喜爱度较高,进一步验证候选用户的该属性特征比较明显。
需要说明的是,在评估所述候选用户在不同的属性类别上的偏好值之前,本发明实施例可预先将所述候选用户观看多媒体的次数小于预设次数的候选用户对应的用户语料信息进行过滤,从而过滤掉对视频喜欢程度相对较低的候选用户,进一步提高获取的用户语料信息的质量。
102、根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度。
具体地,首先将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值,需要说明的是,这里通常根据用户观看的所有多媒体所计算的偏好值进行加总更能够说明用户的属性偏好,然后分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值,将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度,这里的置信度能够说明所述候选用户从所述属性特征角度上每个属性类别的偏好比重,如候选用户在性别男属性上的置信度和性别女属性上的置信度。
需要说明的是,上述的置信度越大则说明候选用户的属性特征越明显,例如,若候选用户从性别男和性别女属性角度计算得到的置信度相近,则无法明显判断出候选用户的属性特征,说明可能是该用户多次无意点击进入多媒体。
103、根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
根据步骤102所得到的置信度,选取置信度大于等于预设阈值的候选用户作为目标用户,并将目标用户所对应的语料信息作为样本用户的用户语料信息,进而将用户属性特征比较明显的用户筛选出来作为样本用户,通常该置信度为至少大于50%,如候选用户在性别男属性上的置信度和性别女属性上的置信度差别不大,则该用户输入的性别信息可能有误,并非所需的样本用户,不作选取,如候选用户在性别男属性上的置信度和性别女属性上的置信度差别很大,则该候选用户的性别男的属性特征明显,则将该用户作为样本用户选取。
示例性的,针对性别属性特征来说,通过上述的计算方法能够得到候选用户从性别男属性角度对多媒体的偏好值与该候选用户从性别女属性角度对该多媒体的偏好值,将用户从性别男属性和性别女属性角度得到的偏好值进行加总,得到偏好总值,然后分别将用户从性别男和性别女属性角度得到的偏好值除以偏好总值,得到用户性别男和性别女属性角度对多媒体的置信度,最后选取所述置信度大于等于预设阈值的候选用户所对应的语料信息作为样本用户的用户语料信息,从而排除用户属性特征不明显的候选用户。
本发明实施例提供的一种用户语料信息的获取方法,首先根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息,这里的用户行为的属性分布信息在一定程度上反映了不同属性特征的用户对多媒体的关注程度,该偏好值反映候选用户从不同属性特征角度对视频的偏好情况,进一步根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息,以便将属性特征不明显的候选用户进行过滤,从而使得选取出的候选用户对应的语料信息的质量符合预设条件,进而得到优质的样本用户。与现有技术的用户语料信息的获取方法相比,本发明实施例通过评估所述候选用户在不同属性类别上的偏好值,能够挖掘出属性特征明显的样本用户,然后选取所述偏好值符合预设条件的候选用户对应的用户语料信息作为样本用户,提高了获取的用户语料信息的质量。
为了更好的对上述图1所示的方法进行理解,作为上述实施方式的细化和扩展,本发明实施例提供了另一种用户语料信息的获取方法,如图2所示,该方法包括:
201、结合网络多媒体的指数平台获取视频的用户观看行为的指数信息。
这里的指数信息可以为多个视频网站的指数平台结合自身业务评价该视频从多个属性特征角度受到用户欢迎的评价指数,进一步用于反映该视频从不同属性特征角度受用户欢迎的程度。
举例来说,对于热播视频“欢乐颂”的指数信息选取的步骤可以为;从多个视频网站的指数平台了解到不同用户该视频的观看次数等信息,并且结合自身业务了解到观看该视频的用户女性居多,因此从性别属性特征角度该视频的受到女性欢迎的比例大于男性,进一步选取该视频合适的指数信息。
另外,由于所选取的视频通常为具有代表性的用户观看次数较多的视频,可以在获取所述多媒体的用户观看行为的指数信息之前,可以根据预设规则生成视频列表,然后按照视频列表的顺序获取每个视频的用户观看行为的指数信息,本发明实施例对这里的预设规则不做限定,具体可根据实际需求进行配置,优选地,可以按照预置时间间隔内每个视频对应的用户观看次数由高至低生成视频列表,当然也可按照预置时间间隔内每个视频用户评分高低生成视频列表。
示例性的,以30天作为时间间隔,首先获取30天内视频网站平台内每个视频对应用户观看次数,具体可根据用户点击进入视频的行为数据获取每个视频对应用户观看次数,需要说明的是,若用户一天内有至少一次点击进入视频的行为数据则按照一次计算,然后按照30天内每个视频对应用户观看次数由高至低生成视频列表。
202、将所述指数信息对应的属性特征进行分类,得到视频对应的用户行为的属性分布信息。
这里的用户行为的属性分布信息用于从属性特征角度对用户观看视频行为的分布信息,将指数信息对应的属性进行分类具体可以为:将从属于性别属性的指数信息归类,将从属于年龄属性的指数信息归类,将从属于职业属性的指数信息归类,从而方便查找。
203、将所述候选用户观看的视频的次数分别与所述候选用户观看的视频对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。
需要说明的是,本发明实施例可以在计算候选用户的偏好值之前,通过将候选用户观看视频的次数小于预设次数的用户及该候选用户对应的语料信息进行过滤的目的是过滤掉一些对该视频感兴趣程度不高的候选用后,进一步提高了获取用户语料信息的质量,从而保证预测模型输入样本的可靠性。
本发明实施例对预设次数不做限定,具体可根据实际需求进行选取,以间隔时间为10天为例,通常情况下若用户观看视频的次数小于3~5次则可说明用户对该视频感兴趣的程度不高,可能是由于视频推送而误点该视频产生的用户观看视频的次数。
由于每个属性特征内划分有多个属性类别,如性别类属性特征划分有性别男属性类别和性别女属性类别,年龄类属性特征划分有不同年龄段的属性类别,进一步将所述候选用户观看的视频的次数分别与所述视频对应的用户行为的属性分布信息中的每个属性类别信息相乘,得到所述候选用户从所述属性特征角度上每个属性类别的偏好值。
204、根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度。
具体地,首先将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值,需要说明的是,这里通常根据用户观看的所有多媒体所计算的偏好值进行加总更能够说明用户的属性偏好,然后分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值,将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度,这里的置信度能够说明所述候选用户从所述属性特征角度上每个属性类别的偏好比重,如候选用户在性别男属性上的置信度和性别女属性上的置信度。
205、选取所述置信度大于或等于预设阈值的候选用户作为目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
这里的置信度能够说明所述候选用户从所述属性特征角度上每个属性类别的偏好比重,最后选取所述置信度大于等于预设阈值的候选用户所对应的语料信息作为样本用户的用户语料信息。
示例性的,从用户年龄属性特征角度来说,这里的年龄属性特征可以具体划分为三个年龄段,分别为0~20岁、20~40岁和40岁以上,针对不同视频,每个年龄段所得到的偏好值也不同,将用户每个年龄段所得的偏好值加总,得到从年龄属性特征角度对视频的偏好总值,然后分别将每个年龄段所得的偏好值分别除以偏好总值,进一步得到用户每个年龄段对视频的置信度,若计算得到用户每个年龄段的置信度分别为20%、50%和30%,则说明用户处在20~40岁的属性特征比较明显,若计算得到用户每个年龄的置信度相差不大,则说明用户在年龄属性特征的偏好度并不明显。
由于置信度值越高,反映该用户在该属性类别的偏好度越高,说明用户样本输入的语料信息质量较高,进一步地,为了提高获取用户语料信息的质量,在得到每个属性类别候选用户对视频的置信度后,选取置信度相对较高的候选用户输入的语料信息作为输入样本,进而保证预测模型输入样本的可靠性。
对于本发明实施例,具体的应用场景可以如下所述,但不局限于此,从年龄属性特征的角度来说,这里的年龄属性特征可以具体划分为三个年龄段,分别为0~20岁、20~40岁和40岁以上,以20天时间间隔为例,首先从腾讯、爱奇艺和乐视视频网站统计20天内用户观看视频的次数,根据统计的用户观看视频次数由高至低进行排序,生成视频列表,排在列表第一位的视频为“好先生”、第二位的视频为“芈月传”,进一步观察每个年龄段对该视频的喜爱程度,由于每个视频网站会有评价视频的指数平台,本发明实施例结合多个视频网站的指数平台结合自身业务选取视频“好先生”适合每个年龄段用户的指数信息为0~20岁对应20%、20~40岁对应60%和40岁以上对应20%,视频“芈月传”适合每个年龄段用户的指数信息为0~20岁对应20%、20~40岁对应50%和40岁以上对应30%,从而得到在年龄属性特征角度用户对该视频的分布信息,进一步根据视频网站记录获取用户观看“好先生”视频的次数为10次大于预设的次数5次,观看“芈月传”视频的次数为8次大于预设次数5次,则说明用户对“好男人”视频的喜好程度相对于“芈月传”视频的稍高一些,保留两个视频用户的语料信息,进一步将该用户观看“好先生”视频的次数乘以用户每个年龄段的指数信息分别得到0~20岁对应2、20~40岁对应6和40岁以上对应2,即为用户每个年龄段对视频“好先生”的偏好值,然后将该用户观看“芈月传”视频的次数乘以用户每个年龄段的指数信息分别得到0~20岁对应1.6、20~40岁对应4和40岁以上对应2.4,即为用户每个年龄段对视频“芈月传”的偏好值,进而得到0~20岁年龄段对应的总偏好值为3.6、20~40岁年龄段对应的总偏好值为10和40岁以上年龄段对应的总偏好值为4.4,进一步对用户每个年龄段对两个视频的每个年龄属性分类的偏好值进行加总,得到偏好总值为18,分别将用户每个年龄段对应总偏好值除以偏好总值,分别每个年龄段对应的置信度分别为0~20岁为20%、20~40岁为56%和40岁以上为24%,由于用户在20~40岁年龄段的置信度大于预设阈值40%,该置信度说明了用户在20~40岁的属性特征较明显,从而保留用户在20~40岁的语料信息,作为优质样本用户输入预测模型,进一步推送给视频商家来评估视频,提高视频评估效率。
需要说明的是,上述的仅仅是根据两个多媒体计算得到的置信度进行选取样本用户,所选取的多媒体数量越多所筛选出的候选用户的可靠性越高,从而保证了输入预测模型样本的质量。
本发明实施例提供的另一种用户语料信息的获取方法,通过在评估所述候选用户在不同的属性类别上的偏好值之前,预先将所述用户观看视频的次数小于预设次数的用户及用户对应的语料信息进行过滤,保证了获取用户语料信息的质量,通过将用户从每个属性特征角度对所述视频的偏好值进行归一化,得到候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,进一步筛选出在不同的属性类别上偏好程度明显的候选用户,并将偏好程度明显的用户对应的语料信息作为挖掘出的用户数据,将挖掘出的用户语料信息数据作为优质样本输入至预测模型中,能够提高预测精度,进而推送给视频商家或者其他有需求的商家进行视频评估。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种用户语料信息的获取装置,如图3所示,该装置包括:评估单元31、第一获取单元32、选择单元33。
所述评估单元31,用于根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;
所述第一获取单元32,用于根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,根据所述置信度从所述候选用户中选择目标用户;
所述选择单元33,用于根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
需要说明的是,本发明实施例提供的一种用户语料信息的获取装置所涉及各功能单元的其他相应描述,可以参考图1中的对应描述,在此不再赘述。
本发明实施例提供的一种用户语料信息的获取装置,首先根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息,这里的用户行为的属性分布信息在一定程度上反映了不同属性特征的用户对多媒体的关注程度,该偏好值反映候选用户从不同属性特征角度对视频的偏好情况,进一步根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息,以便将属性特征不明显的候选用户进行过滤,从而使得选取出的候选用户对应的语料信息的质量符合预设条件,进而得到优质的样本用户。与现有技术的用户语料信息的获取方法相比,本发明实施例通过评估所述候选用户在不同属性类别上的偏好值,能够挖掘出属性特征明显的样本用户,然后选取所述偏好值符合预设条件的候选用户对应的用户语料信息作为样本用户,提高了获取的用户语料信息的质量。
进一步地,作为图2所述方法的具体实现,本发明实施例提供了另一用户语料信息的获取装置,如图4所示,所述装置还包括:第二获取单元34。
所述第二获取单元34,用于获取多媒体对应的用户行为的属性分布信息。
进一步地,所述第二获取单元34包括:
获取模块341,用于结合网络多媒体的指数平台获取所述多媒体的用户行为的指数信息;
分类模块342,用于将所述指数信息对应的属性特征进行分类,得到所述属性分布信息。
进一步地,所述评估单元31,还用于将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。
进一步地,所述第一获取单元32包括;
第一加总模块321,用于将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值;
第二加总模块322,用于分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值;
计算模块323,用于将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度;
所述选择单元33,还用于选取所述置信度大于或等于预设阈值的候选用户作为目标用户。
需要说明的是,本发明实施例提供的另一种用户语料信息的获取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述。
本发明实施例提供的另一种用户语料信息的获取装置,通过在评估所述候选用户在不同的属性类别上的偏好值之前,预先将所述用户观看视频的次数小于预设次数的用户及用户对应的语料信息进行过滤,保证了获取用户语料信息的质量,通过将用户从每个属性特征角度对所述视频的偏好值进行归一化,得到候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度,进一步筛选出在不同的属性类别上偏好程度明显的候选用户,并将偏好程度明显的用户对应的语料信息作为挖掘出的用户数据,将挖掘出的用户语料信息数据作为优质样本输入至预测模型中,能够提高预测精度,进而推送给视频商家或者其他有需求的商家进行视频评估。
需要说明的是,针对上述用户语料信息的获取装置,凡是本发明实施例中使用到的各个单元模块的功能都可以通过硬件处理器(hardware processor)来实现。
示例性的,如图5所示,图5示出了本发明实施例提供的一种用户语料信息的获取装置的实体结构示意图,该用户语料信的获取装置可以包括:处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43和总线44,其中,处理器41、通信接口42、存储器43通过总线44完成相互间的通信。通信接口42可以用于服务器与客户端之间的信息传输。处理器41可以调用存储器43中的逻辑指令,以执行如下方法:根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
此外,上述的存储器43中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用户语料信息的获取方法,其特征在于,包括:
根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;
根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;
根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
2.根据权利要求1所述的方法,其特征在于,所述根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值包括:
将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度包括:
将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值;
分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值;
将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度;
所述根据所述置信度从所述候选用户中选择目标用户具体为:选取所述置信度大于或等于预设阈值的候选用户作为目标用户。
4.根据权利要求1所述的方法,其特征在于,所述评估所述候选用户在不同的属性类别上的偏好值之前还包括:获取多媒体对应的用户行为的属性分布信息。
5.根据权利要求4所述的方法,其特征在于,所述获取多媒体对应的用户行为的属性分布信息包括:
结合网络多媒体的指数平台获取所述多媒体的用户行为的指数信息;
将所述指数信息对应的属性特征进行分类,得到所述属性分布信息。
6.一种用户语料信息的获取装置,其特征在于,包括:
评估单元,用于根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;
第一获取单元,用于根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;
选择单元,用于根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用户语料信息。
7.根据权利要求6所述的装置,其特征在于,所述评估单元还用于将所述候选用户观看的多媒体的次数分别与所述候选用户观看的多媒体对应的用户行为在不同的属性类别上的分布信息相乘,得到所述候选用户的偏好值。
8.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括;
第一加总模块,用于将所述候选用户观看所有多媒体行为在所有属性类别上的偏好值进行加总,得到偏好总值;
第二加总模块,用于分别将所述候选用户在不同的属性类别上的偏好值进行加总,得到每个属性类别的总偏好值;
计算模块,用于将所述每个属性类别的总偏好值除以所述总偏好值,得到每个属性类别的置信度;
所述选择单元,还用于选取所述置信度大于或等于预设阈值的候选用户作为目标用户。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取多媒体对应的用户行为的属性分布信息。
10.根据权利要求9所述的装置,其特征在于,所述第二获取单元包括:
获取模块,用于结合网络多媒体的指数平台获取所述多媒体的用户行为的指数信息;
分类模块,用于将所述指数信息对应的属性特征进行分类,得到所述属性分布信息。
CN201610653562.5A 2016-08-10 2016-08-10 用户语料信息的获取方法及装置 Pending CN106339409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610653562.5A CN106339409A (zh) 2016-08-10 2016-08-10 用户语料信息的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610653562.5A CN106339409A (zh) 2016-08-10 2016-08-10 用户语料信息的获取方法及装置

Publications (1)

Publication Number Publication Date
CN106339409A true CN106339409A (zh) 2017-01-18

Family

ID=57825101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610653562.5A Pending CN106339409A (zh) 2016-08-10 2016-08-10 用户语料信息的获取方法及装置

Country Status (1)

Country Link
CN (1) CN106339409A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168044A (zh) * 2018-10-11 2019-01-08 北京奇艺世纪科技有限公司 一种视频特征的确定方法及装置
CN111917809A (zh) * 2019-05-09 2020-11-10 腾讯科技(深圳)有限公司 多媒体数据推送方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984741A (zh) * 2014-05-23 2014-08-13 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统
CN104090888A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 一种用户行为数据的分析方法和装置
CN104679743A (zh) * 2013-11-26 2015-06-03 阿里巴巴集团控股有限公司 一种确定用户的偏好模式的方法及装置
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679743A (zh) * 2013-11-26 2015-06-03 阿里巴巴集团控股有限公司 一种确定用户的偏好模式的方法及装置
CN104090888A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 一种用户行为数据的分析方法和装置
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN103984741A (zh) * 2014-05-23 2014-08-13 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168044A (zh) * 2018-10-11 2019-01-08 北京奇艺世纪科技有限公司 一种视频特征的确定方法及装置
CN109168044B (zh) * 2018-10-11 2021-07-23 北京奇艺世纪科技有限公司 一种视频特征的确定方法及装置
CN111917809A (zh) * 2019-05-09 2020-11-10 腾讯科技(深圳)有限公司 多媒体数据推送方法及其装置
CN111917809B (zh) * 2019-05-09 2021-11-26 腾讯科技(深圳)有限公司 多媒体数据推送方法及其装置

Similar Documents

Publication Publication Date Title
US10963541B2 (en) Systems, methods, and apparatuses for implementing a related command with a predictive query interface
US9727927B2 (en) Prediction of user response to invitations in a social networking system based on keywords in the user's profile
US11727014B2 (en) Dynamic filter recommendations
CN103377250B (zh) 基于邻域的top‑k推荐方法
CN110442796A (zh) 一种推荐策略分桶方法、装置及设备
US20220100807A1 (en) Systems and methods for categorizing, evaluating, and displaying user input with publishing content
Hosseinmardi et al. Evaluating the scale, growth, and origins of right-wing echo chambers on YouTube
CN107862532B (zh) 一种用户特征提取方法及相关装置
EP2567355A2 (en) Selecting content based on interest tags that are included in an interest cloud
US11386301B2 (en) Cluster and image-based feedback system
CN103049865A (zh) 主动推荐产品信息服务的方法及系统
WO2013162593A1 (en) Application retention metrics
CN106354867A (zh) 多媒体资源的推荐方法及装置
CN106339409A (zh) 用户语料信息的获取方法及装置
CN108446311A (zh) 一种基于社交网络的app推荐方法及装置
CN110555163A (zh) 用于使应用商店推荐个性化的技术
US9402113B1 (en) Visualizing video audience retention by impression frequency
Bugajev et al. The impact of churn labelling rules on churn prediction in telecommunications
CN106611339B (zh) 种子用户筛选方法、产品的用户影响力评价方法及装置
US20150248685A1 (en) Automated identification of sales opportunities based on stored market data
US20150324825A1 (en) Automated identification of geographic audience based on stored market data
CN109325175A (zh) 融合微博兴趣挖掘的新闻推送方法、装置及设备
CN108985811A (zh) 用于精准营销的方法、装置及电子设备
US11379929B2 (en) Advice engine
CN111026913A (zh) 一种视频分发方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170118