CN108683949B - 一种直播平台潜在用户的提取方法及装置 - Google Patents

一种直播平台潜在用户的提取方法及装置 Download PDF

Info

Publication number
CN108683949B
CN108683949B CN201810478885.4A CN201810478885A CN108683949B CN 108683949 B CN108683949 B CN 108683949B CN 201810478885 A CN201810478885 A CN 201810478885A CN 108683949 B CN108683949 B CN 108683949B
Authority
CN
China
Prior art keywords
live broadcast
broadcast platform
user
users
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810478885.4A
Other languages
English (en)
Other versions
CN108683949A (zh
Inventor
林彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810478885.4A priority Critical patent/CN108683949B/zh
Publication of CN108683949A publication Critical patent/CN108683949A/zh
Application granted granted Critical
Publication of CN108683949B publication Critical patent/CN108683949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开的一种直播平台潜在用户的提取方法及装置,获取直播平台主站用户中的多个待提取用户,生成每个待提取用户的多维特征向量,将每个待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户。将提取直播平台潜在用户的问题转化为提取直播平台主站中与直播平台活跃用户相似、且与直播平台流失用户不同的用户的问题,将每个待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,准确得到多个直播平台潜在用户,提高了提取直播平台潜在用户的准确率。

Description

一种直播平台潜在用户的提取方法及装置
技术领域
本发明涉及互联网技术领域,更具体的,涉及一种直播平台潜在用户的提取方法及装置。
背景技术
随着直播的兴起,出现了很多大型真人互动视频直播社区,简称直播平台。随着直播平台业务的不断发展,如何挖掘直播平台的潜在用户成为各大直播平台的关键问题。
直播平台一般为主站的一部分,主站的表现形式包括:视频播放平台、音乐播放平台、门户网站等。以视频播放平台为例,直播平台可以为视频播放平台中的一个直播板块。直播平台的主站中存在大量用户,其中存在不少用户有着观看直播平台的可能,他们很可能成为直播平台潜在用户。现有的挖掘直播平台潜在用户的方法一般为:通过简单的筛选规则从直播平台主站的海量用户中筛选直播平台潜在用户,例如,将观影时长、注册时间等指标做为筛选规则。显然,这种简单的筛选规则很难从海量用户中准确提取直播平台潜在用户。
发明内容
有鉴于此,本发明提供了一种直播平台潜在用户的提取方法及装置,通过使用直播平台活跃用户作为正样本、直播平台流失用户作为负样本训练直播平台潜在用户提取模型,通过直播平台潜在用户提取模型从直播平台主站中的用户中准确提取直播平台潜在用户。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种直播平台潜在用户的提取方法,包括:
获取直播平台主站用户中的多个待提取用户;
根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量;
将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台用户中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。
优选的,所述根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量,包括:
提取每个所述待提取用户在每个预设维度的特征值;
分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述待提取用户的多维特征向量。
优选的,所述将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,包括:
将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
将预测值大于预设值的待提取用户确定为直播平台潜在用户。
优选的,所述方法还包括:
获取直播平台中的多个活跃用户和多个流失用户;
生成每个所述活跃用户和所述流失用户的多维特征向量;
以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
优选的,所述获取直播平台主站用户中的多个待提取用户,包括:
根据第一预设时间段内直播平台主站用户在直播平台主站的观影行为数据,确定所述直播平台主站中的多个待提取用户;
所述获取直播平台用户中的多个活跃用户和多个流失用户,包括:
根据第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
将在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为多数直播平台中的流失用户,所述第三预设时间段为所述第二时间段之前的一段时间。
优选的,所述以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型,包括:
对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
一种直播平台潜在用户的提取装置,包括:
第一获取单元,用于获取直播平台主站用户中的多个待提取用户;
第一生成单元,用于根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量;
提取单元,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。
优选的,所述生成单元包括:
提取子单元,用于提取每个所述待提取用户在每个预设维度的特征值;
编码子单元,用于分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述待提取用户的多维特征向量。
优选的,所述提取单元包括:
处理子单元,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
确定子单元,用于将预测值大于预设值的待提取用户确定为直播平台潜在用户。
优选的,所述装置还包括:
第二获取单元,用于获取直播平台中的多个活跃用户和多个流失用户;
第二生成单元,用于生成每个所述活跃用户和所述流失用户的多维特征向量;
训练单元,用于以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
优选的,所述第一获取单元具体用于:
根据第一预设时间段内直播平台主站用户在直播平台主站的观影行为数据,确定所述直播平台主站中的多个待提取用户;
所述第二获取单元包括:
第二确定子单元,用于根据第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
第三确定子单元,用于将在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为所述直播平台中的流失用户,所述第三预设时间段为所述第二时间段之前的一段时间。
优选的,所述训练单元包括:
L1正则化处理子单元,用于对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
5-fold交叉验证子单元,用于根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种直播平台潜在用户的提取方法及装置,获取直播平台主站用户中的多个待提取用户,生成每个所述待提取用户的多维特征向量,便于后续处理,将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台用户中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。将提取直播平台潜在用户的问题转化为提取直播平台主站中与直播平台活跃用户相似、且与直播平台流失用户不同的用户的问题,将每个所述待提取用户的多维特征向量输入到所述直播平台潜在用户提取模型中进行处理,准确得到多个直播平台潜在用户,提高了提取直播平台潜在用户的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种直播平台潜在用户的提取方法流程图;
图2为本发明实施例公开的直播平台中活跃用户和流失用户的获取方法流程图;
图3为本发明实施例公开的一种直播平台潜在用户提取模型的训练方法流程图;
图4为本发明实施例公开的一种直播平台潜在用户的提取装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例公开了一种直播平台潜在用户的提取方法,具体包括以下步骤:
S101:获取直播平台主站用户中的多个待提取用户;
直播平台主站用户为在直播平台主站有观影行为或消费行为的用户。
具体的,根据第一预设时间段内直播平台主站用户的观影行为数据,确定所述直播平台主站中的多个待提取用户。
第一预设时间段为预先设定的时间段,可以为近半个月、近一个月等。
在直播平台主站有观影行为的用户有着观看直播的可能,即可能成为直播平台的潜在用户,他们可能只是之前不了解直播平台业务而已,如果对这些潜在用户进行精准的广告投放,让他们了解直播平台业务,他们很有可能成为直播平台用户。
由于直播平台主站存在海量用户,其中可能存在着长期没有观影行为的用户,而长期没有观影行为的用户成为直播平台潜在用户的可能很小,因此,根据第一预设时间段内直播平台主站用户的观影行为数据,过滤掉长期没有观影行为的用户,降低后续数据处理的负担。
例如,将近半个月访问过直播平台主站的直播平台主站用户确定为待提取用户。
S102:根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量;
优选的,提取每个所述待提取用户在每个预设维度的特征值;
通过状态寄存器分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述活跃用户、所述流失用户和所述待提取用户的多维特征向量。
需要说明的是,维度是预先设定的,根据多个预设维度的特征值表示所述待提取用户,以视频播放平台为直播平台主站为例,预设维度可以包括爱情电影、动作电影、悬疑电影、喜剧电影、内地电视综艺、港台电视综艺、网络综艺、历史题材电视剧、都市题材电视剧、战争题材电视剧等维度,每个维度的内容互不交叉。
特征值可以为是或否数值化后为0或1,也可以为具体数值,例如爱情类电影观看数量等等。
具体通过N位状态寄存器分别对每个所述待提取用户N个预设维度的特征值进行编码,每个预设维度都有独立的寄存器位,构建近三百万维的稀疏矩阵,即多维特征向量。
S103:将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户。
其中,所述直播平台潜在用户提取模型为以直播平台用户中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。
具体的,所述每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,包括:
将每个所述待提取用户的多维特征向量输入到所述直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
将预测值大于预设值的待提取用户确定为直播平台潜在用户。
其中,每个待提取用户的预测值是一个0~1之间的数,预设值也为0~1之间的数,预设值是预先设定的,实验证明当预设值为0.6时提取的直播平台潜在用户的准确率最高,当然,本发明并不以此为限。
直播平台可以为提取出的直播平台潜在用户推送对应的片前广告等信息,需要说明的是,直播平台可以随机为不同的直播平台潜在用户推送不同的片前广告,也可以针对不同直播平台潜在用户的特点为其推送相应类型的片前广告。
在使用直播平台潜在用户提取模型提取直播平台潜在用户之前,所述方法还包括:
获取直播平台用户中的多个活跃用户和多个流失用户;
生成每个所述活跃用户和所述流失用户的多维特征向量;
以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
需要说明的是,系统会周期性的获取直播平台用户中的多个活跃用户和多个流失用户,生成每个所述活跃用户和所述流失用户的多维特征向量;以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。也就是说,通过周期性更新训练正样本和负样本,周期性的对直播平台潜在用户提取模型进行更新,使基于直播平台潜在用户提取模型提取到的直播平台潜在用户更加准确。
请参阅图2,获取直播平台用户中的多个活跃用户和多个流失用户的一种优选实施方式如下:
S201:根据第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
具体的,若对活跃用户的要求较低,可以根据第二预设时间段内直播平台用户在直播平台的观影行为数据或所述直播平台用户在直播平台的消费行为数据,判断直播平台用户是否为活跃用户;若对活跃用户的要求较高,可以同时根据第二预设时间段内直播平台用户在直播平台的观影行为数据和所述直播平台用户在直播平台的消费行为数据,判断直播平台用户是否为活跃用户。活跃用户表示对直播平台感兴趣的用户。
第二预设时间段为预先设定的一段时间,可以为近1个月、近两个月等等。
例如,第二预设时间段内直播平台用户的观影行为数据可以为近一个月内直播平台用户的观影行为数据,根据观影行为数据可以判断所述直播平台用户在近一个月内是否有至少两天访问过直播平台,所述直播平台用户在进一个月内是否有至少两天访问过直播平台可以作为判断所述直播平台用户是否为活跃用户的一个在观影行为方面的判断标准。基于第二预设时间段内直播平台用户的消费行为数据可以判断近一个月内直播平台用户在直播平台中是否有过消费行为,直播平台用户在近一个月内在直播平台中是否有过消费行为可以作为直播平台用户是否为活跃用户的一个在消费行为方面的判断标准。
S202:将在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为所述直播平台中的流失用户。
第三预设时间段为预先设定的一段时间,所述第三预设时间段为所述第二时间段之前的一段时间。
例如,第三预设时间段可以为过去的两个月前到三个月前的时间段,所述直播平台用户在过去的两个月前到三个月前的时间段内访问过直播平台,但是在过去的一个月内为访问过直播平台且访问过直播平台主站。。
直播平台的流失用户表示在使用直播平台主站的同时停止了对直播平台的使用,即,对直播平台明显不感兴趣的用户。
需要说明的,生成每个所述活跃用户和所述流失用户的多维特征向量的方法与生成待提取用户的多维特征向量的方法相同。
请参阅图3,所述以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型一种优选实施方式为:
S301:对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
正则化(regularization)是对过大权重的一种处理形式。它的目的是避免某些权重有特别高的幅度,在模型中占据完全的主导地位。在本实施例中,由于多维特征向量的维度很高,而其中很多维度并没有很强的表达能力,所以我们选用L1正则化,L1正则化能让大部分的特征的权重都趋近于0。从而起到特征选择的作用。具体的过程如以下公式所示,λ为正则化参数,w为表示每个预设维度的权重的向量,x表示样本的特征向量。经过L1正则化后,只有一万三千多维特征的权重是不为零的。
Figure BDA0001665187200000091
S302:根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
5-fold交叉验证,即把训练样本等分成五份,训练样本包括正样本和负样本。每次把其中四份作为训练集,第五份作为验证集进行模型的训练。这样的过程进行五次,得到五个模型,我们选择在验证集上取得最高的准确率的模型作为直播平台潜在用户提取模型。实验证明最后在验证集上能达到80%左右的正确率和召回率。
本实施例公开的一种直播平台潜在用户的提取方法,获取直播平台用户中的多个活跃用户和多个流失用户,并获取直播平台主站用户中的多个待提取用户,生成每个所述活跃用户、所述流失用户和所述待提取用户的多维特征向量,便于后续处理,以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型,将提取直播平台潜在用户的问题转化为提取直播平台主站中与直播平台活跃用户相似、且与直播平台流失用户不同用户的问题,将每个所述待提取用户的多维特征向量输入到所述直播平台潜在用户提取模型中进行处理,准确得到多个直播平台潜在用户,提高了提取直播平台潜在用户的准确率。
基于上述实施例公开的一种直播平台潜在用户的提取方法,请参阅图4,本实施例对应公开了一种直播平台潜在用户的提取装置,包括:
第一获取单元401,用于获取直播平台用户中的多个活跃用户和多个流失用户,并获取直播平台主站用户中的多个待提取用户;
第一生成单元402,用于根据每个所述待提取用户在每个预设维度的特征值生成每个所述活跃用户、所述流失用户和所述待提取用户的多维特征向量;
提取单元403,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,所述直播平台潜在用户提取模型为以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。
优选的,所述第一生成单元402包括:
提取子单元,用于提取每个所述待提取用户在每个预设维度的特征值;
编码子单元,用于分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述待提取用户的多维特征向量。
优选的,所述提取单元403包括:
处理子单元,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
第一确定子单元,用于将预测值大于预设值的待提取用户确定为直播平台潜在用户。
优选的,所述装置还包括:
第二获取单元,用于获取直播平台中的多个活跃用户和多个流失用户;
第二生成单元,用于生成每个所述活跃用户和所述流失用户的多维特征向量;
训练单元,用于以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
优选的,所述第一获取单元具体用于:
根据第一预设时间段内直播平台主站用户在直播平台主站的观影行为数据,确定所述直播平台主站中的多个待提取用户;
所述第二获取单元包括:
第二确定子单元,用于根据第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
第三确定子单元,用于将在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为所述直播平台中的流失用户,所述第三预设时间段为所述第二时间段之前的一段时间。
优选的,所述训练单元包括:
L1正则化处理子单元,用于对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
5-fold交叉验证子单元,用于根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
本实施例公开的一种直播平台潜在用户的提取装置,获取直播平台主站用户中的多个待提取用户,生成每个所述待提取用户的多维特征向量,便于后续处理,将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台用户中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的。将提取直播平台潜在用户的问题转化为提取直播平台主站中与直播平台活跃用户相似、且与直播平台流失用户不同的用户的问题,将每个所述待提取用户的多维特征向量输入到所述直播平台潜在用户提取模型中进行处理,准确得到多个直播平台潜在用户,提高了提取直播平台潜在用户的准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种直播平台潜在用户的提取方法,其特征在于,包括:
获取直播平台主站用户中的多个待提取用户,多个所述待提取用户是过滤掉第一预设时间段内直播平台主站没有观影行为的用户并根据第一预设时间段内直播平台主站用户的观影行为数据确定的;
根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量;
将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的,流失用户为在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,所述第三预设时间段为所述第二预设时间段之前的一段时间。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量,包括:
提取每个所述待提取用户在每个预设维度的特征值;
分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述待提取用户的多维特征向量。
3.根据权利要求1所述的方法,其特征在于,所述将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,包括:
将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
将预测值大于预设值的待提取用户确定为直播平台潜在用户。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取直播平台中的多个活跃用户和多个流失用户;
生成每个所述活跃用户和所述流失用户的多维特征向量;
以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
5.根据权利要求4所述的方法,其特征在于,所述获取直播平台用户中的多个活跃用户和多个流失用户,包括:
根据所述第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
将在所述第三预设时间段内访问过直播平台,在所述第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为所述直播平台中的流失用户。
6.根据权利要求4所述的方法,其特征在于,所述以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型,包括:
对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
7.一种直播平台潜在用户的提取装置,其特征在于,包括:
第一获取单元,用于获取直播平台主站用户中的多个待提取用户,多个所述待提取用户是过滤掉第一预设时间段内直播平台主站没有观影行为的用户并根据第一预设时间段内直播平台主站用户的观影行为数据确定的;
第一生成单元,用于根据每个所述待提取用户在每个预设维度的特征值生成每个所述待提取用户的多维特征向量;
提取单元,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到多个直播平台潜在用户,其中,所述直播平台潜在用户提取模型为以直播平台中的多个活跃用户的多维特征向量作为正样本,以多个流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练得到的,流失用户为在第三预设时间段内访问过直播平台,在第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,所述第三预设时间段为所述第二预设时间段之前的一段时间。
8.根据权利要求7所述的装置,其特征在于,所述生成单元包括:
提取子单元,用于提取每个所述待提取用户在每个预设维度的特征值;
编码子单元,用于分别对每个所述待提取用户在每个预设维度的特征值进行编码,得到每个所述待提取用户的多维特征向量。
9.根据权利要求7所述的装置,其特征在于,所述提取单元包括:
处理子单元,用于将每个所述待提取用户的多维特征向量输入到直播平台潜在用户提取模型中进行处理,得到每个所述待提取用户的预测值;
确定子单元,用于将预测值大于预设值的待提取用户确定为直播平台潜在用户。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取直播平台中的多个活跃用户和多个流失用户;
第二生成单元,用于生成每个所述活跃用户和所述流失用户的多维特征向量;
训练单元,用于以每个所述活跃用户的多维特征向量作为正样本,以每个所述流失用户的多维特征向量作为负样本,对预设逻辑回归模型进行训练,得到直播平台潜在用户提取模型。
11.根据权利要求10所述的装置,其特征在于,所述第二获取单元包括:
第二确定子单元,用于根据所述第二预设时间段内直播平台用户在直播平台的观影行为数据和/或所述直播平台用户在直播平台的消费行为数据,确定直播平台中的多个活跃用户;
第三确定子单元,用于将在所述第三预设时间段内访问过直播平台,在所述第二预设时间段内未访问过直播平台且访问过直播平台主站的用户,确定为所述直播平台中的流失用户。
12.根据权利要求10所述的装置,其特征在于,所述训练单元包括:
L1正则化处理子单元,用于对每个所述活跃用户的多维特征向量和每个所述流失用户的多维特征向量进行L1正则化处理,得到多维特征向量每个预设维度的权重;
5-fold交叉验证子单元,用于根据多维特征向量每个预设维度的权重,在预设逻辑回归模型中对训练样本进行5-fold交叉验证,将潜在用户提取准确率最高的模型作为直播平台潜在用户提取模型。
CN201810478885.4A 2018-05-18 2018-05-18 一种直播平台潜在用户的提取方法及装置 Active CN108683949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810478885.4A CN108683949B (zh) 2018-05-18 2018-05-18 一种直播平台潜在用户的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810478885.4A CN108683949B (zh) 2018-05-18 2018-05-18 一种直播平台潜在用户的提取方法及装置

Publications (2)

Publication Number Publication Date
CN108683949A CN108683949A (zh) 2018-10-19
CN108683949B true CN108683949B (zh) 2021-11-02

Family

ID=63805183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810478885.4A Active CN108683949B (zh) 2018-05-18 2018-05-18 一种直播平台潜在用户的提取方法及装置

Country Status (1)

Country Link
CN (1) CN108683949B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451332B (zh) * 2018-11-16 2021-11-09 武汉斗鱼网络科技有限公司 一种用户属性标记方法、装置、计算机设备及介质
CN111444930B (zh) * 2019-01-17 2021-03-16 上海游昆信息技术有限公司 一种确定二分类模型的预测效果的方法及装置
CN111680215B (zh) * 2020-04-28 2023-02-14 上海淇馥信息技术有限公司 一种信息推送的方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127525A (zh) * 2016-06-27 2016-11-16 浙江大学 一种基于分类算法的电视购物商品推荐方法
CN106991175A (zh) * 2017-04-06 2017-07-28 百度在线网络技术(北京)有限公司 一种客户信息挖掘方法、装置、设备以及存储介质
CN107153907A (zh) * 2017-03-22 2017-09-12 华为技术有限公司 一种评估视频业务的潜在用户的方法及相关装置
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224764B1 (en) * 2009-06-01 2012-07-17 Gregory Albert Ouzounian Method to predict homemade explosive formulation outcomes
US8412665B2 (en) * 2010-11-17 2013-04-02 Microsoft Corporation Action prediction and identification temporal user behavior
GB2492604A (en) * 2011-07-01 2013-01-09 Bluecava Inc Serving user behaviour data corresponding to a human user of a device without authenticating the user
CN105005909A (zh) * 2015-06-17 2015-10-28 深圳市腾讯计算机系统有限公司 预测流失用户的方法及装置
CN105160008B (zh) * 2015-09-21 2020-03-31 合一网络技术(北京)有限公司 一种定位推荐用户的方法及装置
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN107562941A (zh) * 2017-09-21 2018-01-09 北京京东尚科信息技术有限公司 数据处理方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127525A (zh) * 2016-06-27 2016-11-16 浙江大学 一种基于分类算法的电视购物商品推荐方法
CN107153907A (zh) * 2017-03-22 2017-09-12 华为技术有限公司 一种评估视频业务的潜在用户的方法及相关装置
CN106991175A (zh) * 2017-04-06 2017-07-28 百度在线网络技术(北京)有限公司 一种客户信息挖掘方法、装置、设备以及存储介质
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 K- support 稀疏逻辑回归的停电敏感度预测;耿俊成,张小斐,孙玉宝,吴博,周强;《计算机与现代化》;20180420;引言及第2部分 *

Also Published As

Publication number Publication date
CN108683949A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN108683949B (zh) 一种直播平台潜在用户的提取方法及装置
CN112417207B (zh) 一种视频推荐方法、装置、设备及存储介质
CN110727868B (zh) 对象推荐方法、装置和计算机可读存储介质
KR20180072793A (ko) 푸시 정보 대략 선택 정렬 방법, 디바이스 및 컴퓨터 저장 매체
CN113204655B (zh) 多媒体信息的推荐方法、相关装置及计算机存储介质
US20240303507A1 (en) Method and device for recommending goods, method and device for training goods knowledge graph, and method and device for training model
CN110072140B (zh) 一种视频信息提示方法、装置、设备及存储介质
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN112347787A (zh) 方面级别情感分类方法、装置、设备及可读存储介质
CN110781396A (zh) 一种信息推荐方法、装置、设备及存储介质
CN109348262A (zh) 一种主播相似度的计算方法、装置、设备和存储介质
CN113127727A (zh) 信息推荐模型确定方法、信息推荐方法及装置
CN110909258B (zh) 一种信息推荐方法、装置、设备及存储介质
Rogerson Maximum G etis–O rd Statistic Adjusted for Spatially Autocorrelated Data
CN113254788B (zh) 一种基于大数据的推荐方法、系统及可读存储介质
CN114661999A (zh) 一种推荐方法、推荐模型的训练方法以及相关装置
CN110188277B (zh) 一种资源的推荐方法及装置
CN108763515B (zh) 一种基于概率矩阵分解的时间敏感个性化推荐方法
CN109429104B (zh) 家庭成员的分析方法及相关装置
CN114330929B (zh) 内容贡献度评估方法、装置、电子设备及可读存储介质
CN115660060A (zh) 一种模型训练方法以及检测方法、装置、设备及存储介质
CN111461773B (zh) 一种用户检测方法、装置及电子设备
CN115114462A (zh) 模型训练方法、装置、多媒体推荐方法、设备及存储介质
CN108509459B (zh) 数据处理方法和装置
Liu et al. Identifying the perceptive users for online social systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant