CN107666615B - 潜力主播用户的挖掘方法、装置及服务器 - Google Patents
潜力主播用户的挖掘方法、装置及服务器 Download PDFInfo
- Publication number
- CN107666615B CN107666615B CN201710786408.XA CN201710786408A CN107666615B CN 107666615 B CN107666615 B CN 107666615B CN 201710786408 A CN201710786408 A CN 201710786408A CN 107666615 B CN107666615 B CN 107666615B
- Authority
- CN
- China
- Prior art keywords
- anchor user
- potential
- new anchor
- user
- live broadcast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000003066 decision tree Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络直播数据挖掘领域,具体涉及一种潜力主播用户的挖掘方法、装置及服务器,所述方法包括步骤:获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。本发明用于直播平台自动、快速、高覆盖率地发现潜力新主播用户,解决依靠人工发现潜力主播用户而存在的时效慢、覆盖率低、主观性强的问题。
Description
技术领域
本发明涉及网络直播数据挖掘领域,具体而言,本发明涉及一种潜力主播用户的挖掘方法、装置及服务器。
背景技术
随着互联网技术及智能移动终端设备的发展,各种互联网产品给人们的工作、生活带来了很多便利与娱乐,近年来,各类用于视频直播的直播平台层出不穷,视频直播给人们带来更实时的社交体验。直播平台依靠大量、优秀的主播用户及观众用户而保持竞争优势,为此,直播平台不断地加入新主播用户,而直播平台需要从该些新主播用户中发现潜力大、发展前景好、吸引观众的主播用户。目前对于如何发现直播平台上潜力大、发展前景好、吸引观众的新主播用户,往往通过长时间人工观察新主播用户的开播数据,并且较为主观地确定出潜力主播用户,同时依靠人工发掘潜力主播用户存在不全面且效率低的问题,进而导致潜力主播用户在直播平台上没有推荐资源问题而无法在直播平台上成长,从而流失到其它直播平台的问题。
发明内容
本发明的首要目的在于提供一种潜力主播用户的挖掘方法和装置,用于直播平台自动、快速、高覆盖率地发现潜力新主播用户,解决依靠人工发现潜力主播用户而存在的时效慢、覆盖率低、主观性强的问题。
本发明的另一目的在于提供一种实现上述潜力主播用户的挖掘方法的服务器。
为了实现该目的,本发明采用如下技术方案:
第一方面,本发明提供一种潜力主播用户的挖掘方法,包括以下步骤:
获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;
根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;
利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;
将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。
进一步的,所述根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据的步骤之前,包括:
获取直播平台的主播用户的历史特征数据;
根据所述历史特征数据及设置判别潜力主播用户的条件基于决策树算法进行模型训练,得到挖掘模型。
进一步的,所述获取新主播用户及其直播间在首次开播后的预设时间内的特征数据的步骤,包括:
获取新主播用户及其直播间在首次开播后的预设时间内的第一特征数据,所述第一特征数据包括DAU、直播时长、观看时长、弹幕人数、订阅数量;
将所述第一特征数据转化为第二特征数据,所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、DAU增幅。
进一步的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤之后,还包括:
将所述潜力主播用户在直播平台的主播推荐位上展示。
具体的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:
将新主播用户的潜力值按照从高到低进行排序;
选取排序后的前预设数量的新主播用户作为潜力主播用户。
优选的,所述新主播用户对应有直播平台的品类标签,所述潜力主播用户为直播平台对应品类标签下的新主播用户。
优选的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:
将相同品类标签的新主播用户的潜力值按照从高到低进行排序;
选取排序后的前预设数量的新主播用户作为该品类标签下的潜力主播用户。
具体的,所述决策树算法包括ID3算法、C4.5算法或CART算法的任意一项。
第二方面,本发明提供一种潜力主播用户挖掘装置,包括:
获取模块:用于获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;
测试模块:用于根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;
潜力值计算模块:用于利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;
潜力主播确定模块;用于将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。
第三方面,本发明提供一种服务器,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行第一方面所述的潜力主播用户的挖掘方法。
与现有技术相比,本发明具备如下优点:
本发明通过采集新主播用户在首次开播后的预设时间内的特征数据,然后以决策树挖掘算法建立的挖掘模型测试所述特征数据得到相应的决策数据,再根据信息熵计算法则计算所述决策数据获取新主播用户的潜力值,然后将潜力值满足预设条件的新主播用户选定为潜力主播用户,利用挖掘模型挖掘出直播平台上的潜力新主播用户,解决目前通过人工筛选所存在覆盖率低、时效慢、主观性强、计算困难等问题。
同时,在选定新主播用户作为潜力主播用户后,为潜力主播用户提供一定的推广资源,为潜力主播用户吸引更多的观众流量,提升潜力主播用户的曝光度,从而倒在更加受欢迎的主播用户,避免主播用户流失到其它直播平台。
进一步的,从挖掘模型中得到的潜力主播用户名单反馈直播平台以运营经验,为直播平台提供更多的参考数据。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明潜力主播用户的挖掘方法的一实施例流程示意图;
图2为本发明潜力主播用户的挖掘方法的另一实施例流程图示意图;
图3为本发明潜力主播用户的挖掘装置的一实施例示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,网络视频直播是针对实时社交需求,利用互联网和多媒体通信技术,通过在网络上构建一个集音频、视频、桌面共享、文档共享、互动环节为一体的多功能直播平台,企业或个人可以在线进行语音、视频、数据的全面交流与互动。网络视频直播领域的一个特点是直播间,直播间是基于直播平台创建的一个虚拟空间(或虚拟房间),直播间一般由主播客户端创建并连接有多个观看客户端,即直播间中包括了主播用户及多个观众用户,位于直播间内的观看客户端可以观看主播客户端的直播内容,同时主播客户端的用户与观看客户端的用户、观看客户端的用户与观看客户端的用户之间还可以进行语音、图片或文字的互动。
如图1所示,本发明的一种实施例中提供一种潜力主播用户挖掘方法,包括如下步骤:
S100:获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;
在直播平台上每天都会有新的主播用户加入,本实施例中将首次开播直播的主播用户在开播后的一定时间内定义为新主播用户,并在此期间内对新主播用户进行评估以挑选出潜力主播用户。具体的,直播平台在主播用户进行直播时会记录主播用户及其直播间的一系列特征数据,对于新主播用户而言亦是如此,在新主播用户开设直播间并进行直播时将产生一系列的特征数据,直播平台则获取新主播用户及其直播间在首次开播后的预设时间内的特征数据,例如,直播平台获取新主播用户在首次进行直播后的7天内(也可以是10天内或30天内)的特征数据,所述特征数据包括:
粉丝数量,主播用户的粉丝数量;
订阅数量,直播间的订阅人数;
直播时长,主播用户每天直播的时长;
观看时长,直播间内每天观看用户的平均观看时长;
弹幕数量,直播间内每天的弹幕数量;
弹幕人数,直播间内每天发送弹幕的用户数量;
DAU,直播间内每天观看用户的平均人数;
PCU,直播间内每天观看用户的最高人数。
S200:根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;
在获取了新主播用户及其直播间在首次开播后的预设时间内的特征数据后,需要对新主播用户的特征数据进行挖掘、处理以得到判断该新主播用户是否有称为潜力主播用户所需的决策数据,具体的,将所述特征数据通过以决策树算法建立的挖掘模型进行递归划分,决策树是由一个个判断节点组成,每经过一个判断节点数据就会被拆分一次,在本实施例的决策树算法中通过基尼不纯度或者熵来对一个集合的有序程度进行量化,然后利用信息增益对每一次拆分进行量化评价,将所述特征数据通过以决策树算法建立的挖掘模型进行测试后得到决策树中决策节点、分支及叶子节点的数值,本实施例中将该些节点及其数值定义为决策数据。
S300:利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;
决策数据中包含了决策节点、分支及叶子节点的数值,为了使得决策数据具有强解释性,本实施例中利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,信息熵用以衡量信息量的大小,本实施例中将所述决策数据求期望即可得到决策数据的信息熵,并且定义该信息熵作为表征新主播用户是否为潜力主播用户的潜力值。具体的,将所述决策数据包括的决策节点、分支及叶子节点的数值通过如下信息熵计算法则计算即可得到决策数据的信息熵,即新主播用户的潜力值H(x):
H(x)=E[log21/p(xi)]=-ξp(xi)log2p(xi)(i=1,2,..n)
=-[P1*log2(P1)+P2*log2(P2)+…+Pn*log2(Pn)]
=-[P1*log2(P1)+P2*log2(P2)+…+Pn*log2(Pn)]
其中,P(xi)为新主播用户的特征数据满足决策树中各节点的条件的事件的概率,例如,决策树中有一个节点条件为“每天开播时长大于1小时”,所述特征数据为新主播用户首次开播后的7天内的特征数据,其中有4天的特征数据中新主播用户每天开播时长大于1小时,则该节点的事件概率P(x1)=4/7。
进一步的,通过一个例子说明新主播用户潜力值的计算,所述特征数据为新主播用户首次开播后的7天内的特征数据,决策树中有一个节点条件为“每天开播时长大于1小时”,其中有4天的特征数据中新主播用户每天开播时长大于1小时,则该节点的事件概率P(x1)=4/7;决策树中有一个节点条件为“每天发送弹幕人数大于500人”,其中有5天的特征数据中直播间内每天发送弹幕人数大于500人,则该节点的事件概率P(x2)=5/7;决策树中有一个节点条件为“每天观众人数大于1000人”,其中有3天的特征数据中直播间内每天观众人数大于1000人,则该节点的事件概率P(x3)=3/7,则该新主播用户的潜力值H(x)=-[4/7*log2(4/7)+5/7*log2(5/7)+3/7*log2(3/7)]。
S400:将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。
在利用信息熵计算法则计算所述决策数据得到新主播用户的潜力值后,将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。在一种实施方式中,将各新主播用户的潜力值从高到低进行排序,按照从高到低选取预设数量的新主播用户作为潜力主播用户,例如在从高到低排序后将潜力值前50位的新主播用户选定为潜力主播用户。
本实施例通过基于决策树算法建立的挖掘模型挖掘出直播平台上对观众用户吸量强、直播间流量高的新主播用户,并将其选定为潜力主播用户,实现覆盖率高、时效快、计算方便地自动识别潜力新主播,避免潜力主播用户流失。
本发明的一种实施例中,所述步骤S100,包括:
S101:获取新主播用户及其直播间在预设时间内的第一特征数据,所述第一特征数据包括DAU、直播时长、观看时长、弹幕人数、订阅数量;
S102:将所述第一特征数据转化为第二特征数据,所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、DAU增幅。
所述第一特征数据是主播用户及其直播间的常规特征数据,本实施例在第一特征数据的基础上开发二阶衍生类质量特征数据,即第二特征数据,从而全方位地刻画新主播用户在首次开播后的预设时长内的数据表现。其中,
5分钟用户占比,直播间内每天观看5分钟以上的用户人数与每天的平均观看人数(DAU)的占比;
弹幕人数占比,直播间内每天发送弹幕的用户数量与每天的平均观看人数(DAU)的占比;
订阅人数占比,直播间内每天新增的订阅用户数量与每天的平均观看人数(DAU)的占比;
单位时间用户数,DAU/直播时长;
DAU增幅,主播用户地2次开播DAU/第1次开播DAU。
本发明的一种实施例中,在步骤S100之前,还包括:
获取直播平台的主播用户的历史特征数据;
根据所述历史特征数据及设置判别潜力主播用户的条件基于决策树算法进行模型训练,得到潜力主播用户的挖掘模型。
在使用挖掘模型之前,需要进行模型训练,在本实施例中,将获取直播平台上的主播用户的历史特征数据作为挖掘模型的训练集,所述历史特征数据同样包含上述列举的特征数据,如DAU、直播时长、观看时长、弹幕人数、订阅数量,同样地也可以将该些数据进行二阶衍生得到5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、DAU增幅的数据,然后设定判别潜力主播用户的条件,再基于决策树算法进行模型训练得到挖掘模型中各个节点的参数值,继而得到潜力主播用户的挖掘模型。
本发明的实施例中,所述决策树算法为ID3算法或C4.5或CART算法,不同的算法训练出来的模型的参数不尽相同,通过不同算法挖掘出来的潜力主播用户亦不尽相同,后续再对不同算法挖掘出的潜力主播用户的特征数据进行追踪,判别哪种算法挖掘出来的潜力主播用户更为准确,以更好地优化挖掘模型。
如图2所示,本发明的一种实施例中,在步骤S400之后,还包括:
S500:将所述潜力主播用户在直播平台的主播推荐位上展示。
在选定了新主播用户作为潜力主播用户后,直播平台为该潜力主播用户提供相应的推荐资源,将该潜力主播用户在直播平台的主播推荐位上展示以向直播平台的观看用户推荐该潜力主播用户,为该主播用户吸引更多的观众流量,进一步提升主播用户的曝光度。在本实施例中,直播平台上设有一定的推广资源位(即主播推荐位),推广资源位上会更新向用户推荐的主播用户,观众用户可从该推广资源位进入对应主播用户的相关页面,了解主播用户的个人信息及直播间信息,本实施例通过将所述潜力主播用户在主播推荐位上展示,更好地为潜力主播用户吸引观众流量,进而提升潜力主播用户的曝光度,从而打造更加受欢迎的主播。
在一种实施例中,所述新主播用户对应有直播平台的品类标签,所述潜力主播用户为直播平台对应品类标签下的主播用户。具体的,在判别新主播用户是否为潜力主播用户时,选取同一批次对比的新主播用户为具有直播平台相同品类标签的用户,直播平台上的品类标签包括户外直播、网游直播、手游直播、真人秀表演直播等,主播用户在进行开播时均为直播间选择对应的品类标签,在本实施例中,通过将相同品类标签的新主播用户进行对比,选取同一品类标签下潜力值满足预设条件的新主播用户作为潜力主播用户,避免不同品类标签的潜力主播用户选取的干扰,并且,不同品类标签下挖掘模型中的参数不尽相同,例如手游直播品类标签的一个节点的条件为“每天观众人数大于1000人”,而户外直播品类标签的一个节点的条件为“每天观众人数大于300人”,通过不同品类标签选择不同的挖掘模型参数,进而选取出同一品类标签下的潜力主播用户,更能满足实际挖掘潜力主播用户的需求。
在一种优选的实施例中,将相同品类标签的新主播用户的潜力值按照从高到低进行排序;选取排序后的前预设数量的新主播用户作为该品类标签的潜力主播用户。例如在从高到低排序后将手游直播品类标签的潜力值前50位的新主播用户选定为潜力主播用户。
如图3所示,本发明的一种实施例提供一种潜力主播用户挖掘装置,包括:
获取模块100:用于获取新主播用户及其直播间在首次开播后的预设时间内的特征数据。
直播平台在主播用户进行直播时会记录主播用户及其直播间的一系列特征数据,对于新主播用户而言亦是如此,在新主播用户开设直播间并进行直播时将产生一系列的特征数据,获取模块100则获取新主播用户及其直播间在首次开播后的预设时间内的特征数据
测试模块200:用于根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据。
在获取模块100获取了新主播用户及其直播间在首次开播后的预设时间内的特征数据后,测试模块200需要对新主播用户的特征数据进行挖掘、处理以得到判断该新主播用户是否有称为潜力主播用户所需的决策数据,具体的,测试模块200将所述特征数据通过以决策树算法建立的挖掘模型进行递归划分,将所述特征数据通过以决策树算法建立的挖掘模型进行测试后得到决策树中决策节点、分支及叶子节点的数值,本实施例中将该些节点及其数值定义为决策数据。
潜力值计算模块300:用于利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值。
决策数据中包含了决策节点、分支及叶子节点的数值,为了使得决策数据具有强解释性,本实施例中潜力值计算模块300利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,信息熵用以衡量信息量的大小,本实施例中潜力值计算模块300将所述决策数据求期望即可得到决策数据的信息熵,并且定义该信息熵作为表征新主播用户是否为潜力主播用户的潜力值
潜力主播确定模块400;用于将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。
在潜力值计算模块300利用信息熵计算法则计算所述决策数据得到新主播用户的潜力值后,潜力主播确定模块400将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。
另外,本发明的一实施例还提供一种服务器,该服务器可以理解为直播平台挖掘潜力主播用户时所使用的服务器,其包括一个或多个处理器;存储器;一个或多个应用程序;所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述实施例的方法的步骤。
综上,本发明提供的一种潜力主播用户的挖掘方法、装置及服务器,用于直播平台自动、快速、高覆盖率地发现潜力新主播用户,解决依靠人工发现潜力主播用户而存在的时效慢、覆盖率低、主观性强的问题。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种潜力主播用户的挖掘方法,其特征在于,包括以下步骤:
获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;所述特征数据包括第一特征数据;在所述第一特征数据的基础上建立第一特征数据之间的关联开发二阶衍生类特征数据,将所述第一特征数据转化为第二特征数据;所述新主播用户对应有直播平台的品类标签;
根据以决策树算法建立的挖掘模型测试所述第二特征数据,获取相应的决策数据;所述第一特征数据包括DAU、直播时长、观看时长、弹幕人数、订阅数量;所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、DAU增幅;不同品类标签下的挖掘模型对于特征数据的参数值不同;
利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,将所述决策数据的信息熵作为新主播用户的潜力值;
将潜力值满足预设条件对应的新主播用户选定为潜力主播用户;所述潜力主播用户为直播平台对应品类标签下的新主播用户。
2.根据权利要求1所述的方法,其特征在于,所述根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据的步骤之前,还包括:
获取直播平台的主播用户的历史特征数据;
根据所述历史特征数据及设置判别潜力主播用户的条件基于决策树算法进行模型训练,得到挖掘模型。
3.根据权利要求1所述的方法,其特征在于,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤之后,还包括:
将所述潜力主播用户在直播平台的主播推荐位上展示。
4.根据权利要求1所述的方法,其特征在于,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:
将新主播用户的潜力值按照从高到低进行排序;
选取排序后的前预设数量的新主播用户作为潜力主播用户。
5.根据权利要求1所述的方法,其特征在于,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:
将相同品类标签的新主播用户的潜力值按照从高到低进行排序;
选取排序后的前预设数量的新主播用户作为该品类标签下的潜力主播用户。
6.根据权利要求1所述的方法,其特征在于,所述决策树算法包括ID3算法、C4.5算法或CART算法的任意一项。
7.一种潜力主播用户挖掘装置,其特征在于,包括:
获取模块:用于获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;所述特征数据包括第一特征数据;在所述第一特征数据的基础上建立第一特征数据之间的关联开发二阶衍生类特征数据,将所述第一特征数据转化为第二特征数据;所述新主播用户对应有直播平台的品类标签;
测试模块:用于根据以决策树算法建立的挖掘模型测试所述第二特征数据,获取相应的决策数据;所述第一特征数据包括DAU、直播时长、观看时长、弹幕人数、订阅数量;所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、DAU增幅;不同品类标签下的挖掘模型对于特征数据的参数值不同;
潜力值计算模块:用于利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,将所述决策数据的信息熵作为新主播用户的潜力值;
潜力主播确定模块;用于将潜力值满足预设条件对应的新主播用户选定为潜力主播用户;所述潜力主播用户为直播平台对应品类标签下的新主播用户。
8.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据权利要求1~6任一项所述的潜力主播用户的挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710786408.XA CN107666615B (zh) | 2017-09-04 | 2017-09-04 | 潜力主播用户的挖掘方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710786408.XA CN107666615B (zh) | 2017-09-04 | 2017-09-04 | 潜力主播用户的挖掘方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107666615A CN107666615A (zh) | 2018-02-06 |
CN107666615B true CN107666615B (zh) | 2020-05-19 |
Family
ID=61098207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710786408.XA Active CN107666615B (zh) | 2017-09-04 | 2017-09-04 | 潜力主播用户的挖掘方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107666615B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392270B (zh) * | 2018-04-20 | 2021-08-17 | 卓米私人有限公司 | 直播平台中优质主播的排序方法和装置 |
CN110392286B (zh) * | 2018-04-20 | 2021-09-07 | 卓米私人有限公司 | 直播平台中优质主播的推荐方法和装置 |
CN110400027A (zh) * | 2018-04-20 | 2019-11-01 | 香港乐蜜有限公司 | 直播平台中主播的统计管理方法和装置 |
CN108777801B (zh) * | 2018-05-30 | 2020-08-21 | 广州虎牙信息科技有限公司 | 优质主播用户挖掘方法、装置及计算机存储介质、服务器 |
CN109034049A (zh) * | 2018-07-23 | 2018-12-18 | 北京密境和风科技有限公司 | 跳舞视频的识别方法及装置 |
CN109246483B (zh) * | 2018-09-30 | 2021-06-15 | 武汉斗鱼网络科技有限公司 | 一种直播间推荐方法、装置、设备及存储介质 |
CN109858971A (zh) * | 2019-02-03 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 用户画像的处理方法、装置、存储介质及电子设备 |
CN110012364B (zh) * | 2019-04-15 | 2021-06-01 | 广州方硅信息技术有限公司 | 主播推荐方法、装置及存储介质 |
CN110049372B (zh) * | 2019-04-23 | 2021-07-02 | 广州虎牙信息科技有限公司 | 主播稳定留存率的预测方法、装置、设备及存储介质 |
CN112016773B (zh) * | 2019-05-13 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 一种确定潜力主播的方法及装置 |
CN110602518A (zh) * | 2019-09-18 | 2019-12-20 | 广州虎牙科技有限公司 | 直播推荐方法、装置、电子设备及可读存储介质 |
CN110996116B (zh) * | 2019-12-18 | 2022-03-11 | 广州市百果园信息技术有限公司 | 一种主播信息的推送方法、装置、计算机设备和存储介质 |
CN111800647B (zh) * | 2020-06-29 | 2022-08-09 | 广州市百果园信息技术有限公司 | 直播连麦匹配方法、装置、设备及存储介质 |
CN112040254B (zh) * | 2020-08-13 | 2023-03-28 | 广州虎牙信息科技有限公司 | 一种风险控制方法、装置、存储介质、计算机设备 |
CN114025176A (zh) * | 2021-08-24 | 2022-02-08 | 广州方硅信息技术有限公司 | 主播推荐方法、装置、电子设备及存储介质 |
CN114079657B (zh) * | 2021-12-06 | 2022-05-03 | 北京创新乐知网络技术有限公司 | 资源的分发方法和装置、终端设备及存储介质 |
CN115065834B (zh) * | 2022-05-16 | 2024-07-12 | 杭州网易云音乐科技有限公司 | 流量扶持方法、装置、介质和计算设备 |
CN117812410B (zh) * | 2024-01-09 | 2024-08-27 | 江苏凯立达数据科技有限公司 | 一种基于互联网直播的平台流量推荐调度系统、方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5546632B2 (ja) * | 2009-07-08 | 2014-07-09 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチメディアコンテンツを分析するための方法および機構 |
CN106228398A (zh) * | 2016-07-20 | 2016-12-14 | 武汉斗鱼网络科技有限公司 | 基于c4.5决策树算法的特定用户挖掘系统及其方法 |
CN107067144A (zh) * | 2016-12-30 | 2017-08-18 | 广州华多网络科技有限公司 | 一种挖掘运营基维度的方法及装置 |
CN106713938A (zh) * | 2017-02-24 | 2017-05-24 | 北京潘达互娱科技有限公司 | 一种数据处理方法与装置 |
-
2017
- 2017-09-04 CN CN201710786408.XA patent/CN107666615B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107666615A (zh) | 2018-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107666615B (zh) | 潜力主播用户的挖掘方法、装置及服务器 | |
CN107205178B (zh) | 直播间推荐方法及装置 | |
CN110769270B (zh) | 直播互动的方法及装置、电子设备、存储介质 | |
CN109168048B (zh) | 主播等级的确定方法、装置、设备及存储介质 | |
CN105916042B (zh) | 虚拟物品赠送方法、用户终端、网络直播平台和系统 | |
CN109257631B (zh) | 视频轮播播放方法、装置、计算机设备及存储介质 | |
CN106604046A (zh) | 视频直播方法及装置 | |
US20210142363A1 (en) | Managing content delivery via audio cues | |
CN110099283A (zh) | 信息推送方法、装置、设备和存储介质 | |
CN106231367B (zh) | 美颜处理方法及装置 | |
CN103686375A (zh) | 视频分享方法及装置 | |
CN110879851A (zh) | 视频动态封面生成方法、装置、电子设备及可读存储介质 | |
CN103617547A (zh) | 一种业务推荐方法及系统 | |
CN102955858A (zh) | 视频文件的搜索排序方法、系统及服务器 | |
CN106791975A (zh) | 一种视频直播的方法、终端设备和视频直播系统 | |
CN112988671A (zh) | 媒体文件处理方法、装置、可读介质及电子设备 | |
JP6659889B1 (ja) | 情報処理装置及びコンピュータプログラム | |
CN106209824A (zh) | 数据的云编辑方法、系统以及云编辑的客户端 | |
CN106027673A (zh) | 资源预推送的控制及训练方法、装置 | |
CN103945074B (zh) | 一种彩铃定制方法和系统 | |
CN103023923A (zh) | 一种传输信息的方法及装置 | |
CN107124660B (zh) | 直播间广播信息的触发方法和装置 | |
CN117275675A (zh) | 训练方案生成方法、装置、电子设备和存储介质 | |
US10169781B1 (en) | Method and system for generating information about portable device advertising | |
CN106664432A (zh) | 多媒体信息播放方法及系统、采集设备、标准化服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |