CN109361932A - 直播热度预测的方法,装置,设备及介质 - Google Patents
直播热度预测的方法,装置,设备及介质 Download PDFInfo
- Publication number
- CN109361932A CN109361932A CN201811412976.4A CN201811412976A CN109361932A CN 109361932 A CN109361932 A CN 109361932A CN 201811412976 A CN201811412976 A CN 201811412976A CN 109361932 A CN109361932 A CN 109361932A
- Authority
- CN
- China
- Prior art keywords
- direct broadcasting
- broadcasting room
- user
- barrage
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种直播热度预测方法,包括:确定至少一个在预设时间段内在线用户具有固定增长值的第一类型直播间及在预设时间段内在线用户低于固定值的第二类型直播间;分别获取至少一个第一类型直播间及第二类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列和第二时间序列;将得到的第一时间序列及第二时间序列进行训练,得到预测模型;获取待预测直播间中的用户在线时长及弹幕,得到以用户在线时长及弹幕组成的第三时间序列;将第三时间序列输入至预测模型中,以确定待预测直播间为第一类型直播间或第二类型直播间。该方法能够帮助平台挖掘潜力主播,使其获得更好的发展,同时提升平台的推广效果。
Description
技术领域
本发明涉及互联网直播领域,尤其涉及一种直播热度预测的方法,系统,设备及介质。
背景技术
随着互联网的飞速发展,信息爆炸越来越严重,主要体现在新闻信息飞速增加、娱乐信息急剧攀升、广告信息铺天盖地、科技信息飞速递增及个人接受严重“超载”。无论在商品推荐,还是广告推荐中,当下的推荐技术,主流是输入User特征(用户年龄,性别,婚否,有无孩子等)、Item特征(价格,折扣,品类和品牌相关特征等)以及其交互特征,应用机器学习技术进行推荐。
在直播领域,同样也需要推荐用户感兴趣的直播节目,但是直播中存在时间的变化,比如:如果某主播多才多艺,那么该直播间将会越来越受欢迎,如果某主播缺乏经营技术,那么该直播间热度将会下滑。因此,在对直播节目进行推荐的时候,不能单纯的用直播间的ID来表示,而是要结合其当前变化趋势,不能将正在变差的直播节目推送给用户,造成用户流失。如果能够对观众的需求做出精准的推荐,可以节约大量时间成本,有效提升平台的推广效果。
发明内容
(一)要解决的技术问题
针对目前存在的技术问题,本发明提出一种基于时间序列的直播热度预测方法,系统,设备及介质,用于至少部分解决上述技术问题。
(二)技术方案
本发明提供一种直播热度预测方法,包括:确定至少一个第一类型直播间及至少一个第二类型直播间,其中,第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,第二类型直播间为在预设时间段内在线用户低于固定值的直播间;获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列;获取至少一个第二类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第二时间序列;将获取的至少一个第一时间序列及第二时间序列进行训练,得到预测模型;获取待预测直播间中的用户在线时长及弹幕,得到以用户在线时长及弹幕组成的第三时间序列;将第三时间序列输入至预测模型中,以确定待预测直播间为第一类型直播间或第二类型直播间。
可选地,获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列,包括:将第一类直播间一场直播的直播总时长划分为多个等长的时间段;计算每个时间段内所有用户在线时长的总和,根据每个时间段内所有用户在线时长的总和得到时间向量;获取每个时间段内出现次数最多的前M个弹幕,并根据该M个弹幕得到弹幕向量;将时间向量与每个时间段内的弹幕向量分别组合,得到每个时间段内的评价向量;根据每个时间段内的评价向量得到该直播的第一时间序列,其中,一个时间段内的评价向量为第一时间序列的一个元素。
可选地,计算每个时间段内所有用户在线时长的总和,包括:统计每个用户的上线时刻和下线时刻;将上线时刻和下线时刻对应到相应的时间段内,计算得到每个时间段类每个用户在该时间段内的在线时长;将每个时间段内所有用户的在线时长求和得到每个时间段内所有用户的在线时长总和。
可选地,根据每个时间段内所有用户在线时长的总和得到时间向量,包括:比较各时间段内所有用户在线时长的总和,得到所有时间段内所有用户在线时长的总和的最大值Tmax;将每个时间段内所有用户在线时长的总和转化为时间向量:其中,Ti表示第i时间段被所有用户在线时长总和,Tmax表示所有时间段内所有用户在线时长总和的最大值。
可选地,根据该M个弹幕得到弹幕向量,包括:将M个弹幕转化为对应的M个词向量;对M个词向量求和得到弹幕向量:其中,wri表示前M个弹幕,word2vec表示将弹幕转换成词向量的操作,WVt表示弹幕向量。
可选地,将至少一个第一时间序列及第二时间序列进行训练,得到预测模型,包括:将至少一个第一时间序列和至少一个第二时间序列输入基于神经网络的预测框架,根据公式:Os=tanh(W·Dt+Os-1)
及
得到所述预测模型;其中,OS代表隐藏层的输出,W代表隐藏层的权值,wi代表隐藏层输出的权值,每个N代表隐藏层的维数,Dt代表输入的所述多个第一时间序列或所述多个第二时间序列,lablel为所述二分类符号函数。
可选地,将第三时间序列输入至预测模型中,以确定待预测直播间为第一类型直播间或第二类型直播间,包括:若预测模型输出的二分类符号函数的值为1,则待预测直播间为第一类型直播间;若预测模型输出的二分类符号函数的值为-1,则待预测直播间为第二类型直播间。
本发明另一方面提供一种直播热度预测装置,该装置包括:直播间选取模块,用于确定至少一个第一类型直播间及至少一个第二类型直播间,其中,第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,第二类型直播间为在预设时间段内在线用户低于固定值的直播间;时间序列生成模块,用于获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列,获取至少一个第二类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第二时间序列,获取待预测直播间中的用户在线时长及弹幕,得到以用户在线时长及弹幕组成的第三时间序列;预测模型生成模块,用于将至少一个第一时间序列及第二时间进行训练,得到预测模型;预测模块,用于将所述第三时间序列输入至所述预测模型中,以确定待测直播间为第一类型直播间或第二类型直播间。
本发明另一方面还提供一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行本发明中的直播热度预测方法。
本发明另一方面还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现本发明中的直播热度预测方法。
(三)有益效果
本发明提供一种基于时间序列的直播热度预测方法,系统,设备及介质,通过用户在某直播间的在线时长和弹幕来评价该直播间的吸引力和主播能力,将在线时长和弹幕转化为具体的时间序列,根据该时间序列预测直播节目的兴衰趋势,从而帮助平台挖掘可能流行的主播,帮助有才艺的主播取得更好的发展,同时提升平台的推广效果。
附图说明
为了更完整地理解本发明及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本发明实施例的基于时间序列的直播热度预测方法的流程图。
图2示意性示出了根据本发明实施例的时间序列的示意图。
图3示意性示出了根据本发明实施例的基于神经网络的预测框架示意图。
图4示意性示出了根据本发明实施例的基于时间序列的直播热度预测装置的框图。
图5示意性示出了根据本发明实施例的基于时间序列的直播热度预测的电子设备框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明实施例提出一种基于时间序列的直播热度预测方法。
图1示意性示出了根据本发明实施例的基于时间序列的直播热度预测方法的流程图。
如图1所示,方法包括:
S1,确定直播间类型,根据直播间的用户在线时长和弹幕得到不同类型直播间的不同时间序列。
一个直播间的交互是主播和用户的交互,因此,在开播的时候,可以根据用户平均在线时长来反映该直播间对用户的吸引力,同时,弹幕代表用户对直播节目最直观的反应,可以用弹幕中正能量的词语代表主播的能力。
时间序列预测是一种历史资料延伸预测,是以时间序列所能反映的现象的发展过程和规律性,进行引申外推,预测其发展趋势的方法。其内容包括:收集与整理某种现象的历史资料;对这些资料进行鉴别排查,排成序列;分析时间序列,从中寻找该社会现象随时间变化而变化的规律,得出一定的模式;以此模式去预测该现象未来的情况。因此,可以将用户的在线时长和弹幕作为统计指标,组成一个时间序列,以该时间状态序列为基础来预测直播间未来热度的兴衰趋势。
预测需要构建一个预测模型,而模型的建立需要历史数据的支撑。因此,确定至少一个第一类型的直播间和第二类型的直播间,其中,第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,即在一段时间内,从平庸到到流行的直播间,以该类直播间中的用户在线时长和弹幕作为建立预测模型的正例数据,第二类型直播间为在预设时间段内在线用户低于固定值的直播间,即那些一直平庸的直播间,以该类直播间中的用户在线时长和弹幕作为建立预测模型的负例数据。
将这两种直播间中用户在线时长和弹幕的变化趋势转化为对应的时间序列为样本,训练出预测直播间热度的预测模型,去预测待测直播间未来的热度情况,判断待测直播间是第一类型的直播间还是第二类型的直播间。本发明实施列选取直播节目在线人数大于10000的直播间为第一类型直播间,选取在线人数小于2000的直播间为第二类型直播间。下面介绍具体两种直播间时间序列的获取方法。
针对于一种类型直播间一场直播,得到一个时间序列(D1,D2,D3,…,Dt),该时间序列包含t个状态,每个状态Dt反映在对应的t时间段的状态,每个状态包括两个部分:用户已在线时长及此刻弹幕总数,在统计过程中,将该场直播的总时长划分为多个等长的时间段,分别统计每个时间段内所有用户已在线时长及弹幕,将在线时长转化为时间向量,将弹幕转化为词向量,根据词向量得到弹幕向量,将时间向量和弹幕向量组成一个多维向量用于表示每个时间段对应的直播状态。
例如,一般一个直播会连续播放4个小时,将4个小时划分为10分钟一个时间段,一共得到24个时间段,统计每个用户的上线时刻和下线时刻,将上线时刻和下线时刻落在对应的时间段内,这样,每个时间段内的用户的个数即可被统计出来,每个时间段内每个用户的在线时长即可被计算出来,所有用户的在线时长总和亦可被计算出来,然后,采用最大归一化方法将所有用户的在线时长总和归一化到0~1之间,得到一个24维时间向量表示该直播对用户的吸引力,该向量为:
其中,Ti表示在第i个时间段内所有用户的在线时长总和,Tmax表示24个时间段中最大在线时长总和,Vt是24维时间向量。
接下来介绍弹幕向量的转化方法。一般直播间出现的都是汉语,由于直播间的弹幕一般比较多,并且存在很多重复语句,为了获取当前时刻用户对该直播的反应,可统计当前时间段内弹幕中出现次数最多的前M名的弹幕来代表用户对直播间的评价,本实施中选取出现最多的30个弹幕。借助外部语料,训练得到30个弹幕对应的词向量。
外部语料主要用于对兴趣类别进行关键词提取,以找到每个类别的关键词团,它是通过种子词到搜索引擎上进行搜索,然后解析搜索引擎的返回结果,将前N条结果的内容抽取出来,提取出来的内容包括多个页面,每个页面的内容作为一篇文档。然后利用关键字抽取程序对每个类别分别抽取关键词,关键词抽取出来后再更新种子词已获得更全面的语料。因此,可以借助外部语料从弹幕中提取出现次数最多的30个词语。比如,在观看主播唱歌时,用户觉得主播歌唱的好听,弹幕中就会出现“好听”之类的词语,可以以“好听”为种子词,从弹幕中提取出所有“好听”的弹幕。
提取出30个词语后,训练得到其对应的词向量,训练是机器学习中专有名词,为了得到词向量,需要以样本数据为例子进行不断的学习,学习的过程叫做训练。本发明实施例训练得到的向量为50维,具体的向量维数根据实际需求来定,本发明不加以限制。例如,以word2vec中的经典模型skip-gram negative sampling来举例说明。word2vec中的skip-gram negative sampling是采用skip-gram策略用SGD算法优化目标函数:
其中,W为词向量,w为弹幕对应的词语,c是w的上下文(本质上也是词语),#(w,c)是出现在w上下文的次数。具体来说,从头到尾扫描通过外部语料提取出来的文档,对文档的每一个位置都使用skip-gram构造多个w c词对,并对目标函数的一个分量中的两个部分做梯度下降,从而得到每个词w的词向量W。
得到词向量后,通过将所有的词向量进行求和得到的弹幕向量作为当前用户对平台的评价向量化表示,即:
其中,w表示词语,word2vec即前述所提及的训练得到词向量的操作,WVt即为在t时间段内所有用户的弹幕向量。
将所得时间向量分别和每个时间段的弹幕向量组合,得到每个时间段的评价向量(一个评价向量即一个状态Dt),将所有时间段的评价向量组合在一起得到一个时间序列,该时间序列是一个多维的向量,每个评价向量为时间序列的一个元素,如图2所示,每个时间序列对应的74维的向量为:
Dt=(Vt,WVt)
按照上述方法,得到第一类型直播间(正例直播间)和第二类型直播间(负例直播间)对应的每个状态对应的评价向量,从而得到向量化评价第一类型直播间每场直播的第一时间序列和第二类型直播间每场直播的第二时间序列。
为保证预测模型预测的准确度高,需获取至少一个第一类型直播间(或第二类直播间)的至少一个时间序列,因此,重复上述操作,分别得到第一类型直播间和第二类型直播间连续多场直播对应的多个第一时间序列和多个第二时间序列,具体场次根据实际需求来定,本发明实施列选取连续100场直播作为训练预测模型的训练样本序列。
S2,将至少一个第一时间序列及第二时间序列进行训练,得到预测模型。
再得到第一类型直播间和第二类型直播间对应的多个第一时间序列和多个第二时间序列之后,需要根据至少一个第一时间序列和至少一个第二时间序列通过训练方法建立一个预测待测直播间未来热度变化趋势的预测模型,具体的预测框架如图3所示,该预测框架是基于神经网络建立的。一般一个神经网络包括多个神经元层:输入层、隐藏层及输出层。输入层负责接收输入及分发到隐藏层(因为用户看不见这些层,所以见做隐藏层)。这些隐藏层负责所需的计算及输出结果给输出层,而用户则可以看到最终结果。隐藏层具有权重,输入层的输出是隐层的输入,隐层的输出和对应权重的乘积是输出层的输入,输出层的输出才是最终的输出。
模型的构建过程为:将得到的第一时间和第二时间序列作为训练样本序列分别输入至预测框架的输入层(图3中对应的D1、D2、D3、…、Dt),每个状态Dt会输出一个分数值。最初的一个时间输入仅包含状态,后续的输入不仅包含当前时刻状态,而且包含前一步的状态输出,这种输入方式使得上一时刻对下一时刻有影响,每一时刻不是独立存在的,保证了时序性。将输入层输出的分数次输入至隐藏层,每个隐藏层具有各自的权值,采用梯度下降法求出每个隐藏层的权值,将隐藏层的输出和对应权重W的乘积输入至输出层(图3中虚线框对应的隐藏层),并采用梯度下降法计算每个隐藏层输出的权值w(图3中对应的w1、w2、w3、…、wt),最后输出层一个二分类符号函数label。
该模型计算依赖的公式如下:
Os=tanh(W·Dt+Os-1)
其中,OS代表隐藏层的输出,W代表隐藏层的权重,wi代表隐藏层输出的权值,每个N代表隐藏层的维数,Dt代表输入的时间序列,lablel为二分类符号函数,tanh为双曲正切函数。从公式中也可以看出,当前时刻输入OS包括了上一时刻的输出OS-1。
其中,输出的二分类符号函数lablel的取值为1或-1,1代表输入的时间序列对应的直播间热度高(流行),-1代表输入的时间序列对应的直播间热度低(平庸)。
其中,隐藏层的维数设置根据具体需求来设定,本实施列隐藏层设置为50维,本发明不加以限制。
S3,预测待测直播间未来热度的变化趋势。
选取待预测的直播间(通常为目前较为平庸的直播间)最近连续多场的直播,按照操作S1的方法,将每场直播用户的在线时长和弹幕转化为对应的多个第三时间序列,将多个第三时间序列输入至预测模型(输出二分类符号函数lablel),若二分类符号函数lablel输出的值为1,则预测该直播间为第一类直播间,未来热度会上升,该直播间会流行,若二分类符号函数lablel输出的值为-1,则预测该直播间为第二类直播间,未来热度会不变或下降,该直播间会一直平庸甚至衰败。
综上所述,本发明实施例通过选取从平庸到流行的直播间和一直平庸的直播间为正反例,将该两种直播间每场直播的在线时长和弹幕转化为一个时间序列,并获取该两种直播间连续多场直播的多个时间序列,利用这些多个时间作为训练序列样本去优化一个直播间热度的预测模型,然后将需要预测的直播间最近连续多场的直播也转化为多个时间序列,根据这多个时间序列和优化的直播热度的预测模型来预测该直播间未来热度的变化趋势,半段该主播是否有潜力。应用此方法,可以帮助平台发现一些可能成为流行主播,能够帮助有才艺主播获取较好的发展,同时能够提升平台的推广效果,对直播生态具有重要的意义。
图4示意性示出了根据本发明实施例的基于时间序列的直播热度预测装置400的框图。
如图4所示,基于时间序列的直播热度预测装置400包括直播间选取模块410、时间序列生成模块420、预测模型生成模块430及预测模块440。
具体地,直播间选取模块410,用于确定第一类型的直播间和第二类型的直播间,其中,第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,即那些在一段时间内,从平庸到到流行的直播间,以该类直播间用户在线时长和弹幕作为建立预测模型的正例数据,第二类型直播间为在预设时间段内在线用户低于固定值的直播间,即那些一直平庸的直播间,以该类直播间用户在线时长和弹幕作为建立预测模型的负例数据。
时间序列生成模块420,用于将某类型直播间一场直播的总时长划分为多个等长的时间段,统计每个时间段内所有用户的在线时长总和及弹幕,并统计弹幕中出现次数最多的M个弹幕,将该在线时长转化为一个多维时间向量:
其中,Ti表示所有用户在第i个时间段的观看时长,Tmax表示n个时间段中最大观看时长,Vt是n维时间向量,
将出现次数最多的M个弹幕转化为对应的M个词向量,并将所有词向量求和得到弹幕向量即:
其中,w表示词语,word2vec即前述所提及的训练得到词向量的操作,WVt即为在t时间段所有用户对应的弹幕向量。
将所得时间向量分别和每个时间段的弹幕向量组合,得到每个时间段的评价向量,将所有时间段的评价向量组合在一起得到一个时间序列,该时间序列是一个多维的向量,每个评价向量为时间序列的一个元素,该时间序列对应的维的向量为:
Dt=(Vt,WVt)
按照上述放啊,得到第一类型直播间至少一个第一时间序列,第二类型直播间至少一个第二时间序列及待测直播间的至少一个第三时间序列。
预测模型生成模块430,将得到的至少一个第一时间序列和第二时间序列输入至基于神经网络的预测框架的输入层,每个状态Dt会输出一个分数值。最初的一个时间输入仅包含状态,后续的输入不仅包含当前时刻状态,而且包含前一步的状态输出,这种输入方式使得上一时刻对下一时刻有影响,每一时刻不是独立存在的,保证了时序性。将输入层输出的分数次输入至隐藏层,每个隐藏层具有各自的权值,采用梯度下降法求出每个隐藏层的权值,将隐藏层的输出和对应权重W的乘积输入至输出层,并采用梯度下降法计算每个隐藏层输出的权值w,最后输出层一个二分类符号函数label。
该模型计算依赖的公式如下:
Os=tanh(W·Dt+Os-1)
其中,OS代表隐藏层的输出,W代表隐藏层的权重,wi代表隐藏层输出的权值,每个N代表隐藏层的维数,Dt代表输入的时间序列,lablel为二分类符号函数,tanh为双曲正切函数。从公式中也可以看出,当前时刻输入OS包括了上一时刻的输出OS-1。
其中,输出的二分类符号函数lablel的取值为1或-1,1代表输入的时间序列对应的直播间热度高(流行),-1代表输入的时间序列对应的直播间热度低(平庸)。
预测模块440,将多个第三时间序列输入预测模型430,若输出的二分类符号函数lablel输出的值为1,则预测该直播间未来热度会上升,即该直播间会流行,若二分类符号函数lablel输出的值为-1,则预测该直播间未来热度会不变或下降,即该直播间会一直平庸甚至衰败。
应当理解,直播间选取模块410、时间序列生成模块420、预测模型生成模块430及预测模块440可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,直播间选取模块410、时间序列生成模块420、预测模型生成模块430及预测模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,直播间选取模块410、时间序列生成模块420、预测模型生成模块430及预测模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
本发明提供一种电子设备,如图5所示,该电子设备500包括处理器510和存储器520。该电子设备500可以执行根据图1所示的本发明实施例的方法。
具体地,处理器510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器510还可以包括用于缓存用途的板载存储器。处理器510可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器520,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
存储器520可以包括计算机程序521,该计算机程序521可以包括代码/计算机可执行指令,其在由处理器510执行时使得处理器510执行根据本公开实施例的方法或其任何变形。
计算机程序521可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序521中的代码可以包括至少一个程序模块,例如包括模块521A、模块521B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器510执行时,使得处理器510可以执行根据本公开实施例的方法或其任何变形。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (10)
1.一种直播热度预测方法,其特征在于,包括:
确定至少一个第一类型直播间及至少一个第二类型直播间,其中,所述第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,第二类型直播间为在预设时间段内在线用户低于固定值的直播间;
获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列;
获取至少一个第二类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第二时间序列;
将所述至少一个第一时间序列及第二时间序列进行训练,得到预测模型;
获取待预测直播间中的用户在线时长及弹幕,得到以用户在线时长及弹幕组成的第三时间序列;
将所述第三时间序列输入至所述预测模型中,以确定所述待预测直播间为第一类型直播间或第二类型直播间。
2.根据权利要求1所述的直播热度的预测方法,其特征在于,所述获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列,包括:
将所述第一类直播间一场直播的直播总时长划分为多个等长的时间段;
计算每个时间段内所有用户在线时长的总和,根据所述每个时间段内所有用户在线时长的总和得到时间向量;
获取每个时间段内出现次数最多的前M个弹幕,并根据该M个弹幕得到弹幕向量;
将所述时间向量与每个时间段内的弹幕向量分别组合,得到每个时间段内的评价向量;
根据所述每个时间段内的评价向量得到该直播的所述第一时间序列,其中,一个时间段内的评价向量为所述第一时间序列的一个元素。
3.根据权利要求2所述的直播热度的预测方法,其特征在于,所述计算每个时间段内所有用户在线时长的总和,包括:
统计每个用户的上线时刻和下线时刻;
将所述上线时刻和下线时刻对应到相应的时间段内,计算得到每个时间段类每个用户在该时间段内的在线时长;
将每个时间段内所有用户的在线时长求和得到所述每个时间段内所有用户的在线时长总和。
4.根据权利要求2所述的直播热度的预测方法,其特征在于,所述根据所述每个时间段内所有用户在线时长的总和得到时间向量,包括:
比较各时间段内所有用户在线时长的总和,得到所有时间段内所有用户在线时长的总和的最大值Tmax;
将所述每个时间段内所有用户在线时长的总和转化为所述时间向量:其中,Ti表示第i时间段被所有用户在线时长总和,Tmax表示所有时间段内所有用户在线时长总和的最大值。
5.根据权利要求2所述的直播热度的预测方法,其特征在于,所述根据该M个弹幕得到弹幕向量,包括:
将所述M个弹幕转化为对应的M个词向量;
对所述M个词向量求和得到所述弹幕向量:其中,wri表示前M个弹幕,word2vec表示将弹幕转换成词向量的操作,WVt表示弹幕向量。
6.根据权利要求1所述的直播热度的预测方法,其特征在于,所述将所述至少一个第一时间序列及第二时间序列进行训练,得到预测模型,包括:
将所述至少一个第一时间序列和至少一个第二时间序列输入基于神经网络的预测框架,根据公式:Os=tanh(W·Dt+Os-1)
及
得到所述预测模型;
其中,OS代表隐藏层的输出,W代表隐藏层的权值,wi代表隐藏层输出的权值,每个N代表隐藏层的维数,Dt代表输入的所述多个第一时间序列或所述多个第二时间序列,lablel为所述二分类符号函数。
7.根据权利要求1和6所述的直播热度的预测方法,其特征在于,所述将所述第三时间序列输入至所述预测模型中,以确定所述待预测直播间为第一类型直播间或第二类型直播间,包括:
若所述预测模型输出的所述二分类符号函数的值为1,则所述待预测直播间为所述第一类型直播间;
若所述预测模型输出的所述二分类符号函数的值为-1,则所述待预测直播间为所述第二类型直播间。
8.一种直播热度预测装置,其特征在于,所述装置包括:
直播间选取模块,用于确定至少一个第一类型直播间及至少一个第二类型直播间,其中,所述第一类型直播间为在预设时间段内在线用户具有固定增长值的直播间,第二类型直播间为在预设时间段内在线用户低于固定值的直播间;
时间序列生成模块,用于获取至少一个第一类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第一时间序列,获取至少一个第二类型直播间中的用户在线时长及弹幕,得到至少一个以用户在线时长及弹幕组成的第二时间序列,获取待预测直播间中的用户在线时长及弹幕,得到以用户在线时长及弹幕组成的第三时间序列;
预测模型生成模块,用于将所述至少一个第一时间序列及第二时间进行训练,得到预测模型;
预测模块,用于将所述第三时间序列输入至所述预测模型中,以确定所述待测直播间为第一类型直播间或第二类型直播间。
9.一种电子设备,包括:
处理器;
存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如权利要求1-7中任意一项所述的直播热度预测方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任意一项所述的直播热度预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811412976.4A CN109361932B (zh) | 2018-11-23 | 2018-11-23 | 直播热度预测的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811412976.4A CN109361932B (zh) | 2018-11-23 | 2018-11-23 | 直播热度预测的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109361932A true CN109361932A (zh) | 2019-02-19 |
CN109361932B CN109361932B (zh) | 2021-01-01 |
Family
ID=65338825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811412976.4A Active CN109361932B (zh) | 2018-11-23 | 2018-11-23 | 直播热度预测的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109361932B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110475155A (zh) * | 2019-08-19 | 2019-11-19 | 北京字节跳动网络技术有限公司 | 直播视频热度状态识别方法、装置、设备及可读介质 |
CN110569910A (zh) * | 2019-09-10 | 2019-12-13 | 广州虎牙科技有限公司 | 直播周期的处理方法、装置、设备及存储介质 |
CN111918081A (zh) * | 2020-07-31 | 2020-11-10 | 广州津虹网络传媒有限公司 | 直播间热度的确定方法、装置、设备及存储介质 |
CN110049372B (zh) * | 2019-04-23 | 2021-07-02 | 广州虎牙信息科技有限公司 | 主播稳定留存率的预测方法、装置、设备及存储介质 |
CN113965810A (zh) * | 2021-09-27 | 2022-01-21 | 上海信宝博通电子商务有限公司 | 基于聊天室的数据处理方法以及装置 |
CN114339283A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、设备以及存储介质 |
CN117651168A (zh) * | 2024-01-29 | 2024-03-05 | 广东茉莉数字科技集团股份有限公司 | 一种计算主播有效上播时长的计算方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705005A (zh) * | 2017-09-27 | 2018-02-16 | 吴殿义 | 一种影视内容价值评估方法 |
CN107979768A (zh) * | 2016-10-19 | 2018-05-01 | 国家新闻出版广电总局广播科学研究院 | 电视节目热度的预测方法和装置 |
US20180174167A1 (en) * | 2016-12-15 | 2018-06-21 | Iperceptions Inc. | Method and user device for generating predicted survey participation data at the user device |
US20180181827A1 (en) * | 2016-12-22 | 2018-06-28 | Samsung Electronics Co., Ltd. | Apparatus and method for processing image |
CN108737859A (zh) * | 2018-05-07 | 2018-11-02 | 华东师范大学 | 基于弹幕的视频推荐方法和装置 |
CN108764315A (zh) * | 2018-05-17 | 2018-11-06 | 广州虎牙信息科技有限公司 | 潜力主播用户预测方法、装置、计算机存储介质及服务器 |
-
2018
- 2018-11-23 CN CN201811412976.4A patent/CN109361932B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107979768A (zh) * | 2016-10-19 | 2018-05-01 | 国家新闻出版广电总局广播科学研究院 | 电视节目热度的预测方法和装置 |
US20180174167A1 (en) * | 2016-12-15 | 2018-06-21 | Iperceptions Inc. | Method and user device for generating predicted survey participation data at the user device |
US20180181827A1 (en) * | 2016-12-22 | 2018-06-28 | Samsung Electronics Co., Ltd. | Apparatus and method for processing image |
CN107705005A (zh) * | 2017-09-27 | 2018-02-16 | 吴殿义 | 一种影视内容价值评估方法 |
CN108737859A (zh) * | 2018-05-07 | 2018-11-02 | 华东师范大学 | 基于弹幕的视频推荐方法和装置 |
CN108764315A (zh) * | 2018-05-17 | 2018-11-06 | 广州虎牙信息科技有限公司 | 潜力主播用户预测方法、装置、计算机存储介质及服务器 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110049372B (zh) * | 2019-04-23 | 2021-07-02 | 广州虎牙信息科技有限公司 | 主播稳定留存率的预测方法、装置、设备及存储介质 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110458360B (zh) * | 2019-08-13 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110475155A (zh) * | 2019-08-19 | 2019-11-19 | 北京字节跳动网络技术有限公司 | 直播视频热度状态识别方法、装置、设备及可读介质 |
CN110475155B (zh) * | 2019-08-19 | 2022-02-18 | 北京字节跳动网络技术有限公司 | 直播视频热度状态识别方法、装置、设备及可读介质 |
CN110569910A (zh) * | 2019-09-10 | 2019-12-13 | 广州虎牙科技有限公司 | 直播周期的处理方法、装置、设备及存储介质 |
CN111918081A (zh) * | 2020-07-31 | 2020-11-10 | 广州津虹网络传媒有限公司 | 直播间热度的确定方法、装置、设备及存储介质 |
CN111918081B (zh) * | 2020-07-31 | 2021-04-02 | 广州津虹网络传媒有限公司 | 直播间热度的确定方法、装置、设备及存储介质 |
CN113965810A (zh) * | 2021-09-27 | 2022-01-21 | 上海信宝博通电子商务有限公司 | 基于聊天室的数据处理方法以及装置 |
CN114339283A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、设备以及存储介质 |
CN117651168A (zh) * | 2024-01-29 | 2024-03-05 | 广东茉莉数字科技集团股份有限公司 | 一种计算主播有效上播时长的计算方法及系统 |
CN117651168B (zh) * | 2024-01-29 | 2024-04-26 | 广东茉莉数字科技集团股份有限公司 | 一种计算主播有效上播时长的计算方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109361932B (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109361932A (zh) | 直播热度预测的方法,装置,设备及介质 | |
Kosinski et al. | Mining big data to extract patterns and predict real-life outcomes. | |
CN109885756B (zh) | 基于cnn和rnn的序列化推荐方法 | |
US20170127016A1 (en) | Systems and methods for video paragraph captioning using hierarchical recurrent neural networks | |
CN110334759B (zh) | 一种评论驱动的深度序列推荐方法 | |
US9122680B2 (en) | Information processing apparatus, information processing method, and program | |
Cheng et al. | Uprise: Universal prompt retrieval for improving zero-shot evaluation | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN107526725A (zh) | 基于人工智能的用于生成文本的方法和装置 | |
CN109478204A (zh) | 非结构化文本的机器理解 | |
CN113806630B (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
US20170046748A1 (en) | Method and system for personifying a brand | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN107341272A (zh) | 一种推送方法、装置和电子设备 | |
CN103942328B (zh) | 一种视频检索方法及视频装置 | |
US20140198998A1 (en) | Novel criteria for gaussian mixture model cluster selection in scalable compressed fisher vector (scfv) global descriptor | |
CN116821475A (zh) | 基于客户数据的视频推荐方法、装置及计算机设备 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN115618024A (zh) | 多媒体推荐方法、装置及电子设备 | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
CN111444383B (zh) | 一种音频数据处理方法、装置以及计算机可读存储介质 | |
US20140279755A1 (en) | Manifold-aware ranking kernel for information retrieval | |
CN111768218B (zh) | 用于处理用户交互信息的方法和装置 | |
US20240160677A1 (en) | Self-Supervised Learning through Data Augmentation for Recommendation Systems | |
CN111651660A (zh) | 一种跨媒体检索困难样本的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |