CN110493609B - 直播方法、终端及计算机可读存储介质 - Google Patents
直播方法、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110493609B CN110493609B CN201910725814.4A CN201910725814A CN110493609B CN 110493609 B CN110493609 B CN 110493609B CN 201910725814 A CN201910725814 A CN 201910725814A CN 110493609 B CN110493609 B CN 110493609B
- Authority
- CN
- China
- Prior art keywords
- live broadcast
- image
- content
- target
- broadcast content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
Abstract
本发明公开了一种直播方法、终端及计算机可读存储介质,所述直播方法包括:获取直播内容的选择条件;根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,所述选择条件与所述目标直播内容的拍摄参数相关;对所述目标直播内容进行播放。本发明的实施例,可以使得用户从深层次角度选取直播内容进行观看,而不必借助已有的标签分类选取直播内容,从而实现基于对直播内容的理解灵活的选择直播内容,避免单一化内容呈现,提升用户黏着度,满足用户对直播内容的高层次需求。
Description
技术领域
本发明涉及多媒体通信技术领域,尤其涉及一种直播方法、终端及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,用户原创内容(User Generated Content,UGC)直播呈现出迅猛发展的势头,网络用户的交互作用得以体现,用户既是网络内容的浏览者,也是网络内容的创造者。同时,用户对实时发生的新鲜事物感知需求不断增长,特别是针对音乐会、体育赛事、大型活动等现场直播内容的需求更是节节攀升。
现有商业化直播平台常立足于视频的上传和分享为中心,并对直播内容做了标签分类,以方便用户通过标签筛选方式进行内容观看。然而,借助对直播内容设定标签分类,虽然能够满足用户观看某类直播内容的需求,但是标签分类通常比较粗糙,无法灵活对直播内容进行选择。
发明内容
本发明实施例提供一种直播方法、终端及计算机可读存储介质,以至少解决目前直播场景中无法灵活对直播内容进行选择的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供一种直播方法,应用于终端,包括:
获取直播内容的选择条件;
根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,其中,所述选择条件与所述目标直播内容的拍摄参数相关;
对所述目标直播内容进行播放。
可选的,所述选择条件为:选择与目标拍摄参数匹配的目标直播内容;所述根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,包括:
根据所述选择条件,确定所述目标拍摄参数;
根据所述目标拍摄参数对应的预设参考图像,从所述多个待播放的直播内容中选择所述目标直播内容;
其中,所述目标直播内容中的第一关键帧图像与所述预设参考图像之间的特征距离小于第二关键帧图像与所述预设参考图像之间的特征距离;所述第二关键帧图像为所述多个待播放的直播内容中除所述目标直播内容外的其他直播内容中的关键帧图像。
可选的,所述目标拍摄参数包括目标拍摄方位,或者,所述目标拍摄参数包括目标拍摄方位和目标角度模式。
可选的,所述特征距离是利用预先训练得到的特征识别模型确定的;
所述特征识别模型是基于神经网络和第一训练数据集迭代训练得到的;
其中,所述第一训练数据集中包括N组具有相似方位特征的图像对,N为正整数;每轮迭代所使用的训练图像包括一组图像对和第一图像,所述第一图像为所述第一训练数据集中除所述一组图像对外的任意图像;所述一组图像对中的两张图像之间的特征距离小于所述一组图像对中的任意一张图像与所述第一图像之间的特征距离。
可选的,所述特征识别模型的训练损失函数为:
其中,fi 1和fi 2分别表示所述一组图像对中的两张图像的特征值,fi 3表示所述第一图像的特征值;||fi 1-fi 2||2表示所述一组图像对中的两张图像之间的特征距离;||fi 1-fi 3||2和||fi 2-fi 3||2分别表示所述一组图像对中的两张图像与所述第一图像之间的特征距离;α为预设区间阈值;模型训练的目的为减小||fi 1-fi 2||2,以及增大||fi 1-fi 3||2和||fi 2-fi 3||2。
可选的,所述特征识别模型的训练退出条件为:
所述特征识别模型的迭代训练图像已覆盖所述第一训练数据集中的图像对,且所述特征识别模型的损失值小于预设阈值。
可选的,所述选择条件为:选择与当前直播内容相比满足预设差异性要求的目标直播内容;所述根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,包括:
根据所述选择条件,分别计算所述当前直播内容与每个所述待播放的直播内容之间的差异值;
根据所述差异值,从所述多个待播放的直播内容中选择所述目标直播内容,其中,所述当前直播内容与所述目标直播内容之间的差异值满足所述预设差异性要求。
可选的,所述当前直播内容与所述待播放的直播内容之间的差异值是利用预先训练得到的图像识别模型确定的;
所述图像识别模型是基于神经网络和第二训练数据集训练得到的;
其中,所述第二训练数据集中包括同一场景下的n套图像序列,每套图像序列采用同一个参考中心点;每套图像序列包括m张图像,每张图像中包括标注信息,所述标注信息包括所述图像的拍摄位置与相应的参考中心点之间的拍摄距离,以及所述图像的拍摄角度;n和m为正整数。
可选的,所述图像识别模型的训练损失函数为:
可选的,所述当前直播内容与所述待播放的直播内容之间的差异值的计算公式为:
其中,和分别为模型拟合的所述待播放的直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述当前直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述多个待播放的直播内容的拍摄距离中的最大值和最小值,和分别为模型拟合的所述多个待播放的直播内容的拍摄角度中的最大值和最小值,w1和w2为预设系数。
第二方面,本发明实施例提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述应用于终端的直播方法的步骤。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述应用于终端的直播方法的步骤。
本发明实施例中,获取直播内容的选择条件,根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,对所述目标直播内容进行播放,可以使得用户从深层次角度选取直播内容进行观看,而不必借助已有的标签分类选取直播内容,从而实现基于对直播内容的理解灵活的选择直播内容,避免单一化内容呈现,提升用户黏着度,满足用户对直播内容的高层次需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的直播方法的流程图;
图2为本发明实施例中选择目标直播内容过程的流程图之一;
图3为本发明具体实例中直播过程的示意图;
图4为本发明实施例中选择目标直播内容过程的流程图之二;
图5为本发明实施例中深度卷积神经网络的架构示意图;
图6为本发明实施例的直播装置的结构示意图之一;
图7为本发明实施例的直播装置的结构示意图之二;
图8为本发明实施例的直播装置的结构示意图之三;
图9为本发明实施例的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种直播方法的流程图,该方法应用于终端,如图1所示,该方法包括如下步骤:
步骤101:获取直播内容的选择条件。
可选的,上述直播内容可以是用户原创内容UGC,比如针对某场演唱会、或者某场体育比赛等由用户拍摄的内容,也可以是由官方提供的内容。
上述选择条件可以是由用户在相应的直播平台比如直播APP上,借助对直播内容的直播请求输入的,包括但不限于直播开始前和直播进行中。上述选择条件可以与现场方位分布、差异性观看要求等等相关。
步骤102:根据选择条件,从多个待播放的直播内容中选择目标直播内容。
本实施例中,该选择条件与目标直播内容的拍摄参数相关,而此拍摄参数包括但不限于拍摄方位、拍摄角度、拍摄环境(比如与用户当前环境相似)等。
可选的,上述多个待播放的直播内容可以是针对的同一主题事件,比如同一场演唱会,或者同一场体育比赛等。上述多个待播放的直播内容可以是由多个用户录制并上传的,而不同用户可以位于不同的拍摄位置,进一步的可以采用不同的拍摄角度进行录制。
需说明的是,在执行上述步骤102时,终端可以基于人工智能(ArtificialIntelligence,AI)中的计算机视觉分支技术,从与用户输入的选择条件匹配的角度解析待播放的直播内容,从而选择出目标直播内容,以为用户提供定制化响应的服务。进一步的,在根据用户输入的选择条件选择目标直播内容的基础上,本实施例中还可以考虑其他相应属性叠加,比如上传直播内容的终端品牌、拍摄直播内容的摄像机参数(如清晰度、背光补偿等)等,以提升为用户服务的效果。
步骤103:对目标直播内容进行播放。
可选的,在对目标直播内容进行播放时,该目标直播内容可以是单屏显示,也可以是多屏显示,也可以是以画中画的形式呈现,从而满足用户多维度观看内容的需求。
本发明实施例的直播方法,获取直播内容的选择条件,根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,对所述目标直播内容进行播放,可以使得用户从深层次角度选取直播内容进行观看,而不必借助已有的标签分类选取直播内容,从而实现基于对直播内容的理解灵活的选择直播内容,避免单一化内容呈现,提升用户黏着度,满足用户对直播内容的高层次需求。
本发明至少一个实施例中,用户输入的选择条件可以与现场方位分布相关,以通过现场方位分布选择目标直播内容。而此现场方位分布可以基于拍摄区域进行划分。进一步的,为了更精准地选择目标直播内容,在通过现场方位分布选择目标直播内容的基础上,还可以结合直播内容的拍摄角度、拍摄亮度等来进行选择。而此直播内容的拍摄角度可以对应于拍摄直播内容的角度模式,比如角度模式a、角度模式b、角度模式c等,且不同的角度模式对应不同的拍摄角度。
可选的,上述选择条件可以为:选择与目标拍摄参数匹配的目标直播内容;对应的,参见图2所示,上述步骤102可以包括:
步骤1021:根据所述选择条件,确定所述目标拍摄参数;
步骤1022:根据所述目标拍摄参数对应的预设参考图像,从所述多个待播放的直播内容中选择所述目标直播内容。
其中,所述目标直播内容中的第一关键帧图像与所述预设参考图像之间的特征距离小于第二关键帧图像与所述预设参考图像之间的特征距离;所述第二关键帧图像为所述多个待播放的直播内容中除所述目标直播内容外的其他直播内容中的关键帧图像。
需指出的是,目标拍摄参数为用于描述用户所需的真实场景体验的信息,比如可选为拍摄位置、拍摄角度、拍摄亮度、拍摄清晰度、拍摄环境声音等等。
优选地,所述目标拍摄参数包括目标拍摄方位,或者,所述目标拍摄参数包括目标拍摄方位和目标拍摄角度。
这样,可以实现通过现场方位分布选择观看内容,从而从有别于人工标签的角度出发,精准分类每一个用户上传的视频直播内容,比如该直播内容中侧重场景等等,满足用户对直播内容的高层次需求。而进一步结合直播内容的拍摄角度来选择目标直播内容,可以更精准分类每一个用户上传的视频直播内容,满足用户对直播内容的高层次需求。
可理解的,上述关键帧图像(即第一关键帧图像和第二关键帧图像)可以理解为能够代表相应直播内容的图像,即相应直播内容中可反映基本内容的图像。对于两张图像(比如第一关键帧图像和预设参考图像,或者,第二关键帧图像和预设参考图像)之间的特征距离,可以根据该两张图像的特征值(或称为特征码)之差来确定。而图像的特征值可以是平均亮度、均布平均亮度、被检测目标区周围参考区域的锐度、被检测目标区域的灰度差或局部灰度分布等。对于两张图像,它们之间的特征距离越小,则可以表明该两张图像中的场景内容越相似,及表明该两张图像所对应的现场方位越相似。
例如,对于手机中的某直播APP,若用户A和用户B在某演唱会的VIP位置进行视频录制并上传到该直播APP,用户C在该演唱会的楼厢位置进行视频录制并上传到该直播APP,则用户D在该演唱会现场之外登录该直播APP后,可根据自身喜好,通过在请求直播时输入选择条件即选择与某方位匹配的目标直播内容,使得该直播APP播放匹配的演唱会视频;比如若基于用户D的输入确定的方位为VIP位置,则手机后台服务器可选择用户A或用户B上传的视频直播内容在该直播APP进行播放,以满足用户D观看更清晰的前排的直播内容的需求;而若基于用户D的输入确定的方位为楼厢位置,则手机后台服务器可选择用户C上传的视频直播内容在该直播APP进行播放,以满足用户D观看更全貌的楼厢视角直播内容的需求。
又例如,参见图3所示,对于终端中的APP直播平台,若用户1在某体育比赛场景中的区域A以角度模式a拍摄视频并上传至该APP直播平台,用户2在该体育比赛场景中的区域A以角度模式b拍摄视频并上传至该APP直播平台,用户3在该体育比赛场景中的区域A以角度模式d拍摄视频并上传至该APP直播平台,用户4在该体育比赛场景中的区域B以角度模式a拍摄视频并上传至该APP直播平台,用户5在该体育比赛场景中的区域E以角度模式c拍摄视频并上传至该APP直播平台,……,用户N在该体育比赛场景中的区域E以角度模式f拍摄视频并上传至该APP直播平台,则该终端后台服务器可以根据与用户输入的选择条件匹配的角度解析已上传至该APP直播平台的视频直播内容,以使得相应用户获得所需的视频直播内容;比如,若用户甲请求直播时输入选择条件即选择与区域B和角度模式a匹配的视频直播内容,则基于该选择条件,终端后台服务器可以控制该APP直播平台播放用户4上传的视频直播内容,使得用户甲观看区域B、角度模式a的视频直播内容;而若用户乙请求直播时输入选择条件即选择与区域A和角度模式d匹配的视频直播内容,则基于该选择条件,终端后台服务器可以控制该APP直播平台播放用户3上传的视频直播内容,使得用户乙观看区域A、角度模式d的视频直播内容;而若用户丙请求直播时输入选择条件即选择与区域E和角度模式c匹配的视频直播内容,则基于该选择条件,终端后台服务器可以控制该APP直播平台播放用户5上传的视频直播内容,使得用户丙观看区域E、角度模式c的视频直播内容。
本发明至少一个实施例中,上述特征距离可以是利用预先训练得到的特征识别模型确定的,该特征识别模型用于识别图像的特征值。比如在确定第一关键帧图像与预设参考图像之间的特征距离时,可以首先分别将第一关键帧图像与预设参考图像输入到该特征识别模型,以输出第一关键帧图像的特征值和预设参考图像的特征值,然后根据第一关键帧图像的特征值和预设参考图像的特征值,计算得到第一关键帧图像与预设参考图像之间的特征距离;或者,在确定第二关键帧图像与预设参考图像之间的特征距离时,可以首先分别将第二关键帧图像与预设参考图像输入到该特征识别模型,以输出第二关键帧图像的特征值和预设参考图像的特征值,然后根据第二关键帧图像的特征值和预设参考图像的特征值,计算得到第二关键帧图像与预设参考图像之间的特征距离。
可选的,上述特征识别模型可以是基于神经网络和第一训练数据集迭代训练得到的。该神经网络可选为深度残差网络,比如Resnet-34网络,而在搭建Resnet-34网络时,可以通过直连(shortcut)路径来消除深度网络所带来的梯度爆炸问题,且不会产生额外的参数,也不会增加计算复杂度。
上述的第一训练数据集中可以包括N组具有相似方位特征的图像对,N为正整数。而每轮迭代所使用的训练图像优选为3张图像,即包括一组图像对和第一图像,所述第一图像为第一训练数据集中除所述一组图像对外的任意图像,且所述一组图像对中的两张图像之间的特征距离小于所述一组图像对中的任意一张图像与所述第一图像之间的特征距离。
比如,该第一训练数据集中可以包括以下图像对:(p11,p12)、(p21,p22)、(p31,p32)、……、(pN1,pN2);其中图像对p11和p12为相同场景近似位置和近似角度的成对匹配的图像,图像对p21和p22为相同场景角度的成对匹配的图像,……,等。又比如,某轮迭代所使用的训练图像可以包括p11、p12和p32,且p11与p12之间的特征距离小于p11与p32之间的特征距离,且小于p12与p32之间的特征距离。
可选的,上述特征识别模型的训练过程可为:首先,准确第一训练数据集;然后,搭建Resnet-34网络;最后,每轮迭代从第一训练数据集中抽取3张图像(即包括一组图像对和第一图像)对搭建的Resnet-34网络进行训练,直至满足预设的训练退出条件(比如迭代M轮),得到该特征识别模型。
可选的,上述特征识别模型的训练损失函数可以为:
其中,fi 1和fi 2分别表示所述一组图像对中的两张图像的特征值,fi 3表示所述第一图像的特征值;||fi 1-fi 2||2表示所述一组图像对中的两张图像之间的特征距离;||fi 1-fi 3||2和||fi 2-fi 3||2分别表示所述一组图像对中的两张图像与所述第一图像之间的特征距离;α为预设区间阈值;模型训练的目的为减小||fi 1-fi 2||2,以及增大||fi 1-fi 3||2和||fi 2-fi 3||2。
可理解的,α可以基于实际需求预先设置。通常,若α越大,则模型训练的越快,但所得到的模型精度越低;而若α越小,则模型训练的越慢,但所得到的模型精度越高。
这样,借助上述损失函数,可以使得训练得到的特征识别模型不仅能够稳定识别任意图像的特征值,还能够保证识别得到的特征值的相似度可以表明相应图像中场景内容的相似度,即保证同一场景中相似方位的图像在特征空间中距离较短,且不同方位的图像在特征空间中距离较长,从而提高利用该特征识别模型确定特征距离时的准确性。
可选的,上述特征识别模型的训练退出条件可以为:
所述特征识别模型的迭代训练图像已覆盖所述第一训练数据集中的图像对(即所有图像对),且所述特征识别模型的损失值小于预设阈值。
可理解的,上述预设阈值可以根据具体训练集和模型要求精度进行调整,比如可预设为0.025。
一种实施方式中,以某体育比赛场景为例,利用本发明实施例在手机APP上进行直播的过程可为:
(1)直播开始前,针对该体育比赛场景的多个观看区域方位,比如100个观看区域方位,分别上传对应的预设参考图像;
(2)直播开始后,以各个观看区域方位的预设参考图像为基准,实时更新当前用户上传分享的视频直播内容中的关键帧图像与各个预设参考图像之间的特征距离,以判定该视频直播内容的拍摄方位;比如,可定时从该视频直播内容中抽取关键帧图像,以实时更行相应的特征距离;而该关键帧图像和预设参考图像的特征值可以利用预先训练得到的特征识别模型得到,以计算出该关键帧图像和预设参考图像之间的特征距离;
(3)当用户申请观看该体育比赛场景中某观看区域方位(比如方位Z)的直播内容时,手机后台服务器可检索当前所有上传分享的视频直播内容,选择与方位Z对应的预设参考图像的特征距离最近的视频直播内容进行播放。
本发明至少一个实施例中,用户输入的选择条件可以与差异性观看要求相关,并以当前直播内容为基准选择目标直播内容。此选择条件可以借助用户在相应直播平台选择差异观赏模式来进行输入。
可选的,上述选择条件可以为:选择与当前直播内容相比满足预设差异性要求的目标直播内容;对应的,参见图4所示,上述步骤102可包括:
步骤1023:根据所述选择条件,分别计算所述当前直播内容与每个所述待播放的直播内容之间的差异值;
步骤1024:根据所述差异值,从所述多个待播放的直播内容中选择所述目标直播内容。
其中,所述当前直播内容与所述目标直播内容之间的差异值满足所述预设差异性要求。该预设差异性要求可以为差异性最大。这样,用户在通过任意模式进入直播观看后,可以选择切换至与当前直播内容相比观看方位、角度等满足预设差异性要求的直播内容(比如同一演唱会的直播流)进行观看,以提升观赏内容的空间完整性。
例如:若用户A在手机直播APP1上观看的直播内容为用户B在音乐会现场最后一排拍摄的内容,则手机接收到用户A输入的选择条件即选择与当前直播内容相比差异性最大的目标直播内容后,基于该选择条件,可以控制直播APP1切换到播放用户C在音乐会现场第一排拍摄的内容(与当前直播内容差异性最大),以使用户A获得更为完整的观赏体验。
本发明至少一个实施例中,上述当前直播内容与待播放的直播内容之间的差异值可以是利用预先训练得到的图像识别模型确定的,所述图像识别模型用于识别直播内容的拍摄距离和拍摄角度,所述差异值是根据所述当前直播内容的拍摄距离和拍摄角度,以及所述待播放的直播内容的拍摄距离和拍摄角度确定的。比如,在确定当前直播内容与待播放的直播内容之间的差异值时,可以首先按照预设要求分别截取当前直播内容的第一图像序列和待播放的直播内容的第二图像序列(优选与模型训练时所使用的图像序列个数相同);然后分别将第一图像序列和第二图像序列输入到该图像识别模型,以输出第一图像序列的拍摄距离和拍摄角度,和输出第二图像序列的拍摄距离和拍摄角度;最后根据第一图像序列的拍摄距离和拍摄角度,以及第二图像序列的拍摄距离和拍摄角度,计算得到当前直播内容与待播放的直播内容之间的差异值。
这样,同时基于拍摄距离和拍摄角度来计算当前直播内容与待播放的直播内容之间的差异值,可以提升识别目标直播内容的准确性。
可选的,上述图像识别模型可以是基于神经网络和第二训练数据集训练得到的。该神经网络可选为深度卷积神经网络。
上述的第二训练数据集中可以包括同一场景下的n套图像序列,每套图像序列采用同一个参考中心点(比如演唱会场景下的舞台中心、体育比赛场景下的场地中央等);每套图像序列包括m张图像,每张图像中包括标注信息,所述标注信息包括所述图像的拍摄位置与相应的参考中心点之间的拍摄距离以及所述图像的拍摄角度n和m为正整数。比如,n≥10,且m≥200。
可选的,上述图像识别模型的训练过程可为:首先,准确第二训练数据集,其中训练图像可选为256*256RGB图像;然后,构建深度卷积神经网络,该深度卷积神经网络的架构可如图5所示,至少包括卷积层Conv3-64、池化层Max_pool、卷积层Conv3-128、池化层Max_pool、卷积层Conv3-256、池化层Max_pool、卷积层Conv3-512、池化层Max_pool、通道FC_4096、通道FC_1000以及通道FC_2,该深度卷积神经网络的阈值函数可选为sigmoid函数;最后,利用该深度卷积神经网络学习训练图像,即将训练图像输入到该深度卷积神经网络使其学习,在网络最后一层输出拟合的拍摄距离d和拍摄角度α,直至训练结束,得到该图像识别模型。
可选的,上述图像识别模型的训练损失函数可以为:
其中,为训练图像中标注的拍摄距离,为训练图像中标注的拍摄角度,为模型拟合的所述训练图像的拍摄距离,为模型拟合的所述训练图像的拍摄角度,λΩ(w)为防止模型过拟合的正则项。模型训练的目的为使得拟合的拍摄距离无限接近标注的拍摄距离,且拟合的拍摄角度无限接近标注的拍摄角度。可理解的,λΩ(w)可以基于实际需求采用现有方式进行设置,本发明实施例不对此进行限制。
可选的,上述的当前直播内容与待播放的直播内容之间的差异值的计算公式可以为:
其中,和分别为模型拟合的(即利用上述图像识别模型拟合的)所述待播放的直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述当前直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述多个待播放的直播内容(比如为当前所有待播放的直播内容)的拍摄距离中的最大值和最小值,和分别为模型拟合的所述多个待播放的直播内容(比如为当前所有待播放的直播内容)的拍摄角度中的最大值和最小值,w1和w2为预设系数。
一种实施方式中,利用本发明实施例切换播放满足预设差异性要求的直播内容的过程可为:
(1)直播过程中,针对每一段用户上传分享的直播内容(比如同一演唱会场景或同一比赛场景等中的视频流),利用上述图像识别模型实时动态地进行拍摄距离和拍摄角度的拟合判定,并记录该直播内容对应的标识id,以及拍摄距离和拍摄角度的拟合值和即记录三元组
(2)在用户f观看直播内容的场景中,若用户f选择切换到与当前直播内容的差异值最大的直播内容,则相应终端后台服务器可以借助上述计算差异值的公式对已上传的待播放的直播内容进行统一管理比对,依据已记录的和确定与当前直播内容的差异值最大的目标直播内容,并切换到目标直播内容。可选的,为了满足用户多维度观看内容的需求,此实施方式中,当前直播内容和确定的目标直播内容可以多屏来同时显示。
请参见图6,图6是本发明实施例提供的一种直播装置的结构示意图,如图6所示,该直播装置60包括:
获取模块61,用于获取直播内容的选择条件;
选择模块62,用于根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,其中,所述选择条件与所述目标直播内容的拍摄参数相关;
播放模块63,用于对所述目标直播内容进行播放。
本发明实施例的直播装置,获取直播内容的选择条件,根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,对所述目标直播内容进行播放,可以使得用户从深层次角度选取直播内容进行观看,而不必借助已有的标签分类选取直播内容,从而避免单一化内容呈现,提升用户黏着度,满足用户对直播内容的高层次需求。
本发明至少一个实施例中,可选的,所述选择条件为:选择与目标拍摄参数匹配的目标直播内容;参见图7所示,所述选择模块62包括:
确定单元621,用于根据所述选择条件,确定所述目标拍摄参数;
第一选择单元622,用于根据所述目标拍摄参数对应的预设参考图像,从所述多个待播放的直播内容中选择所述目标直播内容;
其中,所述目标直播内容中的第一关键帧图像与所述预设参考图像之间的特征距离小于第二关键帧图像与所述预设参考图像之间的特征距离;所述第二关键帧图像为所述多个待播放的直播内容中除所述目标直播内容外的其他直播内容中的关键帧图像。
可选的,所述目标拍摄参数包括目标拍摄方位,或者,所述目标拍摄参数包括目标拍摄方位和目标拍摄角度。
可选的,所述特征距离是利用预先训练得到的特征识别模型确定的;
所述特征识别模型是基于神经网络和第一训练数据集迭代训练得到的;
其中,所述第一训练数据集中包括N组具有相似方位特征的图像对,N为正整数;每轮迭代所使用的训练图像包括一组图像对和第一图像,所述第一图像为所述第一训练数据集中除所述一组图像对外的任意图像;所述一组图像对中的两张图像之间的特征距离小于所述一组图像对中的任意一张图像与所述第一图像之间的特征距离。
可选的,所述特征识别模型的训练损失函数为:
其中,fi 1和fi 2分别表示所述一组图像对中的两张图像的特征值,fi 3表示所述第一图像的特征值;||fi 1-fi 2||2表示所述一组图像对中的两张图像之间的特征距离;||fi 1-fi 3||2和||fi 2-fi 3||2分别表示所述一组图像对中的两张图像与所述第一图像之间的特征距离;α为预设区间阈值;模型训练的目的为减小||fi 1-fi 2||2,以及增大||fi 1-fi 3||2和||fi 2-fi 3||2。
可选的,所述特征识别模型的训练退出条件为:
所述特征识别模型的迭代训练图像已覆盖所述第一训练数据集中的图像对,且所述特征识别模型的损失值小于预设阈值。
可选的,所述选择条件为:选择与当前直播内容相比满足预设差异性要求的目标直播内容;参见图8所示,所述选择模块62包括:
计算单元623,用于根据所述选择条件,分别计算所述当前直播内容与每个所述待播放的直播内容之间的差异值;
第二选择单元624,用于根据所述差异值,从所述多个待播放的直播内容中选择所述目标直播内容,其中,所述当前直播内容与所述目标直播内容之间的差异值满足所述预设差异性要求。
可选的,所述当前直播内容与所述待播放的直播内容之间的差异值是利用预先训练得到的图像识别模型确定的;
所述图像识别模型是基于神经网络和第二训练数据集训练得到的;
其中,所述第二训练数据集中包括同一场景下的n套图像序列,每套图像序列采用同一个参考中心点;每套图像序列包括m张图像,每张图像中包括标注信息,所述标注信息包括所述图像的拍摄位置与相应的参考中心点之间的拍摄距离,以及所述图像的拍摄角度;n和m为正整数。
可选的,所述图像识别模型的训练损失函数为:
可选的,所述当前直播内容与所述待播放的直播内容之间的差异值的计算公式为:
其中,和分别为模型拟合的所述待播放的直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述当前直播内容的拍摄距离和拍摄角度,和分别为模型拟合的所述多个待播放的直播内容的拍摄距离中的最大值和最小值,和分别为模型拟合的所述多个待播放的直播内容的拍摄角度中的最大值和最小值,w1和w2为预设系数。
此外,本发明实施例还提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述直播方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图9所示,本发明实施例还提供了一种终端,包括总线91、收发机92、天线93、总线接口94、处理器95和存储器96。
在本发明实施例中,所述终端还包括:存储在存储器96上并可在处理器95上运行的计算机程序。可选的,所述计算机程序被处理器95执行时可实现如下步骤:
获取直播内容的选择条件;
根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,其中,所述选择条件与所述目标直播内容的拍摄参数相关;
对所述目标直播内容进行播放。
可理解的,本发明实施例中,所述计算机程序被处理器95执行时可实现上述直播方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
在图9中,总线架构(用总线91来代表),总线91可以包括任意数量的互联的总线和桥,总线91将包括由处理器95代表的一个或多个处理器和存储器96代表的存储器的各种电路链接在一起。总线91还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口94在总线91和收发机92之间提供接口。收发机92可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器95处理的数据通过天线93在无线介质上进行传输,进一步,天线93还接收数据并将数据传送给处理器95。
处理器95负责管理总线91和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器96可以被用于存储处理器95在执行操作时所使用的数据。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述直播方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种直播方法,应用于终端,其特征在于,包括:
获取直播内容的选择条件;
根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,其中,所述选择条件与所述目标直播内容的拍摄参数相关;
对所述目标直播内容进行播放;
其中,所述选择条件为:选择与目标拍摄参数匹配的目标直播内容;
所述根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,包括:
根据所述选择条件,确定所述目标拍摄参数;
根据所述目标拍摄参数对应的预设参考图像,从所述多个待播放的直播内容中选择所述目标直播内容;
其中,所述目标直播内容中的第一关键帧图像与所述预设参考图像之间的特征距离小于第二关键帧图像与所述预设参考图像之间的特征距离;所述第二关键帧图像为所述多个待播放的直播内容中除所述目标直播内容外的其他直播内容中的关键帧图像。
2.根据权利要求1所述的方法,其特征在于,所述目标拍摄参数包括目标拍摄方位,或者,所述目标拍摄参数包括目标拍摄方位和目标拍摄角度。
3.根据权利要求1所述的方法,其特征在于,所述特征距离是利用预先训练得到的特征识别模型确定的;
所述特征识别模型是基于神经网络和第一训练数据集迭代训练得到的;
其中,所述第一训练数据集中包括N组具有相似方位特征的图像对,N为正整数;每轮迭代所使用的训练图像包括一组图像对和第一图像,所述第一图像为所述第一训练数据集中除所述一组图像对外的任意图像;所述一组图像对中的两张图像之间的特征距离小于所述一组图像对中的任意一张图像与所述第一图像之间的特征距离。
5.一种直播方法,应用于终端,其特征在于,包括:
获取直播内容的选择条件;
根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,其中,所述选择条件与所述目标直播内容的拍摄参数相关;
对所述目标直播内容进行播放;
其中,所述选择条件为:选择与当前直播内容相比满足预设差异性要求的目标直播内容;所述根据所述选择条件,从多个待播放的直播内容中选择目标直播内容,包括:
根据所述选择条件,分别计算所述当前直播内容与每个所述待播放的直播内容之间的差异值;
根据所述差异值,从所述多个待播放的直播内容中选择所述目标直播内容,其中,所述当前直播内容与所述目标直播内容之间的差异值满足所述预设差异性要求;
其中,所述当前直播内容与所述待播放的直播内容之间的差异值是利用预先训练得到的图像识别模型确定的;所述图像识别模型是基于神经网络和第二训练数据集训练得到的;
其中,所述第二训练数据集中包括同一场景下的n套图像序列,每套图像序列采用同一个参考中心点;每套图像序列包括m张图像,每张图像中包括标注信息,所述标注信息包括所述图像的拍摄位置与相应的参考中心点之间的拍摄距离,以及所述图像的拍摄角度;n和m为正整数。
8.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的直播方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的直播方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910725814.4A CN110493609B (zh) | 2019-08-07 | 2019-08-07 | 直播方法、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910725814.4A CN110493609B (zh) | 2019-08-07 | 2019-08-07 | 直播方法、终端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110493609A CN110493609A (zh) | 2019-11-22 |
CN110493609B true CN110493609B (zh) | 2022-02-01 |
Family
ID=68550066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910725814.4A Active CN110493609B (zh) | 2019-08-07 | 2019-08-07 | 直播方法、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110493609B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032081A (zh) * | 2021-04-14 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 直播互动方法、装置、终端及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101854529A (zh) * | 2010-04-30 | 2010-10-06 | 第一视频通信传媒有限公司 | 一种细分受众的多画面网络直播方法 |
CN101917568A (zh) * | 2009-12-17 | 2010-12-15 | 新奥特(北京)视频技术有限公司 | 一种基于流媒体技术的网络视频播放器及播放系统 |
CN103686345A (zh) * | 2013-12-18 | 2014-03-26 | 北京航天测控技术有限公司 | 一种基于数字信号处理器的视频内容比对方法 |
WO2014138331A2 (en) * | 2013-03-06 | 2014-09-12 | Interdigital Patent Holdings, Inc. | Power aware adaptation for video streaming |
CN104486685A (zh) * | 2014-11-14 | 2015-04-01 | 广州华多网络科技有限公司 | 一种媒体流的控制方法、装置和系统 |
CN108391140A (zh) * | 2018-02-28 | 2018-08-10 | 北京奇艺世纪科技有限公司 | 一种视频帧的分析方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106937128A (zh) * | 2015-12-31 | 2017-07-07 | 幸福在线(北京)网络技术有限公司 | 一种视频直播方法、服务器及系统和相关用途 |
CN108897597B (zh) * | 2018-07-20 | 2021-07-13 | 广州方硅信息技术有限公司 | 指导配置直播模板的方法和装置 |
-
2019
- 2019-08-07 CN CN201910725814.4A patent/CN110493609B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917568A (zh) * | 2009-12-17 | 2010-12-15 | 新奥特(北京)视频技术有限公司 | 一种基于流媒体技术的网络视频播放器及播放系统 |
CN101854529A (zh) * | 2010-04-30 | 2010-10-06 | 第一视频通信传媒有限公司 | 一种细分受众的多画面网络直播方法 |
WO2014138331A2 (en) * | 2013-03-06 | 2014-09-12 | Interdigital Patent Holdings, Inc. | Power aware adaptation for video streaming |
CN103686345A (zh) * | 2013-12-18 | 2014-03-26 | 北京航天测控技术有限公司 | 一种基于数字信号处理器的视频内容比对方法 |
CN104486685A (zh) * | 2014-11-14 | 2015-04-01 | 广州华多网络科技有限公司 | 一种媒体流的控制方法、装置和系统 |
CN108391140A (zh) * | 2018-02-28 | 2018-08-10 | 北京奇艺世纪科技有限公司 | 一种视频帧的分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110493609A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11076206B2 (en) | Apparatus and method for manufacturing viewer-relation type video | |
CN109492128B (zh) | 用于生成模型的方法和装置 | |
CN110263213B (zh) | 视频推送方法、装置、计算机设备及存储介质 | |
US20120287233A1 (en) | Personalizing 3dtv viewing experience | |
US11297388B2 (en) | Systems and methods for deep recommendations using signature analysis | |
US20210274144A1 (en) | Automatic selection of viewpoint characteristics and trajectories in volumetric video presentations | |
CN108595493B (zh) | 媒体内容的推送方法和装置、存储介质、电子装置 | |
US11122198B2 (en) | Adjusting image capture parameters via machine learning | |
KR20190093722A (ko) | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 | |
US11509963B2 (en) | Systems and methods for deep recommendations using signature analysis | |
CN110866563B (zh) | 相似视频检测、推荐方法、电子设备和存储介质 | |
CN111615002B (zh) | 视频后台播放控制方法、装置、系统及电子设备 | |
CN113962965B (zh) | 图像质量评价方法、装置、设备以及存储介质 | |
CN110493609B (zh) | 直播方法、终端及计算机可读存储介质 | |
CN117238451B (zh) | 训练方案确定方法、装置、电子设备和存储介质 | |
CN114339362A (zh) | 视频弹幕匹配方法、装置、计算机设备和存储介质 | |
CN107707830A (zh) | 基于单向通信的全景视频播放拍照系统 | |
CN110677701A (zh) | 视频流推荐方法、电子设备和存储介质 | |
CN114727119B (zh) | 直播连麦控制方法、装置及存储介质 | |
CN116546304A (zh) | 一种参数配置方法、装置、设备、存储介质及产品 | |
US11475668B2 (en) | System and method for automatic video categorization | |
US20220237224A1 (en) | Methods and system for coordinating uncoordinated content based on multi-modal metadata through data filtration and synchronization in order to generate composite media assets | |
CN117636437A (zh) | 人脸关键点检测模型的训练方法、装置及网络直播系统 | |
CN116567358A (zh) | 直播间话题推荐方法、装置、设备及介质 | |
CA3143948A1 (en) | Systems and methods for deep recommendations using signature analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |