CN115499678B - 视频直播方法、装置及直播服务器 - Google Patents

视频直播方法、装置及直播服务器 Download PDF

Info

Publication number
CN115499678B
CN115499678B CN202211148062.8A CN202211148062A CN115499678B CN 115499678 B CN115499678 B CN 115499678B CN 202211148062 A CN202211148062 A CN 202211148062A CN 115499678 B CN115499678 B CN 115499678B
Authority
CN
China
Prior art keywords
content
live
illegal
processing
success rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211148062.8A
Other languages
English (en)
Other versions
CN115499678A (zh
Inventor
胡文送
黄大江
陈晓民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202211148062.8A priority Critical patent/CN115499678B/zh
Publication of CN115499678A publication Critical patent/CN115499678A/zh
Application granted granted Critical
Publication of CN115499678B publication Critical patent/CN115499678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/2625Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for delaying content or additional data distribution, e.g. because of an extended sport event
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例提供一种视频直播方法、装置及直播服务器,本实施例中,将主播端发送的直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果,然后根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到观众端。如此,通过多内容识别模型对直播视频流中的违规内容进行实时检测,实现对直播视频流的多维度检测,可以有效的检测出直播视频流中的违规内容并进行处理后再推流至观众端,可适用于复杂的直播业务场景,从源头上避免了违规内容的传播,最大程度地保护了观众、主播和直播平台各方权益。

Description

视频直播方法、装置及直播服务器
技术领域
本申请涉及网络直播技术领域,具体而言,涉及一种视频直播方法、装置及直播服务器。
背景技术
随着移动互联网技术以及网络通信技术的不断发展,网络直播在人们的日常工作及生活中得到了迅速的发展及应用。例如,用户可以通过智能手机、电脑、平板电脑等设备在线观看直播平台的各种主播提供的直播内容,又或者,用户也可以通过智能手机、电脑、平板电脑等设备随时随地在相应的直播平台提供直播内容,以供他人观看。
在实际的应用场景中,可能会存在某些主播为了吸引眼球、认识不足、粗心大意等各种因素导致直播视频流中可能存在涉黄、暴力、政治敏感信息等违规音视频内容。
鉴于以上内容,为避免违规内容触达观众,避免对观众、主播以及直播平台造成不良影响,如何有效的识别直播视频流中的内容并对直播视频流中的相关内容进行处理,是目前直播应用场景中需要解决的一大技术问题。
发明内容
基于以上内容,第一方面,本申请实施例提供一种视频直播方法,应用于直播服务器,所述方法包括:
获取主播端发送的直播视频流;
将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果;
根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到观众端。
基于第一方面,优选地,所述方法还包括:
在将所述进行违规内容处理后的直播视频流推流到所述观众端时,将所述违规内容识别结果通过信令推送到所述观众端,使所述观众端根据所述违规内容识别结果对推流到观众端的直播视频流进行违规内容处理后再进行播放。
基于第一方面,优选地,所述方法还包括:
接收所述直播服务器以及所述观众端对所述直播视频流的违规内容处理结果,并根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
基于第一方面,优选地,所述直播服务器反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率;其中,所述终端功能覆盖率是指接入当前直播的所有观众端中支持违规内容消除功能的观众端的占比,所述终端处理信令成功率是指观众端对违规内容进行消除的成功率;
所述根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整,包括:
根据所述直播服务器反馈的对违规内容的处理成功率以及所述观众端反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率;
根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
基于第一方面,优选地,根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整,包括:
当所述全局处理成功率大于所述预设的目标消除成功率时,则减小所述渲染延迟时间;
当所述全局处理成功率小于所述预设的目标消除成功率时,则增加所述渲染延迟时间。
基于第一方面,优选地,所述直播服务器包括预先构建的多模型内容识别系统,所述多模型内容识别系统包括至少两种用于对不同种类的违规内容进行识别的人工智能模型作为所述内容识别模型,所述将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果包括:
对各个所述内容识别模型输出的结果进行模型结果聚合得到所述违规内容识别结果。
基于第一方面,优选地,所述直播服务器包括内容分发网络和直播流渲染系统,所述根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到所述观众端,包括:
将所述违规内容识别结果发送到所述直播流渲染系统,由所述直播流渲染系统从所述内容分发网络中拉取相应的直播视频流并在所述渲染延迟时间内根据所述违规内容识别结果对所述直播视频流进行违规内容处理,然后再将处理后的直播视频流进行渲染后推流到所述观众端。
第二方面,本申请实施例还包括一种视频直播装置,运行于直播服务器,所述视频直播装置包括:
直播流获取模块,用于获取主播端发送的直播视频流;
内容识别模块,用于将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果;
内容处理模块,用于根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到观众端。
基于第二方面,优选地,所述视频直播装置还包括:
信令推送模块,用于在将所述进行违规内容处理后的直播视频流推流到所述观众端时,将所述违规内容识别结果通过信令推送到所述观众端,使所述观众端根据所述违规内容识别结果对推流到观众端的直播视频流进行违规内容处理后再进行播放。
基于第二方面,优选地,所述视频直播装置还包括:
延迟调整模块,用于接收所述直播服务器以及所述观众端对所述直播视频流的违规内容处理结果,并根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
基于第二方面,优选地,所述直播服务器反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率;其中,所述终端功能覆盖率是指接入当前直播的所有观众端中支持违规内容消除功能的观众端的占比,所述终端处理信令成功率是指观众端对违规内容进行消除的成功率;
所述延迟调整模块,具体用于:
根据所述直播服务器反馈的对违规内容的处理成功率以及所述观众端反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率;
根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
第三方面,本申请实施例还包括一种直播服务器,包括机器可读存储介质以及一个或多个处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述一个或多个处理器执行时,实现上述的视频直播方法。
基于本申请实施例的上述内容,相对于现有技术而言,本申请实施例提供的视频直播方法、装置及直播服务器,通过多内容识别模型对直播视频流中的违规内容进行实时检测,实现对直播视频流的多维度检测,可以有效的检测出直播视频流中的违规内容并进行处理后再推流至观众端,可适用于复杂的直播业务场景,从源头上避免了违规内容的传播,最大程度地保护了观众、主播和平台各方权益。
此外,本申请实施例进一步采用直播服务器延迟渲染推流和观众端违规内容处理的双路处理方式对直播视频流中的违规内容进行处理,同时可根据直播服务器和观众端反馈的处理结果对直播服务器端的渲染延迟时间进行实时调整,一方面利用观众端违规内容屏蔽的方式可提升违规内容消除的成功率,另一方面,可以尽可能的缩短常规方案中直播视频流的渲染延迟时间,可以提升直播视频流的推流流畅性,进而提高主播和用户的交互体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的一种直播架构的场景示意图。
图2是本申请实施例提供的视频直播方法的流程示意图。
图3是一种可能的实现方式中图1所示的直播服务器所包括的各个功能系统并与主播端和观众端进行交互以实现视频直播的框架示意图。
图4是本申请实施例所提供的所述观众端对直播视频流进行渲染处理的过程示意图。
图5是本申请实施例提供的视频直播方法的另一种可能的流程示意图。
图6是本申请实施例提供的用于实现上述视频直播方法的直播服务器的示意图。
图7是图6中的视频直播装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
基于前述背景技术中所提及的技术问题,本申请发明人发现,在一些常规的平台违规内容处理措施中,往往采用事后惩罚的人工手段对主播进行警示,提醒主播在下次直播中避免违规内容的出现,但此前因违规内容的传播造成的影响则已经无法追回。有鉴于此,本申请实施例提供一种视频直播方案,可以提供一种更加完善且智能的事前管控的技术手段,通过多模型实时检测框架对直播视频流进行多维度检测。例如,可同时对直播视频流进行违规音频、涉黄画面、敏感画面文字等违规内容进行多维度检测,以适用于更加复杂的直播业务场景。此外,本申请实施例进一步采用服务端延迟渲染推流和观众端违规内容屏蔽的双路处理方式,利用观众端违规内容屏蔽的方式弥补了因缩短审核延迟可能带来的违规内容消除成功率下降的问题,在可缩短常规方案中直播视频流的处理延时的同时能够保证违规内容消除的成功率,提高主播和用户的交互体验。如此,从源头上避免了违规内容的传播,最大程度地保护了观众、主播和平台各方权益。
下面将对本申请的实施例进行示例性说明。
首先,对本申请实施例的应用场景进行介绍。如图1所示,是本申请实施例提供的一种直播架构的示意图。本实施例中,所述直播架构包括主播端100、直播服务器200以及观众端300。示例性地,所述主播端100以及所述观众端300可以通过网络访问直播服务器200以使用直播服务器200提供的直播服务。例如,作为一种示例,针对主播端100,可以通过直播服务器200下载主播端应用(APP),并通过主播端应用进行注册后即可通过直播服务器200进行内容直播。相对应地,所述观众端300也可以通过所述直播服务器200下载观众端应用,通过观众端应用访问直播服务器200即可观看主播端100所提供的直播内容。在一些可能的实施方式中,主播端应用和观众端应用也可以是一个整合在一起的应用。
例如,主播端100可以将直播内容(如直播视频流)发送给直播服务器200,观众可以通过观众端300访问直播服务器200以观看直播内容。其中,直播服务器200推送的直播内容可以是当前正在直播平台中直播的实时内容,也可以是直播完成后存储的历史直播内容。可以理解,图1所示的直播架构仅为一种可替代的示例,在其它可能的实施例中,所述直播架构也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
此外,应当说明的是,在特定的应用场景,所述主播端100和观众端300也可以实现角色互换。例如,主播端100的主播可以使用主播端100提供直播服务,或者作为观众查看其它主播提供的直播内容。又例如,观众端300的用户也可以使用观众端300观看所关注的主播提供的直播内容,也可以作为主播通过所述观众端300进行直播。
本实施例中,主播端100和观众端300可以是,但不限于,智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中,主播端100和观众端300中可以安装用于实现视频直播的相关应用或程序组件,例如,应用程序APP、Web网页、直播小程序、直播插件或组件等,但不限于此。直播服务器200可以是提供直播服务的后台设备,例如可以是,但不限于,服务器,服务器集群、云服务中心等。
本实施例中,在主播端100一侧可以包括用于采集主播图像的图像采集设备。此外,还可以包括用于采集主播声音的音频采集设备以及用于主播进行信息输入的输入输出设备等,例如,可以包括但不限于入键盘、鼠标、触控屏、麦克风、扬声器等。其中,图像采集设备、音频采集设备以及输入输出设备可以是直接安装或集成于主播端100上,也可以独立于主播端100并与主播端100通信连接以进行数据通信和互动,以形成直播视频流。
如图2所示,是本申请实施例提供的视频直播方法的流程示意图。图3示出了一种可能的实现方式中图1所示的直播服务器200所包括的各个功能系统并与主播端100和观众端300进行交互以实现视频直播的框架示意图。本实施例中,所述视频直播方法由直播服务器200执行并实现。应当理解,本实施例提供的视频直播方法所包含的其中部分步骤的顺序在实际实施时可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,本实施例对此不进行具体限定。
下面结合图2和图3对本实施例的视频直播方法的各个步骤通过示例的方式进行详细介绍,详细地,如图2所示,所述方法可以包括下述的步骤S100-步骤S300的本申请实施例提供的视频直播方内容。
步骤S100,获取主播端100发送的直播视频流。
例如,所述主播端100可以通过自带的或者外部连接的图像采集设备对主播进行拍摄而产生直播视频流,并将产生的直播视频流实施推流至图3所示的所述直播服务器200的内容分发网络(Content Distribution Network,CDN)201。
步骤S200,将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果。
在本实施例的一种可能的实现方式中,同样如图3所示,可以在所述直播服务器200中预先构建一个多模型内容识别系统202,所述多模型内容识别系统202可以包括至少两种用于对不同种类的违规内容进行识别的人工智能模型作为所述内容识别模型。所述人工智能模型可以是预先通过样本进行机器训练而得到。例如,所述多模型内容识别系统202可以包括用于对敏感音频进行识别的语音识别模型,用于对涉黄视频画面进行识别的画面涉黄模型、用于对画面敏感文字进行识别的敏感文字模型,以及用于对画面中的涉政内容进行识别的画面涉政模型等。应当理解,所述多模型内容识别系统202所包括的人工智能模型的数量以及种类可以根据实际应用场景而限定,并不以本实施例的示例作为限制。
其中,所述违规内容识别结果可以根据各个内容识别模型输出的结果进行模型结果聚合而得到。在一种可选的示例中,每个所述内容识别模型可以包括标准的输入和输出。
例如,针对每个所述内容识别模型,其标准的输入可以参下表所示:
又例如,针对每个所述内容识别模型,其标准的输出可以参下表所示:
其中,各个不同的内容识别模型输出的识别结果可以聚合或合并为一个信令,所述信令可以发送到直播服务器200中设置的消息中间件中。
作为一种示例,以所述多模型内容识别系统202中的语音识别模型、敏感文字模型、画面涉黄模型为例。
所述语音识别模型针对一直播视频流的识别输出结果可以是:
所述敏感文字模型针对所述直播视频流的识别输出结果可以是:
所述画面涉黄模型针对所述直播视频流的识别输出结果可以是:
对所述语音识别模型、敏感文字模型、以及画面涉黄模型的识别输出结果进行聚合后的结果则可以是:
步骤S300,根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到所述观众端300。
例如,如图3所示,在一种可选的示例中,所述直播服务器200可以包括直播流渲染系统203,在所述步骤S300中,可以将所述违规内容识别结果发送到所述直播服务器200中的所述直播流渲染系统203,由所述直播流渲染系统203从所述CDN201中拉取相应的直播视频流并在所述渲染延迟时间内根据所述违规内容识别结果对所述直播视频流进行违规内容处理,然后再将处理后的直播视频流进行渲染后推流到所述观众端300。
其中,所述违规内容处理包括根据所述违规内容识别结果对从所述直播视频流中检测到的违规内容进行消除,例如,对从所述直播视频流中检测到的违规音频进行消音处理、对所述直播视频流中具有违规视频画面的视频帧进行违规内容遮挡(如打马赛克)等。
本实施例中,所述渲染延迟时间可以根据实际需要进行设置。理论上,所述渲染延迟时间越长,所述直播流渲染系统203对违规内容的消除则越彻底。然而,渲染延迟时间越长,则会导致直播推流越卡顿,会影响主播和用户的使用体验,若渲染延迟时间过短,则会导致违规内容消除不彻底,而不符合合规的要求。
基于此,在一种可能的实现方式中,在所述步骤S300中,在将所述进行违规内容处理后的直播视频流推流到所述观众端300时,可以将所述违规内容识别结果通过信令推送到所述观众端300,使所述观众端300可根据所述违规内容识别结果对推流到观众端300的直播视频流进行违规内容处理后再进行播放。例如图3所示,所述视频直播服务器200还可以进一步包括信令推送系统204,所述信令推送系统204可以从所述消息中间件或直接从所述多模型内容识别系统202中获取所述违规内容识别结果,所述违规内容识别结果可以是将各个内容识别模型输出的识别结果进行聚合后得到的信令,然后将该信令推送到所述观众端300。
例如图4所示,是所述观众端300对所述直播视频流进行渲染处理的过程示意图。在所述直播服务器200将违规内容处理后的直播视频流推流到所述CDN201后,所述观众端300可以从所述CDN202进行拉流,然后对拉流的直播视频流进行缓冲后再进行直播流渲染,在本实施例中,观众端300可以在所述直播视频流的渲染过程中进行违规内容处理,然后再对违规内容处理后的直播视频流进行播放。
如此,通过直播服务器200以及观众端300分别对直播视频流进行违规内容处理的两路处理方式,可以提高对违规内容的消除成功率,在缩短所述直播服务器200的渲染延迟时间的基础上,同样可以保证违规内容的消除成功率。
进一步地,在上述内容的基础上,为了尽可能的缩短所述渲染延迟时间以保证直播视频流的推流流畅度,本实施例中,可以根据直播服务器200以及观众端300反馈的对所述直播视频流的处理结果对所述渲染延迟时间进行实时调整。基于此,如图5所示,本实施例提供的视频直播方法还可以包括下述的步骤S400。
步骤S400,接收所述直播服务器200以及所述观众端300对所述直播视频流的违规内容处理结果,并根据所述直播服务器200以及所述观众端300分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
在本实施例的一种可能的实现方式中,所述直播服务器200反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端300反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率。其中,所述终端功能覆盖率是指接入当前直播的所有观众端300中支持违规内容消除功能的观众端300的占比。所述终端处理信令成功率是指观众端300对违规内容进行消除的成功率。其中,如图3所示,本实施例中,所述直播服务器200还可以包括一反馈系统205,所述反馈系统205用于接收所述直播流渲染系统203以及所述观众端300反馈的所述违规内容处理结果。基于此,所述步骤S500具体可以通过以下方式进行实现。
首先,根据所述直播服务器200反馈的对违规内容的处理成功率以及所述观众端300反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率。例如,所述全局处理成功率的计算公式可以如下:
S=C*D+(100%-C*D)*E。
其中,S代表所述全局处理成功率,C和D分别代表所述所述观众端300反馈的终端功能覆盖率以及终端处理信令成功率,E代表所述直播服务器200反馈的对违规内容的处理成功率。
然后,根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
例如,当所述全局处理成功率大于所述预设的目标消除成功率时,则减小所述渲染延迟时间;当所述全局处理成功率小于所述预设的目标消除成功率时,则增加所述渲染延迟时间。
其中,假设本实施中的内容识别模型对直播视频流进行违规内容识别的平均识别耗时为A秒,在服务器200中对违规内容进行处理所需的渲染延迟时间为B秒,基于传统的违规内容消除方法,若要保证违规内容达到100%的消除率,理论上需要B>A。而通过本实施例的方法,通过服务器200和观众端300两路实现违规内容的消除处理,并根据消除处理的结果对渲染延迟时间进行实时调整,不必一定需要将渲染延迟时间设定为大于A,一方面保证违规内容的消除率,另一方面可以尽可能的限缩直播服务器200对直播视频流的渲染延迟时间,提升直播推流的流畅性,提升主播和用户的使用体验。
请参照图6,图6为本申请实施例提供的用于实现上述视频直播方法的直播服务器的示意图。详细地,所述直播服务器可以包括一个或多个处理器110、机器可读存储介质120以及视频直播装置130。处理器110与机器可读存储介质120可经由系统总线通信连接。机器可读存储介质120存储有机器可执行指令,处理器110通过读取并执行机器可读存储介质120中机器可执行指令实现上文描述的视频直播方法。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器110在接收到执行指令后,执行所述程序。
所述处理器110可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是,但不限于,通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。
请参照图7,是所述视频直播装置130的功能模块示意图。本实施例中,所述视频直播装置130可以包括一个或多个在所述直播服务器运行的软件功能模块,这些软件功能模块可以计算机程序的形式存储在所述机器可读存储介质120中,以使得这些软件功能模块在被所述处理器130调用并执行时,可以实现本申请实施例所述的视频直播方法。
详细地,所述视频直播装置130包括直播流获取模块131、内容识别模块132、以及内容处理模块133。
所述直播流获取模块131用于用于获取主播端100发送的直播视频流。
本实施例中,所述视频直播装置130可以通过所述主播端100自带的或者外部连接的图像采集设备对主播进行拍摄而产生直播视频流,并将产生的直播视频流实施推流至所述直播服务器200的内容分发网络(Content Distribution Network,CDN)201。
所述内容识别模块132用于将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果。
本实施例中,可以在所述直播服务器200中预先构建一个多模型内容识别系统202,所述多模型内容识别系统202可以包括至少两种用于对不同种类的违规内容进行识别的人工智能模型作为所述内容识别模型。所述人工智能模型可以是预先通过样本进行机器训练而得到。例如,所述多模型内容识别系统202可以包括用于对敏感音频进行识别的语音识别模型,用于对涉黄视频画面进行识别的画面涉黄模型、用于对画面敏感文字进行识别的敏感文字模型,以及用于对画面中的涉政内容进行识别的画面涉政模型等。应当理解,所述多模型内容识别系统202所包括的人工智能模型的数量以及种类可以根据实际应用场景而限定,并不以本实施例的示例作为限制。
所述内容处理模块133用于根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到所述观众端300。
例如,在一种可能的示例中,所述违规内容处理可以包括根据所述违规内容识别结果对从所述直播视频流中检测到的违规内容进行消除,例如,对从所述直播视频流中检测到的违规音频进行消音处理、对所述直播视频流中具有违规视频画面的视频帧进行违规内容遮挡(如打马赛克)等。
在上述内容的基础上,本实施例中,进一步如图7所示,所述视频直播装置130还可以包括延迟调整模块134,用于接收所述直播服务器200以及所述观众端300对所述直播视频流的违规内容处理结果,并根据所述直播服务器200以及所述观众端300分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
示例性地,所述直播服务器200反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端300反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率;其中,所述终端功能覆盖率是指接入当前直播的所有观众端300中支持违规内容消除功能的观众端的占比,所述终端处理信令成功率是指观众端300对违规内容进行消除的成功率。
基于此,所述延迟调整模块134,具体用于:
根据所述直播服务器200反馈的对违规内容的处理成功率以及所述观众端300反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率;
根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
进一步地,在本申请实施例中,所述的直播流获取模块131、内容识别模块132、内容处理模块133、以及延迟调整模块可分别对应执行本申请实施例中的视频直播方法中的步骤S100-S400,关于这些模块的具体的实现方法及内容可以参照对应步骤的详细描述,本实施例对此不再赘述。
综上所述,本申请实施例提供的视频直播方法、装置及直播服务器,通过多个内容识别模型对直播视频流中的违规内容进行实时检测,实现对直播视频流的多维度检测,可以有效的检测出直播视频流中的违规内容并进行处理后再推流至观众端,可适用于复杂的直播业务场景,从源头上避免了违规内容的传播,最大程度地保护了观众、主播和平台各方权益。
此外,本申请实施例进一步用直播服务器延迟渲染推流和观众端违规内容处理的双路处理方式对直播视频流中的违规内容进行处理,同时可根据直播服务器和观众端反馈的处理结果对直播服务器端的渲染延迟时间进行实时调整。一方面利用观众端违规内容屏蔽的方式可提升违规内容消除的成功率,另一方面,可以尽可能的缩短常规方案中直播视频流的渲染延迟时间,可以提升直播视频流的推流流畅性,进而提高主播和用户的交互体验。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种视频直播方法,应用于直播服务器,其特征在于,所述方法包括:
获取主播端发送的直播视频流;
将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果;
根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到观众端;
将所述违规内容识别结果通过信令推送到所述观众端,使所述观众端根据所述违规内容识别结果对推流到观众端的直播视频流进行违规内容处理后再进行播放;
接收所述直播服务器以及所述观众端对所述直播视频流的违规内容处理结果,并根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
2.根据权利要求1所述的视频直播方法,其特征在于,所述直播服务器反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率;其中,所述终端功能覆盖率是指接入当前直播的所有观众端中支持违规内容消除功能的观众端的占比,所述终端处理信令成功率是指观众端对违规内容进行消除的成功率;
所述根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整,包括:
根据所述直播服务器反馈的对违规内容的处理成功率以及所述观众端反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率;
根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
3.根据权利要求2所述的视频直播方法,其特征在于,根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整,包括:
当所述全局处理成功率大于所述预设的目标消除成功率时,则减小所述渲染延迟时间;
当所述全局处理成功率小于所述预设的目标消除成功率时,则增加所述渲染延迟时间。
4.根据权利要求1-3任意一项所述的视频直播方法,其特征在于,所述直播服务器包括预先构建的多模型内容识别系统,所述多模型内容识别系统包括至少两种用于对不同种类的违规内容进行识别的人工智能模型作为所述内容识别模型,所述将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果包括:
对各个所述内容识别模型输出的结果进行模型结果聚合得到所述违规内容识别结果。
5.根据权利要求1-3任意一项所述的视频直播方法,其特征在于,所述直播服务器包括内容分发网络和直播流渲染系统,所述根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到所述观众端,包括:
将所述违规内容识别结果发送到所述直播流渲染系统,由所述直播流渲染系统从所述内容分发网络中拉取相应的直播视频流并在所述渲染延迟时间内根据所述违规内容识别结果对所述直播视频流进行违规内容处理,然后再将处理后的直播视频流进行渲染后推流到所述观众端。
6.一种视频直播装置,运行于直播服务器,其特征在于,所述视频直播装置包括:
直播流获取模块,用于获取主播端发送的直播视频流;
内容识别模块,用于将所述直播视频流输入至少两个内容识别模型对至少两种违规内容进行违规内容识别,得到违规内容识别结果;
内容处理模块,用于根据所述违规内容识别结果,在设定的渲染延迟时间内对所述直播视频流进行违规内容处理后推流到观众端;
信令推送模块,用于将所述违规内容识别结果通过信令推送到所述观众端,使所述观众端根据所述违规内容识别结果对推流到观众端的直播视频流进行违规内容处理后再进行播放;
延迟调整模块,用于接收所述直播服务器以及所述观众端对所述直播视频流的违规内容处理结果,并根据所述直播服务器以及所述观众端分别反馈的违规内容处理结果对所述渲染延迟时间进行调整。
7.根据权利要求6所述的视频直播装置,其特征在于,所述直播服务器反馈的违规内容处理结果包括对违规内容的处理成功率,所述观众端反馈违规内容处理结果包括终端功能覆盖率、终端处理信令成功率;其中,所述终端功能覆盖率是指接入当前直播的所有观众端中支持违规内容消除功能的观众端的占比,所述终端处理信令成功率是指观众端对违规内容进行消除的成功率;
所述延迟调整模块,具体用于:
根据所述直播服务器反馈的对违规内容的处理成功率以及所述观众端反馈的终端功能覆盖率以及终端处理信令成功率计算得到对所述违规内容的全局处理成功率;
根据所述全局处理成功率与预设的目标消除成功率对所述渲染延迟时间进行调整。
8.一种直播服务器,其特征在于,包括机器可读存储介质以及一个或多个处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述一个或多个处理器执行时,实现权利要求1-5任意一项所述的视频直播方法。
CN202211148062.8A 2022-09-20 2022-09-20 视频直播方法、装置及直播服务器 Active CN115499678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211148062.8A CN115499678B (zh) 2022-09-20 2022-09-20 视频直播方法、装置及直播服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211148062.8A CN115499678B (zh) 2022-09-20 2022-09-20 视频直播方法、装置及直播服务器

Publications (2)

Publication Number Publication Date
CN115499678A CN115499678A (zh) 2022-12-20
CN115499678B true CN115499678B (zh) 2024-04-09

Family

ID=84470664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211148062.8A Active CN115499678B (zh) 2022-09-20 2022-09-20 视频直播方法、装置及直播服务器

Country Status (1)

Country Link
CN (1) CN115499678B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682719A (zh) * 2017-09-05 2018-02-09 广州数沃信息科技有限公司 一种直播内容健康度的监测评估方法及装置
CN110944217A (zh) * 2019-12-12 2020-03-31 北京达佳互联信息技术有限公司 直播信息处理方法、装置及服务器、存储介质
CN111770365A (zh) * 2020-07-03 2020-10-13 广州酷狗计算机科技有限公司 主播推荐方法、装置、计算机设备及计算机可读存储介质
CN112929680A (zh) * 2021-01-19 2021-06-08 广州虎牙科技有限公司 直播间图像渲染方法、装置、计算机设备及存储介质
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113223558A (zh) * 2021-04-30 2021-08-06 广州虎牙科技有限公司 音频数据消音方法、装置、电子设备和存储介质
CN113315994A (zh) * 2021-04-23 2021-08-27 北京达佳互联信息技术有限公司 直播数据处理方法、装置、电子设备及存储介质
CN114025219A (zh) * 2021-11-01 2022-02-08 广州博冠信息科技有限公司 增强现实特效的渲染方法、装置、介质及设备
CN114268813A (zh) * 2021-12-31 2022-04-01 广州方硅信息技术有限公司 直播画面调整方法、装置及计算机设备
CN114663705A (zh) * 2022-03-25 2022-06-24 百果园技术(新加坡)有限公司 视频审核模型训练方法、视频审核方法及相关装置
CN115002540A (zh) * 2022-03-17 2022-09-02 广州方硅信息技术有限公司 直播中违规视频的处理方法、装置、设备和可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8966571B2 (en) * 2012-04-03 2015-02-24 Google Inc. Detection of potentially copyrighted content in user-initiated live streams
CN111355781B (zh) * 2020-02-18 2021-06-08 腾讯科技(深圳)有限公司 一种语音信息交流的管理方法、装置和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682719A (zh) * 2017-09-05 2018-02-09 广州数沃信息科技有限公司 一种直播内容健康度的监测评估方法及装置
CN110944217A (zh) * 2019-12-12 2020-03-31 北京达佳互联信息技术有限公司 直播信息处理方法、装置及服务器、存储介质
CN111770365A (zh) * 2020-07-03 2020-10-13 广州酷狗计算机科技有限公司 主播推荐方法、装置、计算机设备及计算机可读存储介质
CN112929680A (zh) * 2021-01-19 2021-06-08 广州虎牙科技有限公司 直播间图像渲染方法、装置、计算机设备及存储介质
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113315994A (zh) * 2021-04-23 2021-08-27 北京达佳互联信息技术有限公司 直播数据处理方法、装置、电子设备及存储介质
CN113223558A (zh) * 2021-04-30 2021-08-06 广州虎牙科技有限公司 音频数据消音方法、装置、电子设备和存储介质
CN114025219A (zh) * 2021-11-01 2022-02-08 广州博冠信息科技有限公司 增强现实特效的渲染方法、装置、介质及设备
CN114268813A (zh) * 2021-12-31 2022-04-01 广州方硅信息技术有限公司 直播画面调整方法、装置及计算机设备
CN115002540A (zh) * 2022-03-17 2022-09-02 广州方硅信息技术有限公司 直播中违规视频的处理方法、装置、设备和可读存储介质
CN114663705A (zh) * 2022-03-25 2022-06-24 百果园技术(新加坡)有限公司 视频审核模型训练方法、视频审核方法及相关装置

Also Published As

Publication number Publication date
CN115499678A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
EP3562163B1 (en) Audio-video synthesis method and system
US8310520B2 (en) Flexible decomposition and recomposition of multimedia conferencing streams using real-time control information
CN109547724B (zh) 一种视频流数据的处理方法、电子设备及存储装置
CN112135155B (zh) 音视频的连麦合流方法、装置、电子设备及存储介质
CN109299326B (zh) 视频推荐方法及装置、系统、电子设备以及存储介质
KR20140061295A (ko) 이미지 재생 검증 방법
KR101915786B1 (ko) 아바타를 이용한 인터넷 방송 참여 서비스 시스템 및 방법
CN110933485A (zh) 一种视频字幕生成方法、系统、装置和存储介质
CN107317815A (zh) 一种视频叠加的方法及装置、存储介质和终端
KR20130138213A (ko) 멀티미디어 흐름 처리 방법 및 대응하는 장치
CN114095671A (zh) 云会议直播系统、方法、装置、设备及介质
CN102567720A (zh) Flash在线视频的人脸识别方法及人脸识别装置
US10200732B1 (en) Output-aligned avail blanking for video streams
Laghari et al. The state of art and review on video streaming
CN114531564A (zh) 处理方法及电子设备
KR101915792B1 (ko) 얼굴인식을 이용한 광고 삽입 시스템 및 방법
CN115499678B (zh) 视频直播方法、装置及直播服务器
US20180124472A1 (en) Providing Interactive Content to a Second Screen Device via a Unidirectional Media Distribution System
US20220070501A1 (en) Social video platform for generating and experiencing content
WO2019227426A1 (zh) 多媒体数据处理方法、装置和设备/终端/服务器
CN115550678A (zh) 直播视频处理方法、装置及存储介质
US20210350515A1 (en) System and method to detect macroblocking in images
CN114781622A (zh) 图像处理方法和装置、视频处理方法和装置
CN107483876A (zh) 视频数据处理方法、存储设备、直录播互动终端
CN113766255A (zh) 视频流合并方法、装置、电子设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant