CN111726642A - 直播方法、装置和计算机可读存储介质 - Google Patents

直播方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111726642A
CN111726642A CN201910206325.8A CN201910206325A CN111726642A CN 111726642 A CN111726642 A CN 111726642A CN 201910206325 A CN201910206325 A CN 201910206325A CN 111726642 A CN111726642 A CN 111726642A
Authority
CN
China
Prior art keywords
definition
code rate
target
user
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910206325.8A
Other languages
English (en)
Other versions
CN111726642B (zh
Inventor
孔磊锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910206325.8A priority Critical patent/CN111726642B/zh
Publication of CN111726642A publication Critical patent/CN111726642A/zh
Application granted granted Critical
Publication of CN111726642B publication Critical patent/CN111726642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/23805Controlling the feeding rate to the network, e.g. by controlling the video pump
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6373Control signals issued by the client directed to the server or network components for rate control, e.g. request to the server to modify its transmission rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开提出一种直播方法、装置和计算机可读存储介质,涉及多媒体技术领域。本公开的一种直播方法,包括:接收来自用户的语音信息;识别语音信息中的码率切换请求,确定目标清晰度;根据目标清晰度调整直播码率。通过这样的方法,能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。

Description

直播方法、装置和计算机可读存储介质
技术领域
本公开涉及多媒体技术领域,特别是一种直播方法、装置和计算机可读存储介质。
背景技术
随着直播的普遍使用,用户对于清晰度和稳定性的要求越来越高。而网络的稳定情况、带宽等往往会影响到直播效果。因此,需要允许切换清晰度以适应不同网络状况,优先保证直播的流畅。
发明内容
发明人发现,与普通的在线播放或视频节目直播不同的是,手机直播等应用场景下主播端的上行网络状况会影响到所有观看用户的体验,且由于直播的实时性,主播端的上行数据丢失将造成直播数据丢失且不可重复。
本公开的一个目的在于提供一种清晰度切换的方法,提高切换操作的自主性和便捷程度。
根据本公开的一些实施例的一个方面,提出一种直播方法,包括:接收来自用户的语音信息;识别语音信息中的码率切换请求,确定目标清晰度;根据目标清晰度调整直播码率。
在一些实施例中,根据目标清晰度调整直播码率包括:在目标清晰度与当前清晰度相同的情况下,不执行码率切换操作;在目标清晰度与当前清晰度不同的情况下,确定与目标清晰度相关联的目标码率,切换直播码率为目标码率。
在一些实施例中,直播方法还包括:根据当前网络状态和/或终端状态获取最高承受码率;在与目标清晰度相关联的目标码率高于最高承受码率的情况下,将直播码率切换为最高承受码率,或切换为与低于最高承受码率的最高清晰度相关联的码率。
在一些实施例中,识别语音信息中的码率切换请求包括:通过语义分析确定用户需要切换码率。
在一些实施例中,识别语音信息中的码率切换请求包括:捕捉语音信息中的预定码率切换口令。
在一些实施例中,确定目标清晰度包括:提取语音信息中的目标清晰度关联信息或目标清晰度,或通过语义分析确定目标清晰度关联信息;在获取目标清晰度关联信息的情况下,根据当前清晰度确定目标清晰度;其中,目标清晰度关联信息包括提高清晰度、降低清晰度、提高n等级清晰度和/或降低m等级清晰度,n和m为正整数,目标清晰度包括超清、高清和/或标清。
在一些实施例中,在用户为主播用户的情况下,直播码率为上传码率;在用户为观众用户的情况下,直播码率为下载码率。
通过这样的方法,能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
根据本公开的另一些实施例的一个方面,提出一种直播装置,包括:语音获取单元,被配置为接收来自用户的语音信息;目标清晰度获取单元,被配置为识别语音信息中的码率切换请求,确定目标清晰度;码率调整单元,被配置为根据目标清晰度调整直播码率。
在一些实施例中,码率调整单元被配置为:在目标清晰度与当前清晰度相同的情况下,不执行码率切换操作;在目标清晰度与当前清晰度不同的情况下,确定与目标清晰度相关联的目标码率,切换直播码率为目标码率。
在一些实施例中,直播装置还包括:最高码率获取单元,被配置为根据当前网络状态和/或终端状态获取最高承受码率;码率调整单元被配置为在与目标清晰度相关联的目标码率高于最高承受码率的情况下,将直播码率切换为最高承受码率,或切换为与低于最高承受码率的最高清晰度相关联的码率。
在一些实施例中,目标清晰度获取单元被配置为:通过语义分析确定用户需要切换码率。
在一些实施例中,目标清晰度获取单元被配置为:捕捉语音信息中的预定码率切换口令。
在一些实施例中,目标清晰度获取单元被配置为:提取语音信息中的目标清晰度关联信息或目标清晰度,或通过语义分析确定目标清晰度关联信息;在获取目标清晰度关联信息的情况下,根据当前清晰度确定目标清晰度;其中,目标清晰度关联信息包括提高清晰度、降低清晰度、提高n等级清晰度和/或降低m等级清晰度,n和m为正整数,目标清晰度包括超清、高清和/或标清。
在一些实施例中,在用户为主播用户的情况下,直播码率为上传码率;和/或,在用户为观众用户的情况下,直播码率为下载码率。
根据本公开的又一些实施例的一个方面,提出一种直播装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种直播方法。
这样的直播装置能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
根据本公开的再一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种直播方法的步骤。
通过执行这样的计算机可读存储介质上的指令,能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
根据本公开的其中一些实施例的一个方面,提出一种终端,包括:网络交互设备,被配置为与网络设备交互;麦克风,被配置为采集音频信号;摄像头,被配置为采集视频信号;和,上文中任意一种直播装置。
这样的终端能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
另外,根据本公开的一些实施例的一个方面,提出一种直播系统,包括多个上文中提到的终端。
这样的直播系统能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的直播方法的一些实施例的流程图。
图2为本公开的直播方法的另一些实施例的流程图。
图3为本公开的直播装置的一些实施例的示意图。
图4为本公开的直播装置的另一些实施例的示意图。
图5为本公开的直播装置的又一些实施例的示意图。
图6为本公开的终端的一些实施例的示意图。
图7为本公开的直播系统的一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
本公开的直播方法的一个实施例的流程图如图1所示。
在步骤101中,接收来自用户的语音信息。在一些实施例中,主播可以在直播过程中不断传递语音信息,直播装置接收并识别语音信息。
在步骤102中,识别语音信息中的码率切换请求,确定目标清晰度。在一些实施例中,可以采用语义分析或捕捉预定口令的方式识别码率切换请求。
在步骤103中,根据目标清晰度调整直播码率。在一些实施例中,可以根据预定关联关系确定与目标清晰度相关联的码率,将其作为目标码率并调整当前直播码率。在一些实施例中,若当前用户为主播用户,则调整的码率为上传推流码率;在一些实施例中,若当前用户为观众用户,则调整的码率为下载码率,即只修改用户观看视频的清晰度,不影响其他用户的观看情况。
相关技术中一般会采用预设清晰度且在直播过程中不允许修改、允许手动触摸切换清晰度,或终端根据网络状况自行切换码率的方式。
但在直播环境下,若预设清晰度且在直播过程中不允许修改,由于网络容易受到周围环境的影响,波动比较大,则网络不稳定的时主播端会卡顿,当前网络无法支撑现有的码率,出现视频丢帧、音频跳帧,观看端用户体验差;若用户可以手动触摸切换清晰度,在调整过程中用户需要拉近与终端的距离进行操作,就会出现大脸情况,且操作效率低,影响主播端影响观看端的用户体验;若由终端自行判断网络状态切换清晰度,则一般为了保证推流的稳定性都会牺牲视频的清晰度,观看端用户体验差,且系统自动切换往往会存在频繁切换和切换不及时两种情况,难以达到平衡。
通过上文中本公开实施例的方法,能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
在一些实施例中,语音信息中包括的可以是目标清晰度信息,如流畅、标清、高清、超清等。通过语义分析或关键词(如“切换清晰度”)捕捉触发确定用户要切换清晰度,进而捕捉目标清晰度完成切换,提高了清晰度切换的便捷程度,同时也能够避免对用户提到的相似信息误识别,与采用文本匹配的方式相比提高了切换的准确度。
在另一些实施例中,语音信息中包括的可以为目标清晰度关联信息,如提高清晰度、降低清晰度、提高n等级清晰度、降低m等级清晰等,其中,n和m为正整数。在语音信息中包括目标清晰度关联信息的情况下,可以通过语义理解,基于当前清晰度确定目标清晰度。在一些实施例中,当目标清晰度关联信息为提高清晰度或降低清晰度时,可以提高或降低一等级的清晰度,还可以结合当前网络的承载能力,在符合用户调整趋势的基础上调整为终端能够支持的清晰度。
通过这样的方法,能够提高语音控制的灵活性,用户无需掌握当前的清晰度情况,也无需对可能的清晰度做出准确判断,可以根据当前使用情况确定清晰度的切换趋势(如提高或降低),从而降低用户做出决断所需的时间,进一步提高了切换的效率,提高了用户体验。
在一些实施例中,目标清晰度关联信息还可以为最高清晰度、最低清晰度,通过语义理解和当前平台或终端能力的限制确定最高、最低清晰度作为目标清晰度,从而无需用户实现了解、熟悉终端和平台,降低用户负担,提高了用户友好度。
在一些实施例中,为避免误识别造成的误切换,可以在确认需要切换清晰度后通过弹出信息或语音提示的方式询问用户是否确认切换。在得到用户通过语音下达的确认指令后执行切换,从而避免误切换,提高直播过程中清晰度切换的可靠性,也降低了清晰度频繁反复切换的可能性。
本公开的直播方法的另一个实施例的流程图如图2所示。
在步骤201中,接收来自用户的语音信息。在一些实施例中,用户可以通过主播账户登录主播端应用,进入推流界面;在一些实施例中,可以在推流之前允许用户通过语音或手动触摸配置的方式设置默认清晰度,然后以对应的码率推流。终端与媒体服务器建立RTMP(Real Time Messaging Protocol,实时消息传输协议)连接,并与消息服务器建立Socket(端口)连接,然后开始基于建立的RTMP连接和Socket连接直播。
在步骤202中,通过语义分析、口令捕捉中的至少一项监控用户是否需要切换码率。若确定用户需要切换码率,则执行步骤203。在一些实施例中,需要先获取设备的音频解析权限,把主播输入的语音输入转换器得到文字信息。在一些实施例中,需要主播输入的语音采用的为转换器支持的语种,如标准普通话、英文、法语等,或预定种类的小语种、方言等。
在步骤203中,提取语音信息中的目标清晰度关联信息或目标清晰度,或通过语义分析确定目标清晰度关联信息。在一些实施例中,可以从语音信息中直接提取目标清晰度,在另一些实施例中,可以根据用户提到的目标清晰度相关信息,结合当前清晰度确定目标清晰度,如当前为标准清晰度,用户提到要提高一个等级的清晰度,则目标清晰度为高清。
在步骤204中,判断目标清晰度与当前清晰度是否相同。若相同,则执行步骤205;若不相同,则执行步骤209。
在步骤205中,根据当前网络状态、终端状态中的至少一项获取最高承受码率。在一些实施例中,可以通过当前的上传、下载速率确定当前网络状态,根据终端CPU(CentralProcessing Unit,中央处理器)、内存等的占用率等确定终端状态。在一些实施例中,可以根据预存的状态参数与最高承受码率之间的关系确定最高承受码率;在另一些实施例中,可以根据状态信息确定能够处理的信息的速率,取多个状态参数对应的处理信息的速率中最小的一个作为最高承受码率。
在步骤206中,判断与目标清晰度相关联的目标码率是否高于最高承受码率。若目标码率高于最高承受码率,则执行步骤208;若目标码率不高于最高承受码率,则执行步骤207。
在步骤207中,切换为目标码率。在一些实施例中,主播端终端可以在确定需要切换时暂时停止推流,将目标码率通过RTMP更换后重新向媒体服务端推送视频信息;观看端从媒体服务端拉取的当前视频流是已经更改过清晰度的视频流。
在步骤208中,将直播码率切换为最高承受码率,或切换为与低于最高承受码率的最高清晰度相关联的码率。
在步骤209中,不执行码率切换操作,返回步骤201。
通过这样的方法,能够保证网络、终端的情况能够承载目标码率,避免完成切换后造成卡顿,提高切换的可靠性,也能够避免频繁切换,降低终端和网络的负担,提高直播的流畅度。
本公开的直播装置的一个实施例的示意图如图3所示。语音获取单元301能够接收来自用户的语音信息。在一些实施例中,主播可以在直播过程中不断传递语音信息,语音获取单元301接收并识别语音信息。目标清晰度获取单元302能够识别语音信息中的码率切换请求,确定目标清晰度。在一些实施例中,可以采用语义分析或捕捉预定口令的方式识别码率切换请求。码率调整单元303能够根据目标清晰度调整直播码率。在一些实施例中,可以根据预定关联关系确定与目标清晰度相关联的码率,将其作为目标码率并调整当前直播码率。在一些实施例中,若当前用户为主播用户,则调整的码率为上传推流码率;在一些实施例中,若当前用户为观众用户,则调整的码率为下载码率,即只修改用户观看视频的清晰度,不影响其他用户的观看情况。
这样的装置能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
在一些实施例中,码率调整单元303还能够比较当前清晰度和目标清晰度获取单元提供的目标清晰度。若目标清晰度与当前清晰度相同,则不执行清晰度切换操作,从而避免执行无意义的切换操作造成系统负担。
在一些实施例中,目标清晰度获取单元302能够通过语义分析或关键词捕捉(如“切换清晰度”)触发确定用户要切换清晰度,进而捕捉目标清晰度完成切换,提高了清晰度切换的便捷程度,同时也能够避免对用户提到的相似信息误识别,与采用文本匹配的方式相比,提高了切换的准确度。
在另一些实施例中,语音信息中包括的可以为目标清晰度关联信息,如最高清晰度、最低清晰度、提高清晰度、降低清晰度、提高n等级清晰度、降低m等级清晰等,其中,n和m为正整数。目标清晰度获取单元302可以通过语义理解,或基于当前清晰度确定目标清晰度,从而能够提高语音控制的灵活性,用户可以根据当前使用情况确定清晰度的切换趋势,降低用户做出决断所需的时间,进一步提高了切换的效率,提高了用户体验。
在一些实施例中,如图3所示,直播装置还可以包括最高码率获取单元304,能够根据当前网络状态、终端状态中的至少一项获取最高承受码率,并判断与目标清晰度获取单元302提供的目标清晰度相关联的目标码率是否高于最高承受码率。若目标码率高于最高承受码率,则将直播码率切换为最高承受码率,或当码率切换需要符合预定标准时,切换为与低于最高承受码率的最高清晰度相关联的码率;若目标码率不高于最高承受码率,则切换为目标码率。
这样的直播装置,能够保证网络、终端的情况能够承载目标码率,避免完成切换后造成卡顿,提高切换的可靠性,也能够避免频繁切换,降低终端和网络的负担,提高直播的流畅度。
本公开直播装置的一个实施例的结构示意图如图4所示。直播装置包括存储器401和处理器402。其中:存储器401可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中直播方法的对应实施例中的指令。处理器402耦接至存储器401,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器402用于执行存储器中存储的指令,能够提高切换的及时性和主动性,提高清晰度切换的便捷程度。
在一个实施例中,还可以如图5所示,直播装置500包括存储器501和处理器502。处理器502通过BUS总线503耦合至存储器501。该直播装置500还可以通过存储接口504连接至外部存储装置505以便调用外部数据,还可以通过网络接口506连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高切换的及时性和主动性,提高清晰度切换的便捷程度。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现直播方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开的终端的一个实施例的示意图如图6所示。终端包括网络交互设备601、麦克风602、摄像头603和直播装置604。直播装置604网络交互设备601能够与网络设备交互,在一些实施例中,可以为网卡,或终端配置的移动通信模块。麦克风602能够采集用户的声音;摄像头603能够采集视频信号。直播装置604可以为上文中提到的任意一种。
这样的终端能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
本公开的直播系统的一个实施例的示意图如图7所示。直播系统中可以包括多个主播端的终端,如终端701~703,多个观看用户,如终端711~715。
主播端的终端的音视频采集模块在获取摄像头和麦克风管理权限后,进行视频和音频采集。主播端的终端可以为上文中提到的任意一种终端。
媒体服务器能够在主播端与用户端进行媒体数据交互。媒体服务器可分为三部分:1)媒体流接收模块,能够建立RTMP连接,持续上传音视频数据;2)音视频合成模块,能够解析上传的音视频流,根据时间戳对音频视频进行合成处理;3)媒体流分发模块,能够将合成的媒体数据,分支至手机、PC、PAD等不同的观看终端。媒体的交互可以与普通直播一致。
消息服务器能够在主播端与用户端间执行的消息传递,消息包含聊天信息、直播间点赞信息、添加商品信息、用户进入及离开信息、用户送礼信息等等。消息的交互可以与普通直播一致。
观看用户侧的终端保持观看,也可以执行聊天、点赞、添加商品、直播间消息提醒等功能。
这样的直播系统能够允许用户通过语音控制切换当前的清晰度,使码率的切换适应网络状况的需求,从而提高切换的及时性和主动性,提高清晰度切换的便捷程度。
在一些实施例中,观看用户侧的终端也可以为上文中提到的任意一种终端,能够在观看过程中通过语音控制下行视频的码率,从而提高观看过程中码率切换的及时性、主动性和便捷程度。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

Claims (16)

1.一种直播方法,包括:
接收来自用户的语音信息;
识别所述语音信息中的码率切换请求,确定目标清晰度;
根据所述目标清晰度调整直播码率。
2.根据权利要求1所述的方法,其中,所述根据所述目标清晰度调整直播码率包括:
在所述目标清晰度与当前清晰度相同的情况下,不执行码率切换操作;
在所述目标清晰度与当前清晰度不同的情况下,确定与所述目标清晰度相关联的目标码率,切换所述直播码率为所述目标码率。
3.根据权利要求1或2所述的方法,还包括:
根据当前网络状态和/或终端状态获取最高承受码率;
在与所述目标清晰度相关联的目标码率高于所述最高承受码率的情况下,将所述直播码率切换为所述最高承受码率,或切换为与低于所述最高承受码率的最高清晰度相关联的码率。
4.根据权利要求1所述的方法,其中,所述识别所述语音信息中的码率切换请求包括:
通过语义分析确定用户需要切换码率;和/或,
捕捉所述语音信息中的预定码率切换口令。
5.根据权利要求1所述的方法,其中,所述确定目标清晰度包括:
提取所述语音信息中的目标清晰度关联信息或目标清晰度,或通过语义分析确定目标清晰度关联信息;
在获取所述目标清晰度关联信息的情况下,根据当前清晰度确定目标清晰度;
其中,所述目标清晰度关联信息包括提高清晰度、降低清晰度、提高n等级清晰度和/或降低m等级清晰度,n和m为正整数,所述目标清晰度包括超清、高清和/或标清。
6.根据权利要求1所述的方法,其中,在所述用户为主播用户的情况下,所述直播码率为上传码率;
在所述用户为观众用户的情况下,所述直播码率为下载码率。
7.一种直播装置,包括:
语音获取单元,被配置为接收来自用户的语音信息;
目标清晰度获取单元,被配置为识别所述语音信息中的码率切换请求,确定目标清晰度;
码率调整单元,被配置为根据所述目标清晰度调整直播码率。
8.根据权利要求7所述的装置,其中,所述码率调整单元被配置为:
在所述目标清晰度与当前清晰度相同的情况下,不执行码率切换操作;
在所述目标清晰度与当前清晰度不同的情况下,确定与所述目标清晰度相关联的目标码率,切换所述直播码率为所述目标码率。
9.根据权利要求7或8所述的装置,还包括:
最高码率获取单元,被配置为根据当前网络状态和/或终端状态获取最高承受码率;
所述码率调整单元被配置为在与所述目标清晰度相关联的目标码率高于所述最高承受码率的情况下,将所述直播码率切换为所述最高承受码率,或切换为与低于所述最高承受码率的最高清晰度相关联的码率。
10.根据权利要求7所述的装置,其中,所述目标清晰度获取单元被配置为:
通过语义分析确定用户需要切换码率;和/或,
捕捉所述语音信息中的预定码率切换口令。
11.根据权利要求7所述的装置,其中,所述目标清晰度获取单元被配置为:
提取所述语音信息中的目标清晰度关联信息或目标清晰度,或通过语义分析确定目标清晰度关联信息;
在获取所述目标清晰度关联信息的情况下,根据当前清晰度确定目标清晰度;
其中,所述目标清晰度关联信息包括提高清晰度、降低清晰度、提高n等级清晰度和/或降低m等级清晰度,n和m为正整数,所述目标清晰度包括超清、高清和/或标清。
12.根据权利要求7所述的装置,其中,
在所述用户为主播用户的情况下,所述直播码率为上传码率;
和/或,
在所述用户为观众用户的情况下,所述直播码率为下载码率。
13.一种直播装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至6任意一项所述的方法的步骤。
15.一种终端,包括:
网络交互设备,被配置为与网络设备交互;
麦克风,被配置为采集音频信号;
摄像头,被配置为采集视频信号;和,
权利要求7~13任意一项所述的直播装置。
16.一种直播系统,包括多个权利要求15所述的终端。
CN201910206325.8A 2019-03-19 2019-03-19 直播方法、装置和计算机可读存储介质 Active CN111726642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910206325.8A CN111726642B (zh) 2019-03-19 2019-03-19 直播方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910206325.8A CN111726642B (zh) 2019-03-19 2019-03-19 直播方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111726642A true CN111726642A (zh) 2020-09-29
CN111726642B CN111726642B (zh) 2023-05-30

Family

ID=72563050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910206325.8A Active CN111726642B (zh) 2019-03-19 2019-03-19 直播方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111726642B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301368A (zh) * 2021-04-21 2021-08-24 百果园技术(新加坡)有限公司 视频处理方法、装置及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060268700A1 (en) * 2004-12-17 2006-11-30 Clark Alan D System and method for improving the quality of real time multimedia sessions
US20080221891A1 (en) * 2006-11-30 2008-09-11 Lars Konig Interactive speech recognition system
CN101626436A (zh) * 2009-06-22 2010-01-13 中兴通讯股份有限公司南京分公司 一种交互式视频语音应答系统及实现方法
CN102572569A (zh) * 2012-02-24 2012-07-11 北京原力创新科技有限公司 机顶盒、互联网电视及智能控制信号的处理方法
CN103248877A (zh) * 2013-05-14 2013-08-14 重庆讯美电子有限公司 一种动态调整码率的解码方法及系统
US20140046668A1 (en) * 2012-08-09 2014-02-13 Wistron Corporation Control method and video-audio playing system
US20170092272A1 (en) * 2015-09-10 2017-03-30 Crestron Electronics, Inc. System and method for determining recipient of spoken command in a control system
WO2017093439A1 (fr) * 2015-12-02 2017-06-08 Michon Cédric Dispositif de commande vocale d'un appareil de capture d'images
CN107105333A (zh) * 2017-04-26 2017-08-29 电子科技大学 一种基于视线追踪技术的vr视频直播交互方法与装置
CN107197371A (zh) * 2016-03-15 2017-09-22 广州市动景计算机科技有限公司 视频清晰度的切换方法及装置
CN108848414A (zh) * 2018-06-26 2018-11-20 曜宇航空科技(上海)有限公司 一种视频的播放方法、清晰度的切换方法及播放器
CN109168039A (zh) * 2018-10-22 2019-01-08 武汉斗鱼网络科技有限公司 Android系统的码流清晰度切换方法、装置、终端及可读介质
CN109168078A (zh) * 2018-09-10 2019-01-08 苏宁智能终端有限公司 一种视频清晰度切换方法及装置
CN110267100A (zh) * 2019-07-12 2019-09-20 北京达佳互联信息技术有限公司 Flv视频的码率切换方法、装置、电子设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060268700A1 (en) * 2004-12-17 2006-11-30 Clark Alan D System and method for improving the quality of real time multimedia sessions
US20080221891A1 (en) * 2006-11-30 2008-09-11 Lars Konig Interactive speech recognition system
CN101626436A (zh) * 2009-06-22 2010-01-13 中兴通讯股份有限公司南京分公司 一种交互式视频语音应答系统及实现方法
CN102572569A (zh) * 2012-02-24 2012-07-11 北京原力创新科技有限公司 机顶盒、互联网电视及智能控制信号的处理方法
US20140046668A1 (en) * 2012-08-09 2014-02-13 Wistron Corporation Control method and video-audio playing system
CN103248877A (zh) * 2013-05-14 2013-08-14 重庆讯美电子有限公司 一种动态调整码率的解码方法及系统
US20170092272A1 (en) * 2015-09-10 2017-03-30 Crestron Electronics, Inc. System and method for determining recipient of spoken command in a control system
WO2017093439A1 (fr) * 2015-12-02 2017-06-08 Michon Cédric Dispositif de commande vocale d'un appareil de capture d'images
CN107197371A (zh) * 2016-03-15 2017-09-22 广州市动景计算机科技有限公司 视频清晰度的切换方法及装置
CN107105333A (zh) * 2017-04-26 2017-08-29 电子科技大学 一种基于视线追踪技术的vr视频直播交互方法与装置
CN108848414A (zh) * 2018-06-26 2018-11-20 曜宇航空科技(上海)有限公司 一种视频的播放方法、清晰度的切换方法及播放器
CN109168078A (zh) * 2018-09-10 2019-01-08 苏宁智能终端有限公司 一种视频清晰度切换方法及装置
CN109168039A (zh) * 2018-10-22 2019-01-08 武汉斗鱼网络科技有限公司 Android系统的码流清晰度切换方法、装置、终端及可读介质
CN110267100A (zh) * 2019-07-12 2019-09-20 北京达佳互联信息技术有限公司 Flv视频的码率切换方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301368A (zh) * 2021-04-21 2021-08-24 百果园技术(新加坡)有限公司 视频处理方法、装置及电子设备
CN113301368B (zh) * 2021-04-21 2023-06-30 百果园技术(新加坡)有限公司 视频处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111726642B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
US9973793B2 (en) Method and apparatus for processing video image
EP3648105A1 (en) Method and system for adjusting sound quality, and host side and storage medium
KR101852893B1 (ko) 정보 푸시 방법, 기기, 및 시스템
US20150170665A1 (en) Attribute-based audio channel arbitration
CN111010614A (zh) 一种显示直播字幕的方法、装置、服务器及介质
KR20140113286A (ko) 패턴 매칭 및 문자 인식을 이용한 사용자 시청 행동을 추적하는 장치 및 방법, 그리고 시스템
WO2014155377A1 (en) Method and system for automatically adding subtitles to streaming media content
JP7409963B2 (ja) チャンネル変更に基づいたトリガフィーチャを有するコンピューティングシステム
CN103607609A (zh) 一种电视机频道的语音切换方法和装置
CN106464933B (zh) 用于远程控制对多媒体内容的渲染的设备和方法
CN109889861A (zh) 一种主题直播方法、装置、系统、设备及存储介质
CN106851131B (zh) 一种互动连线处理方法、服务器、系统以及移动终端
EP3748978A1 (en) Screen recording method, client, and terminal device
CN112637661A (zh) 视频流的切换方法及装置、计算机存储介质、电子设备
CN111064980A (zh) 一种基于云端的音视频播放控制方法及系统
US9392206B2 (en) Methods and systems for providing auxiliary viewing options
KR20220115956A (ko) 사용자에 의해 액세스하기 쉬운 보안 방법, 장치, 및 시스템
CN111726642B (zh) 直播方法、装置和计算机可读存储介质
CN114286128A (zh) 直播视频参数调整方法、系统、装置、设备及存储介质
US11974016B2 (en) Audio assistance during trick play operations
EP2914011A1 (en) Media playing method and device
US20230276001A1 (en) Systems and methods for improved audio/video conferences
KR101616158B1 (ko) 프로그램 장시간 시청 방지 방법 및 장치
CN107657951B (zh) 一种在直播过程中处理声音的方法及终端设备
CN109922366A (zh) 一种设备参数调整方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant