CN113301372A - 直播方法、装置、终端及存储介质 - Google Patents
直播方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN113301372A CN113301372A CN202110554161.5A CN202110554161A CN113301372A CN 113301372 A CN113301372 A CN 113301372A CN 202110554161 A CN202110554161 A CN 202110554161A CN 113301372 A CN113301372 A CN 113301372A
- Authority
- CN
- China
- Prior art keywords
- close
- data
- target
- voice
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 230000006870 function Effects 0.000 claims description 36
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
Abstract
本申请实施例提供直播方法、装置、终端及存储介质。该方法包括:采集直播流数据;从语音数据中获取目标语音特征;在画面数据中确定与目标语音特征匹配的目标人脸图像;在画面数据中确定包含目标人脸图像的特写区域;向推流服务器发送特写区域。在本申请实施例中,在多人直播场景下,基于语音数据中的语音特征来确定正在说话的主播用户的人脸图像,并基于该人脸图像来确定特写区域,后续推流时将特写区域直接发送至推流服务器,由推流服务器转发至观众客户端,此时观众客户端直接播放正在说话的主播用户的特写画面,省去终端切换显示正在说话的主播用户的特写画面所需的人工操作,更加简单易行。
Description
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种直播方法、装置、终端及存储介质。
背景技术
目前,多个主播用户可以参与同一场直播,也即多人直播场景。
相关技术中,在多人直播场景下,若某个主播用户正在说话,此时终端显示的仍然是完整直播界面,若需要切换至正在说话的主播用户的特写界面,则需要自行调整摄像组件。
相关技术中,多人直播场景下,终端切换正在说话的主播用户的特写界面的操作较为繁琐。
发明内容
本申请实施例提供一种直播方法、装置、终端及存储介质,简化终端切换正在说话的主播用户的特写界面的操作。所述技术方案如下:
一方面,本申请实施例提供一种直播方法,应用于主播客户端,所述方法包括:
采集直播流数据,所述直播流数据包括画面数据与语音数据;
从所述语音数据中获取目标语音特征;
在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像;
在所述画面数据中确定包含所述目标人脸图像的特写区域;
向推流服务器发送所述特写区域,所述推流服务器用于向观众客户端发送所述特写区域,所述观众客户端用于基于所述特写区域播放特写画面。
另一方面,本申请实施例提供一种直播装置,所述装置包括:
数据采集模块,用于采集直播流数据,所述直播流数据包括画面数据与语音数据;
特征提取模块,用于从所述语音数据中获取目标语音特征;
人脸确定模块,用于在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像;
特写区域确定模块,用于在所述画面数据中确定包含所述目标人脸图像的特写区域;
推流模块,用于向推流服务器发送所述特写区域,所述推流服务器用于向观众客户端发送所述特写区域,所述观众客户端用于基于所述特写区域播放特写画面。
又一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如一方面所述的直播方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如一方面所述的直播方法。
又一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述直播方法。
本申请实施例提供的技术方案可以带来的有益效果至少包括:
通过在多人直播场景下,基于语音数据中的语音特征来确定正在说话的主播用户的人脸图像,并基于该人脸图像来确定特写区域,后续推流时将特写区域直接发送至推流服务器,由推流服务器转发至观众客户端,此时观众客户端能直接播放正在说话的主播用户的特写画面,该过程无需参与多人直播的主播用户调整摄像头,省去终端切换显示正在说话的主播用户的特写画面所需的人工操作,更加简单易行。
附图说明
图1是本申请一个实施例提供的实施环境的示意图;
图2是本申请一个实施例提供的直播方法的流程图;
图3是本申请一个实施例提供的显示特写画面的界面示意图;
图4是本申请一个实施例提供的在特写画面上层叠加显示完整直播画面的界面示意图;
图5是本申请一个实施例提供的直播装置的框图;
图6是本申请一个实施例示出的终端的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请一个实施例提供的实施环境的示意图。该实施环境包括:主播终端11、推流服务器12、观众终端13。
主播终端11安装有主播客户端,主播用户可以通过该直播客户端发起直播、发起直播对战、观看直播等等。主播终端11可以是智能手机、平板电脑、个人计算机(PersonalComputer,PC)等等。
在本申请实施例中,在多人直播场景下,主播终端11能自动识别正在说话的主播用户,并获取包含该主播用户的人脸图像的特写区域发送至推流服务器12,推流服务器12将接收到的特写区域转发至观众终端13,此时观众终端13自动切换正在说话的主播用户的特写画面。
推流服务器12用于接收主播终端11发送的直播流数据,并将直播流数据推送至其他终端(例如观众终端)。可选地,推流服务器12是上述直播类应用程序对应的后台服务器。推流服务器12可以是一台服务器,也可以是多台服务器组成的服务器集群,还可以是一个云计算服务中心。
观众终端13安装有观众客户端,观众用户可以通过该观众客户端观看直播等等。观众终端13可以是智能手机、平板电脑、个人计算机等等。
主播终端11与服务器12之间通过无线网络或有线网络建立通信连接。观众终端13与服务器12之间通过无线网络或有线网络建立通信连接。
上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是其它任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是本申请一个实施例提供的直播方法的流程图。该方法应用于图1中的主播终端,该方法包括:
步骤201,采集直播流数据。
直播流数据包括画面数据与语音数据。画面数据包括主播终端采集到的直播画面,其通常包括参与直播的主播用户图像,画面数据所包括的主播用户图像可以是一个或多个,在本申请实施例中,仅以主播用户图像存在多个为例进行讲解,也即,主播终端处于多人直播场景。语音数据由主播终端采集得到,其包括一个或多个主播用户的说话声音、背景音、播放的歌曲等等。
可选地,主播终端通过摄像组件采集画面数据,通过麦克风组件采集语音数据。该摄像组件与麦克风组件可以设置在主播终端内部,也可以独立于主播终端且与主播终端建立有通信连接。
需要说明的是,摄像组件的数量可以是一个,也可以是多个;麦克风组件的数量可以是一个,也可以是多个。在一种可能的实现方式中,主播终端通过一个摄像组件采集多个主播用户的画面数据,通过一个麦克风组件采集多个主播用户的语音数据。在另一种可能的实现方式中,主播终端通过不同摄像组件采集不同主播用户的画面数据,通过不同麦克风组件采集不同主播用户的语音数据。该种实现方式能够支持远程多人直播场景。
步骤202,从语音数据中获取目标语音特征。
语音特征包括音色特征,音色特征是指在不同声音表现在波形方面总有与众不同的特性,因此音色特征可用于唯一标识发声的主播用户。
提取目标语音特征所采用的算法包括且不限于:线性预测系数(LinearPredicTIon Coefficients,LPC)、线性预测倒谱系数(Linear Predic TIve CepstralCoefficient.s,LPCC)、线谱频率((Linear Spectrum Frequency,LSF)、离散小波变换(wavelet transform,WT)等。
可选地,每个音色特征对应有音量,音量也称为响度,是指人耳对声音强弱的主观感受。目标语音特征可以是一个,也可以是多个。若主播终端从语音数据中提取出一个语音特征,则该语音特征也即是目标语音特征。若主播终端从语音数据中提取出多个语音特征,则将语音特征对应的音量特征符合预设条件的语音特征确定为目标语音特征。
预设条件包括音量特征大于第二阈值,和/或,音量特征排在前n位,n为正整数。第二阈值以及n的取值由主播终端默认设定,或者,由主播用户自定义设定。示例性地,第二阈值为20宋(Sone),n的取值为1,也即主播终端将音量特征最大且大于20宋的语音特征确定为目标语音特征。
在其它可能的实现方式中,主播终端通过特征提取模型从语音数据中提取语音特征并确定出目标语音特征。特征提取模型是采用样本语音数据对卷积神经网络进行训练得到的。可选地,卷积神经网络可采用alexNet网络、VGG-16网络、GoogleNet网络、DeepResidual Learning(深度残差学习)网络等等,本申请实施例对此不作限定。另外,训练CNN得到特诊提取模型时所采用的算法可以是BP(Back-Propagation,反向传播算法)、fasterRCNN(Regions with Convolutional Neural Network,区域卷积神经网络)算法等,本申请实施例对此不作限定。
步骤203,在画面数据中确定与目标语音特征匹配的目标人脸图像。
主播终端在确定出目标语音特征后,确定与该目标语音特征相匹配的目标人脸图像,以确定发声的主播用户。
可选地,步骤203实现为:
步骤203a,对至少两个人脸图像分别进行特征提取,得到至少两个人脸图像分别对应的人脸特征。
步骤203b,获取目标语音特征对应的人脸特征。
可选地,主播终端从预设对应关系中查找目标语音特征对应的人脸特征,预设对应关系包括不同语音特征与不同人脸特征之间的对应关系。
在一种可能的实现方式中,多人直播开始前,参与多人直播的主播用户在主播终端录入脸部图像与声音信息,主播终端提取出人脸特征与语音特征并对应存储,得到预设对应关系。该种实现方式中,预设对应关系仅包括参与多人直播的主播用户的语音特征与人脸特征之间的对应关系,后续进行特征匹配时更加简单便捷,提高特征匹配的效率。
在另一种可能的实现方式中,主播终端在检测到画面数据中存在一个人脸图像的嘴部区域处于运动状态,则从画面数据中获取语音特征与人脸特征,将语音特征与人脸特征对应存储,得到预设对应关系。在其它可能的实现方式中,主播终端在主播用户的历史直播数据中提取人脸特征与语音特征并对应存储,得到预设对应关系。在上述两种实现方式中,主播终端自主学习主播用户的人脸特征与语音特征,无需主播用户主动录入,节省多人直播的准备时间。
步骤203c,若目标语音特征对应的人脸特征,与人脸图像对应的人脸特征相似度大于第一阈值,则将人脸图像确定为与目标语音特征匹配的目标人脸图像。
第一阈值由主播终端默认设定,或者,由主播用户自定义设定。示例性地,预设阈值为80%。
主播终端获取目标语音特征对应的人脸特征后,将其与提取到的特征逐一比对,若二者之间的相似度大于第一阈值,则该提取出的人脸特征对应的人脸图像确定为目标人脸图像。
步骤204,在画面数据中确定包含目标人脸图像的特写区域。
可选地,步骤204包括如下子步骤:
步骤204a,基于目标人脸图像的尺寸信息确定特写区域的尺寸信息。
可选地,主播终端获取包括目标人脸图像的最小矩形区域的长度与宽度,之后确定特写区域的长度为上述最小矩形区域的长度的p倍,确定特写区域的宽度为上述最小矩形区域的宽度的q倍。P与q均大于1,其由主播终端默认设定,或者,由主播用户自定义设定。
步骤204b,基于目标人脸图像的位置信息确定特写区域的位置信息。
特写区域用于突出显示目标人脸图像,目标人脸图像在特写区域的占比大于预设比例阈值,预设比例阈值根据实际经验设定,本申请实施例对此不作限定,示例性地,预设比例阈值为70%。
由于特写区域包含目标人脸图像,因此目标人脸图像的位置信息可以基于特写区域的位置信息确定。在一种可能的实现方式中,主播终端将目标人脸图像的中心位置确定为特写区域的中心位置。在另一种可能的实现方式中,主播终端确定目标人脸图像的至少一个边缘坐标,基于上述至少一个边缘坐标来确定特写区域的边缘坐标。
步骤204c,基于尺寸信息与位置信息确定特写区域。
特写区域的尺寸信息与位置信息确定后,特写区域也相应确定。
在上文实施例中提到,目标语音特征存在一个或多个,当目标语音特征存在多个时,与目标语音特征匹配的目标人脸图像也存在多个,此时需要确定出的特写区域可以是一个,也可以是多个。也即,一个特写区域包括多个不同的目标人脸图像,或者,一个特写区域包括一个目标人脸图像。
基于目标人脸图像来确定特写区域,目标人脸图像移动时,特写区域也相应移动,更加智能,避免声音画面不同步的情况发生。
步骤205,向推流服务器发送特写区域。
推流服务器用于向观众客户端发送特写区域,观众客户端用于基于特写区域播放特写画面。可选地,主播终端向推流服务器发送特写区域的同时,将特写区域对应的特写画面的尺寸信息也发送至推流服务器,并由推流服务器发送至观众客户端。上述特写画面的尺寸信息与观众客户端的直播窗口适配,也即,观众客户端在直播窗口内全屏播放特写画面。
参考图3,主播终端显示完整直播画面31,此时主播用户A说话,主播终端切换显示主播用户A的特写画面32。
在其他可能的实现方式中,主播终端向推流服务器发送通知消息,该通知消息用于指示目标人脸图像,该通知消息包括目标人脸图像的位置信息,推流服务器向观众客户端转发该通知消息,观众客户端基于该通知消息突出显示目标人脸图像,比如将目标人脸图像设置大头特效等。
可选地,主播终端还向推流服务器发送画面数据。推流服务器用于向观众客户端发送画面数据,观众客户端用于基于画面数据在特写画面上层叠加播放完整直播画面。可选地,观众客户端在特写画面的背景区域叠加显示完整直播画面,也即不包含人物图像的区域。其中,完整直播画面的尺寸小于特写画面的尺寸。通过上述方式,观众用户既能查看到发声的主播用户的特写画面,也能查看完整直播画面。在其他可能的实现方式中,主播终端通过两个窗口分别显示特写画面和完整直播画面,上述两个窗口的位置不作限定。可选地,用于显示特写画面的窗口尺寸大于用于显示完整直播画面的窗口尺寸。
参考图4,主播终端显示在主播用户A的特写画面41上叠加显示完整直播画面42。
综上所述,本申请实施例提供的技术方案,通过在多人直播场景下,基于语音数据中的语音特征来确定正在说话的主播用户的人脸图像,并基于该人脸图像来确定特写区域,后续推流时将特写区域直接发送至推流服务器,由推流服务器转发至观众客户端,此时观众客户端能直接播放正在说话的主播用户的特写画面,该过程无需参与多人直播的主播用户调整摄像头,省去终端切换显示正在说话的主播用户的特写画面所需的人工操作,更加简单易行。
在一种可能的实现方式中,若多人直播场景下,存在多个主播用户同时说话,此时不执行后续步骤。在基于图2实施例提供的可选实施例中,在步骤203之前,该直播方法还包括如下步骤:获取语音数据包括的语音特征的数量。
若语音数据包括的语音特征的数量小于第三阈值,则执行后续步骤203-205。若语音数据包括的语音特征的数量小于第三阈值,则不执行后续步骤203-205,而是向推流服务器发送画面数据。推流服务器用于向观众客户端发送画面数据,观众客户端基于接收到的画面数据播放完整直播画面。
第三阈值由主播终端默认设定,或者,由主播用户自定义设定。示例性地,第三阈值为3,也即,在多人直播场景下,若同时说话的主播用户存在3个或3个以上,主播终端不会获取特写区域,而是直接向推流终端发送画面数据,观众终端基于接收到的画面数据播放完整直播画面而并非特写画面。通过上述方式,实现在较多主播用户同时说话时不切换特写画面。
在一种可能的实现方式中,主播终端在特写功能处于打开状态的情况下,自动切换当前说话的主播用户的特写画面。特写功能是指在播放目标用户的语音数据时播放目标用户对应的特写画面的功能。
在基于图2所示实施例提供的可选实施例中,在步骤202之前,该直播方法还包括如下步骤:
步骤501,获取特写功能的开启指示。
开启指示由于指示特写功能切换至打开状态。
在一种可能的实现方式中,主播终端显示有特写功能控件,特写功能处于关闭状态时,若接收到对应于特写功能控件的触发信号,则获取到特写功能的开启指示。上述触发信号为单击操作信号、双击操作信号、长按操作信号、滑动操作信号、拖动操作信号中的任意一种。
在另一种可能的实现方式中,主播终端获取到指定语音指令后,获取到特写功能的开启指示。指定语音指令由主播用户自定义设置,或者,由主播终端默认设置。示例性地,指定语音指令为“打开特写功能”。
在另一种可能的实现方式中,主播终端获取到指定手势后,获取到特写功能的开启指示。指定手势由主播用户自定义设置,或者,由主播终端默认设置。
步骤502,基于开启指示将特写功能由关闭状态切换至打开状态。
可选地,在步骤502之前,主播终端检测触发开启指示的主播用户是否具有特写功能的打开权限。
若触发开启指示的主播用户具有打开权限,则执行基于开启指示将特写功能由关闭状态切换至打开状态的步骤。若触发开启指示的主播用户不具有打开权限,则不执行基于开启指示将特写功能由关闭状态切换至打开状态的步骤。
结合上述可能的实现方式,当主播终端在接收到对应于特写功能控件的触发信号后获取打开指示时,主播终端显示验证界面,验证界面用于供主播用户输入验证信息,比如密码等,若验证信息正确,则触发开启指示的主播用户具有打开权限。当主播终端在获取到指定语音指令后获取打开指示时,主播终端从指定语音指令中提取语音特征,并与具有打开权限的用户的语音特征进行匹配,若二者匹配,则触发开启指示的主播用户具有打开权限。当主播终端在获取到指定手势后获取打开指示时,主播终端从画面数据中获取摆出指定手势的主播用户的人脸特征,并与具有打开权限的用户的人脸特征进行匹配,若二者匹配,则触发开启指示的主播用户具有打开权限。
在其他可能的实现方式中,若主播终端检测到处于多人直播场景时,自动将特写功能切换至打开状态。
综上所述,本申请实施例提供的技术方案,还通过在打开特写功能后执行后续步骤,主播用户根据自身需求打开或关闭特写功能,从而实现对特写功能的管理。
以下为本申请装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图5,其示出了本申请一个示例性实施例提供的直播装置的框图。该直播装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。
该直播装置包括:
数据采集模块501,用于采集直播流数据,所述直播流数据包括画面数据与语音数据。
特征提取模块502,用于从所述语音数据中获取目标语音特征。
人脸确定模块503,用于在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像。
特写区域确定模块504,用于在所述画面数据中确定包含所述目标人脸图像的特写区域。
推流模块505,用于向推流服务器发送所述特写区域,所述推流服务器用于向观众客户端发送所述特写区域,所述观众客户端用于基于所述特写区域播放特写画面。
综上所述,本申请实施例提供的技术方案,通过在多人直播场景下,基于语音数据中的语音特征来确定正在说话的主播用户的人脸图像,并基于该人脸图像来确定特写区域,后续推流时将特写区域直接发送至推流服务器,由推流服务器转发至观众客户端,此时观众客户端能直接播放正在说话的主播用户的特写画面,该过程无需参与多人直播的主播用户调整摄像头,省去终端切换显示正在说话的主播用户的特写画面所需的人工操作,更加简单易行。
在基于图5所示实施例提供的可选实施例中,所述人脸确定模块503,用于:
对所述画面数据中人脸图像分别进行特征提取,得到所述人脸图像对应的人脸特征;
获取所述目标语音特征对应的人脸特征;
若所述目标语音特征对应的人脸特征,与所述人脸图像对应的人脸特征相似度大于第一阈值,则将所述人脸图像确定为与所述目标语音特征匹配的目标人脸图像。
可选地,所述人脸确定模块503,用于:从预设对应关系中查找所述目标语音特征对应的人脸特征,所述预设对应关系包括不同语音特征与不同人脸特征之间的对应关系。
可选地,所述装置还包括:预设对应关系生成模块(图5未示出)。
预设对应关系生成模块,用于:
若检测到所述画面数据中存在一个人脸图像的嘴部区域处于运动状态,则从所述画面数据中获取语音特征与人脸特征;
将所述语音特征与所述人脸特征对应存储,得到所述预设对应关系。
在基于图5所示实施例提供的可选实施例中,所述特写区域确定模块504,用于:
基于所述目标人脸图像的尺寸信息确定所述特写区域的尺寸信息;
基于所述目标人脸图像的位置信息确定所述特写区域的位置信息;
基于所述尺寸信息与所述位置信息确定所述特写区域。
在基于图5所示实施例提供的可选实施例中,所述推流模块505,还用于:
向所述推流服务器发送所述画面数据,所述推流服务器用于向所述观众客户端发送所述画面数据,所述观众客户端用于基于所述画面数据在所述特写画面上层叠加播放完整直播画面,其中,所述完整直播画面的尺寸小于所述特写画面的尺寸。
在基于图5所示实施例提供的可选实施例中,所述特征提取模块502,用于:
若所述语音数据包含的语音特征的数量为至少两个,则将所述语音特征对应的音量符合预设条件的语音特征确定为所述目标语音特征;
所述预设条件包括:所述音量大于第二阈值;和/或,所述音量排在前n位,所述n为正整数。
在基于图5所示实施例提供的可选实施例中,所述装置还包括:数量获取模块(图5未示出)。
数量获取模块,用于获取所述语音数据包括的语音特征的数量。
特征提取模块502,用于若所述数量小于第三阈值,则执行所述从所述语音数据中获取目标语音特征的步骤。
所述推流模块505,还用于若所述数量大于第三阈值,则向所述推流服务器发送所述画面数据,所述推流服务器用于向观众客户端发送所述画面数据,所述观众客户端用于基于所述画面数据播放完整直播画面。
在基于图5所示实施例提供的可选实施例中,所述装置还包括:特写功能打开模块(图5未示出)。
特写功能打开模块,用于:
获取特写功能的开启指示,所述特写功能是指在播放目标用户的语音数据时播放所述目标用户对应的特写画面的功能;
基于所述开启指示将所述特写功能由关闭状态切换至打开状态。
可选地,所述特写功能打开模块,还用于:
检测触发所述开启指示的主播用户是否具有所述特写功能的打开权限;
若所述触发所述开启指示的主播用户具有所述打开权限,则执行所述基于所述开启指示将所述特写功能由关闭状态切换至打开状态的步骤。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是:智能手机、平板电脑、MP3播放器、MP4播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、6核心处理器等。处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储计算机程序,该计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的直播方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由终端的处理器加载并执行以实现上述方法实施例中的直播方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面或者一方面的各种可选实现方式中提供的直播方法。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种直播方法,其特征在于,应用于主播客户端,所述方法包括:
采集直播流数据,所述直播流数据包括画面数据与语音数据;
从所述语音数据中获取目标语音特征;
在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像;
在所述画面数据中确定包含所述目标人脸图像的特写区域;
向推流服务器发送所述特写区域,所述推流服务器用于向观众客户端发送所述特写区域,所述观众客户端用于基于所述特写区域播放特写画面。
2.根据权利要求1所述的方法,其特征在于,所述在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像,包括:
对所述画面数据中人脸图像分别进行特征提取,得到所述人脸图像对应的人脸特征;
获取所述目标语音特征对应的人脸特征;
若所述目标语音特征对应的人脸特征,与所述人脸图像对应的人脸特征相似度大于第一阈值,则将所述人脸图像确定为与所述目标语音特征匹配的目标人脸图像。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标语音特征对应的人脸特征,包括:
从预设对应关系中查找所述目标语音特征对应的人脸特征,所述预设对应关系包括不同语音特征与不同人脸特征之间的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述从预设对应关系中查找所述目标语音特征对应的人脸特征之前,还包括:
若检测到所述画面数据中存在一个人脸图像的嘴部区域处于运动状态,则从所述画面数据中获取语音特征与人脸特征;
将所述语音特征与所述人脸特征对应存储,得到所述预设对应关系。
5.根据权利要求1所述的方法,其特征在于,所述在所述画面数据中确定包含所述目标人脸图像的特写区域,包括:
基于所述目标人脸图像的尺寸信息确定所述特写区域的尺寸信息;
基于所述目标人脸图像的位置信息确定所述特写区域的位置信息;
基于所述尺寸信息与所述位置信息确定所述特写区域。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述推流服务器发送所述画面数据,所述推流服务器用于向所述观众客户端发送所述画面数据,所述观众客户端用于基于所述画面数据在所述特写画面上层叠加播放完整直播画面,其中,所述完整直播画面的尺寸小于所述特写画面的尺寸。
7.根据权利要求1所述的方法,其特征在于,所述从所述语音数据中获取目标语音特征,包括:
若所述语音数据包含的语音特征的数量为至少两个,则将所述语音特征对应的音量符合预设条件的语音特征确定为所述目标语音特征;
所述预设条件包括:所述音量大于第二阈值;和/或,所述音量排在前n位,所述n为正整数。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述从所述语音数据中获取目标语音特征之后,还包括:
获取所述语音数据包括的语音特征的数量;
若所述数量小于第三阈值,则执行所述从所述语音数据中获取目标语音特征的步骤;
若所述数量大于第三阈值,则向所述推流服务器发送所述画面数据,所述推流服务器用于向观众客户端发送所述画面数据,所述观众客户端用于基于所述画面数据播放完整直播画面。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述从所述语音数据中获取目标语音特征之前,还包括:
获取特写功能的开启指示,所述特写功能是指在播放目标用户的语音数据时播放所述目标用户对应的特写画面的功能;
基于所述开启指示将所述特写功能由关闭状态切换至打开状态。
10.根据权利要求9所述的方法,其特征在于,所述获取特写功能的开启指示后,还包括:
检测触发所述开启指示的主播用户是否具有所述特写功能的打开权限;
若所述触发所述开启指示的主播用户具有所述打开权限,则执行所述基于所述开启指示将所述特写功能由关闭状态切换至打开状态的步骤。
11.一种直播装置,其特征在于,所述装置包括:
数据采集模块,用于采集直播流数据,所述直播流数据包括画面数据与语音数据;
特征提取模块,用于从所述语音数据中获取目标语音特征;
人脸确定模块,用于在所述画面数据中确定与所述目标语音特征匹配的目标人脸图像;
特写区域确定模块,用于在所述画面数据中确定包含所述目标人脸图像的特写区域;
推流模块,用于向推流服务器发送所述特写区域,所述推流服务器用于向观众客户端发送所述特写区域,所述观众客户端用于基于所述特写区域播放特写画面。
12.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行如权利要求1至10任一项所述的直播方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的直播方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554161.5A CN113301372A (zh) | 2021-05-20 | 2021-05-20 | 直播方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554161.5A CN113301372A (zh) | 2021-05-20 | 2021-05-20 | 直播方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113301372A true CN113301372A (zh) | 2021-08-24 |
Family
ID=77323530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554161.5A Pending CN113301372A (zh) | 2021-05-20 | 2021-05-20 | 直播方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113301372A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114401417A (zh) * | 2022-01-28 | 2022-04-26 | 广州方硅信息技术有限公司 | 直播流对象跟踪方法及其装置、设备、介质 |
CN114679591A (zh) * | 2021-12-30 | 2022-06-28 | 广州方硅信息技术有限公司 | 直播间的视频比例切换方法、装置、介质以及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036432A (zh) * | 2018-07-27 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种连麦方法、装置、设备及存储介质 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN110062200A (zh) * | 2018-01-19 | 2019-07-26 | 浙江宇视科技有限公司 | 视频监控方法、装置、网络摄像机及存储介质 |
CN111326175A (zh) * | 2020-02-18 | 2020-06-23 | 维沃移动通信有限公司 | 一种对话者的提示方法及穿戴设备 |
CN111586341A (zh) * | 2020-05-20 | 2020-08-25 | 深圳随锐云网科技有限公司 | 一种视频会议拍摄装置拍摄方法和画面显示方法 |
CN112487246A (zh) * | 2020-11-30 | 2021-03-12 | 深圳卡多希科技有限公司 | 一种多人视频中发言人的识别方法和装置 |
-
2021
- 2021-05-20 CN CN202110554161.5A patent/CN113301372A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110062200A (zh) * | 2018-01-19 | 2019-07-26 | 浙江宇视科技有限公司 | 视频监控方法、装置、网络摄像机及存储介质 |
CN109036432A (zh) * | 2018-07-27 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种连麦方法、装置、设备及存储介质 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN111326175A (zh) * | 2020-02-18 | 2020-06-23 | 维沃移动通信有限公司 | 一种对话者的提示方法及穿戴设备 |
CN111586341A (zh) * | 2020-05-20 | 2020-08-25 | 深圳随锐云网科技有限公司 | 一种视频会议拍摄装置拍摄方法和画面显示方法 |
CN112487246A (zh) * | 2020-11-30 | 2021-03-12 | 深圳卡多希科技有限公司 | 一种多人视频中发言人的识别方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114679591A (zh) * | 2021-12-30 | 2022-06-28 | 广州方硅信息技术有限公司 | 直播间的视频比例切换方法、装置、介质以及计算机设备 |
CN114401417A (zh) * | 2022-01-28 | 2022-04-26 | 广州方硅信息技术有限公司 | 直播流对象跟踪方法及其装置、设备、介质 |
CN114401417B (zh) * | 2022-01-28 | 2024-02-06 | 广州方硅信息技术有限公司 | 直播流对象跟踪方法及其装置、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110446115B (zh) | 直播互动方法、装置、电子设备及存储介质 | |
US10514881B2 (en) | Information processing device, information processing method, and program | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
US8447065B2 (en) | Method of facial image reproduction and related device | |
EP4099709A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN107871494B (zh) | 一种语音合成的方法、装置及电子设备 | |
US10783884B2 (en) | Electronic device-awakening method and apparatus, device and computer-readable storage medium | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2022089224A1 (zh) | 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111954063B (zh) | 视频直播间的内容显示控制方法及装置 | |
CN113301372A (zh) | 直播方法、装置、终端及存储介质 | |
WO2021114808A1 (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN111368127B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111179923B (zh) | 一种基于可穿戴设备的音频播放方法及可穿戴设备 | |
CN112653902A (zh) | 说话人识别方法、装置及电子设备 | |
EP4300431A1 (en) | Action processing method and apparatus for virtual object, and storage medium | |
CN115691544A (zh) | 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备 | |
CN108903521B (zh) | 一种应用于智能画框的人机交互方法、智能画框 | |
CN112188228A (zh) | 直播方法及装置、计算机可读存储介质和电子设备 | |
CN113313797A (zh) | 虚拟形象驱动方法、装置、电子设备和可读存储介质 | |
CN110337041B (zh) | 视频播放方法、装置、计算机设备及存储介质 | |
CN113284500B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN113422866B (zh) | 音量调节方法、装置、存储介质及电子设备 | |
CN110324653A (zh) | 游戏互动交互方法及系统、电子设备及具有存储功能的装置 | |
US20210082405A1 (en) | Method for Location Reminder and Electronic Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |
|
RJ01 | Rejection of invention patent application after publication |