CN114666457A

CN114666457A - 一种视音频节目的导播方法、装置、设备、系统及介质

Info

Publication number: CN114666457A
Application number: CN202210291291.9A
Authority: CN
Inventors: 窦阳超; 石业瀚; 刘海鹏; 韩春
Original assignee: Huachuang Hi Tech Beijing Technology Co ltd
Current assignee: Huachuang Hi Tech Beijing Technology Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-24

Abstract

本申请实施例提供一种视音频节目的导播方法、装置、设备、系统及介质，该方法包括：获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频类节目中人物的行为；根据所述人物特征完成对所述视音频节目的导播。通过本申请的一些实施例能够实现视音频节目的自动导播，降低了人工成本，同时能够提升节目导播质量。

Description

一种视音频节目的导播方法、装置、设备、系统及介质

技术领域

本申请实施例涉及节目导播领域，具体涉及一种视音频节目的导播方法、装置、设备、系统及介质。

背景技术

相关技术中，视音频节目的制作和播出需要专业的导播系统和工作人员。例如，视频节目导播需要通过切换画面来完成节目的播出，具体地节目导播过程通常需要依赖工作人员手工切换画面或者视音频采集设备，导致增加了制作成本，降低了导播效率。

为了解决上述问题，相关技术中采用预先制作分镜脚本的方法来实现节目导播，由于预先制作脚本需要提前明确节目名单以及演员人数等信息，所以只能应用于单一的节目，或者，根据声源位置引导镜头拍摄，但均缺乏灵活性，不能实现视音频节目的全自动导播。

因此，如何提升视音频节目导播的灵活性成为需要解决的问题。

发明内容

本申请实施例提供一种视音频节目的导播方法、装置、设备、系统及介质，通过本申请的一些实施例至少能够实现自动对视音频节目进行导播，同时提升导播过程中的灵活性。

第一方面，本申请提供了一种视音频节目的导播方法，所述导播方法包括：获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频类节目中人物的行为；根据所述人物特征完成对所述视音频节目的导播。

因此，区别于相关技术中使用预设脚本进行节目导播，本申请实施例通过至少一个神经网络模型获取多个待导播数据中的人物特征能够实现视音频节目的自动导播，降低了人工成本，提升节目导播质量，同时，由于本申请无需预设脚本，因此提升了导播的灵活性。

结合第一方面，在本申请的一种实施方式中，所述根据所述人物特征完成对所述视音频节目的导播，包括：根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据。

因此，本申请实施例通过根据人物特征控制视音频信号采集设备获取新的待导播数据，能够获得质量更好的待导播数据，从而提升导播质量和效率。

结合第一方面，在本申请的一种实施方式中，所述多个待导播数据为多帧图像，所述多帧图像中的至少一帧图像包括目标人物，所述至少一个神经网络模型包括行为跟踪网络；其中，所述通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，包括：将所述多帧图像输入所述行为跟踪网络；通过所述行为跟踪网络确定所述目标人物处于移动状态，其中，所述人物特征包括所述目标人物处于移动状态；所述根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据，包括：控制目标视音频信号采集设备对所述目标人物进行跟随拍摄，获取所述新的待导播数据。

因此，本申请实施例通过识别目标人物处于移动状态，控制目标视音频信号采集设备对目标人物进行跟踪拍摄，能够使目标人物始终保持在画面中间，从而提升导播质量。

结合第一方面，在本申请的一种实施方式中，所述至少一个神经网络模型包括人脸检测网络；其中，所述通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，包括：将所述多帧图像输入所述人脸检测网络；通过所述人脸检测网络确定所述目标人物的数量，其中，所述人物特征包括所述目标人物的数量；所述根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据，包括：控制目标视音频信号采集设备根据所述目标人物的数量，获取新的待导播数据。

因此，本申请实施例通过目标人物的数量，能够控制目标视音频信号采集设备的拍摄方式，从而能够是获取质量更高的新的待导播数据。

结合第一方面，在本申请的一种实施方式中，所述至少一个神经网络模型包括行为识别网络；其中，所述通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，包括：将所述多帧图像输入所述行为识别网络；通过所述行为识别网络确定所述目标人物的行为，其中，所述人物特征包括所述目标人物的行为；所述根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据，包括：控制目标视音频信号采集设备根据所述目标人物的行为，获取新的待导播数据。

因此，本申请实施例通过识别目标人物的行为，能够根据行为类型的不同，选择更适合该行为类型的目标视音频信号采集设备进行拍摄，从而能够提升导播质量。

结合第一方面，在本申请的一种实施方式中，所述多个待导播数据为多段音频数据，所述至少一个神经网络模型包括语义识别网络，其中，所述通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，包括：将所述多段音频数据输入所述语义识别网络；通过所述语义识别网络确定所述多段音频数据的语义，其中，所述人物特征包括所述多段音频数据的语义；所述根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据，包括：控制目标视音频信号采集设备根据所述语义，获取新的待导播数据。

因此，本申请实施例通过识别多段音频数据语义，能够对视音频节目中的每个节目类型进行识别，从而能够根据每个节目类型调整目标视音频信号采集设备的拍摄方式，从而能够提升导播的效率和质量。

结合第一方面，在本申请的一种实施方式中，所述根据所述人物特征完成对所述视音频节目的导播，包括：根据所述人物特征，确定所述多台视音频信号采集设备中各视音频信号采集设备所对应的权重；依据所述权重从所述多个待导播数据中选择目标待导播数据进行播出。

因此，本申请实施例通过从多个待导播数据中选择出目标待导播数据进行切换，能够防止同一待导播数据长时间播放，减小画面单调的情况，同时，还能够实现自动的切换画面，提升导播的灵活性，从而提升导播的效率和质量。

第二方面，本申请提供了一种视音频节目的导播装置，所述导播装置包括：数据获取模块，被配置为获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；特征识别模块，被配置为通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频类节目中人物的行为；导播模块，被配置为根据所述人物特征完成对所述视音频节目的导播。

结合第二方面，在本申请的一种实施方式中，所述导播模块还被配置为：根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据。

结合第二方面，在本申请的一种实施方式中，所述多个待导播数据为多帧图像，所述多帧图像中的至少一帧图像包括目标人物，所述至少一个神经网络模型包括行为跟踪网络；其中，所述特征识别模块还被配置为：将所述多帧图像输入所述行为跟踪网络；通过所述行为跟踪网络确定所述目标人物处于移动状态，其中，所述人物特征包括所述目标人物处于移动状态；所述导播模块还被配置为：控制目标视音频信号采集设备对所述目标人物进行跟随拍摄，获取所述新的待导播数据。

结合第二方面，在本申请的一种实施方式中，所述至少一个神经网络模型包括人脸检测网络；其中，所述特征识别模块还被配置为：将所述多帧图像输入所述人脸检测网络；通过所述人脸检测网络确定所述目标人物的数量，其中，所述人物特征包括所述目标人物的数量；所述导播模块还被配置为：控制目标视音频信号采集设备根据所述目标人物的数量，获取新的待导播数据。

结合第二方面，在本申请的一种实施方式中，所述至少一个神经网络模型包括行为识别网络；其中，所述特征识别模块还被配置为：将所述多帧图像输入所述行为识别网络；通过所述行为识别网络确定所述目标人物的行为，其中，所述人物特征包括所述目标人物的行为；所述导播模块还被配置为：控制目标视音频信号采集设备根据所述目标人物的行为，获取新的待导播数据。

结合第二方面，在本申请的一种实施方式中，所述多个待导播数据为多段音频数据，所述至少一个神经网络模型包括语义识别网络，其中，所述特征识别模块还被配置为：将所述多段音频数据输入所述语义识别网络；通过所述语义识别网络确定所述多段音频数据的语义，其中，所述人物特征包括所述多段音频数据的语义；所述导播模块还被配置为：控制目标视音频信号采集设备根据所述语义，获取新的待导播数据。

结合第二方面，在本申请的一种实施方式中，所述导播模块还被配置为：根据所述人物特征，确定所述多台视音频信号采集设备中各视音频信号采集设备所对应的权重；依据所述权重从所述多个待导播数据中选择目标待导播数据进行播出。

第三方面，本申请提供了一种视音频节目的导播系统，包括：多台视音频信号采集设备，被配置为采集视音频节目在制作过程中产生的多个待导播数据；导播服务器，被配置为获取所述多个待导播数据，并且基于所述多个待导播数据执行如第一方面任意实施例所述的方法，并且发送转换指令；切换设备，被配置为获取所述转换指令，并且根据所述转换指令选择目标待导播数据；发送所述目标待导播数据；客户终端，被配置为播放所述目标待导播数据。

第四方面，本申请提供了一种电子设备，包括：处理器、存储器和总线；所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如第一方面任意实施例所述的方法。

第五方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被执行时用于实现如第一方面任意实施例所述的方法。

附图说明

图1为本申请实施例示出的一种视音频节目的导播系统组成示意图；

图2为本申请实施例示出的一种视音频节目导播方法的流程图之一；

图3为本申请实施例示出的多个待导播数据的处理模块之一；

图4为本申请实施例示出的多个待导播数据的处理模块之二；

图5为本申请实施例示出的多个待导播数据的处理模块之三；

图6为本申请实施例示出的一种视音频节目导播方法的流程图之二；

图7为本申请实施例示出的一种视音频节目导播方法的流程图之三；

图8为本申请实施例示出的一种视音频节目导播装置组成框图；

图9为本申请实施例示出的一种电子设备组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护范围。

导播，顾名思义就是“指导播出”，常见于电视的戏剧节目、综艺节目、Live现场节目，及新闻播报、各类舞台剧与演唱会。在电视节目制作中，导播进行画面的切换和对采集设备进行控制的过程，一般用多台摄像机拍摄。这样制作完成后的节目具有多角度、多景别的特点，表现的更全面。

本申请实施例可以应用于对视音频节目进行导播的场景，为了改善背景技术中的问题，在本申请的一些实施例中，通过将多个待导播数据输入到至少一个神经网络模型中来提取人物特征，并根据人物特征完成对视音频节目的导播。例如：在本申请的一些实施例中，导播服务器至少被配置为：首先，将多个待导播数据分别输入到至少一个神经网络模型中，获得该多个待导播数据中的人物特征，然后，根据人物特征选择目标待导播数据进行播出。不难理解的是，通过本申请的实施例能够实现视音频节目的自动导播，降低人工成本，提升视音频节目的导播质量，同时，提升导播的灵活性。

需要说明的是，多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的。在本申请的一些实施例中，一个待导播数据包括一段音频信号。在本申请的另一些实施例中，一个待导播数据包括至少一帧图像。在本申请的再一些实施例中，一个待导播数据包括一段音频信号和与和该段音频同时采集的至少一帧图像。

下面结合附图详细描述本申请实施例中的方法步骤。

图1提供了本申请一些实施例中的一种视音频节目的导播系统组成示意图，该系统包括多台视频采集设备(图1仅示出了第一摄像机111和第二摄像机112)、多台音频采集设备(图1仅示出了第一话筒121和第二话筒122)、导播服务器130、切换设备140和客户终端150。

图1系统的工作过程如下：第一摄像机111和第二摄像机112用于采集节目在制作过程中产生的视频信号，第一话筒121和第二话筒用于采集节目在制作过程中产生的音频信号。导播服务器130获取上述视频信号和音频信号(即多个待导播数据)，之后通过至少一个神经网络获得多个待导播数据中的人物特征，根据人物特征向切换设备140发送转换指令。切换设备140按照该转换指令选择目标待导播数据，并且向客户终端150发送该目标待导播数据。客户终端150在接收目标待导播数据后播放。

在本申请的一些实施例中，上述视音频节目的导播系统包括的多台摄像机、多台话筒、导播服务器130、切换设备140和客户终端150通过同一个局域网进行连接。可以理解的是在本申请的另一些实施例中，客户端设备与其余的设备可以不位于同一局域网中。

需要说明的是，在本申请的一些实施例中也可以不包括话筒，而是由摄像头直接采集待导播的视音频数据。

与本申请实施例不同的是相关技术中，采用预先制作分镜脚本，之后在视音频节目制作的过程中，按照分镜脚本进行导播，由于预先制作脚本需要提前明确节目名单以及演员人数等信息，所以只能应用于单一的节目。或者，根据声源位置引导镜头进行拍摄，缺乏导播过程中的灵活性。而本申请的实施例是将采集的各种视音频数据输入至少一个神经网络模型获得的相应的人物特征，并至少根据人物特征实现对视音频节目自动且灵活导播，因此本申请的实施例并不需要像相关技术中按照预先设定的分镜脚本(这需要预先知道节目名单以及演员人数、镜头切换方式等信息)进行导播，从而提升了导播过程中的灵活性，提高了导播效率。

下面以导播服务器为例示例性阐述本申请一些实施例提供的一种视音频节目的导播方法。

至少为了解决背景技术中的问题，如图2所示，本申请一些实施例提供了一种视音频节目的导播方法，该方法包括：

S210，获取多个待导播数据。

也就是说，在多台摄像机和多台话筒(即多台视音频信号采集设备)采集视音频节目制作过程中产生的音频信号和视频信号之后，导播服务器通过有线或者无线网络获取该音频信号和视频信号(即多个待导播数据)。

S220，通过至少一个神经网络模型获取多个待导播数据中的人物特征。

也就是说，导播服务器在S210中获取多个待导播视频之后，通过多个功能模块(对应多个神经网络模型)，计算多个待导播视频中的人物特征。如图3所示，多个功能模块包括：视频处理模块310、音频处理模块320和综合评估模块330。如图4所示，视频处理模块310包括：跟踪模块311、人脸检测模块312和行为识别模块313。如图5所示，音频处理模块320包括声源判定模块321和语义识别模块322。

在本申请的一些实施例中，多个待导播数据为多帧图像，该多帧图像中的至少一帧图像包括目标人物，至少一帧神经网络模型包括行为跟踪网络。S220包括：将多帧图像输入行为跟踪网络，通过行为跟踪网络确定目标人物处于移动状态。

也就是说，在多帧图像中会包括目标人物，该目标人物为视音频节目中的主持人或者演员等。将多帧图像输入到视频处理模块310中，之后跟踪模块311中的行为跟踪网络对多帧图像进行识别，跟踪多帧图像中的目标人物，确定目标人物处于运动状态，即通过行为跟踪网络获得得到的人物特征为人物处于移动状态。

作为本申请一具体实施例，将多帧图像输入到行为跟踪网络中，直接能够输出目标人物处于静止状态或移动状态。也就是说，该行为跟踪网络为一个二分类模型。

作为本申请另一具体实施例，首先，将多帧图像输入到行为跟踪网络中，预测得到目标人物在下一帧的位置，然后，将目标人物在当前帧图像的位置与预测得到的下一帧的位置进行比较，若相差像素大于K个像素，则判断该目标人物为移动状态，若相差像素小于或等于K个像素，则判断该目标人物为静止状态。

需要说明的是，K为根据实际情况预先设置的像素个数，例如，10-100个像素。本申请实施例中可以对多台摄像机录制的每一帧图像执行该导播方法，也可以将多台摄像机录制的相隔帧图像执行该导播方法。本申请实施例不限于此。

可以理解的是，可以根据目标人物在下一帧的位置，控制相对应的摄像机进行跟随移动。

作为本申请一具体实施例，利用均值漂移算法(即Meanshift算法)，通过预测下一帧时的目标人物的位置和速度，实现目标人物在移动时的跟踪拍摄。本申请实施例中使用Meanshift算法的原因是，该算法使用便捷，能够实现实时主目标跟踪。

在本申请的一些实施例中，至少一个神经网络模型包括人脸检测网络，S220包括：将多帧图像输入人脸检测网络，通过人脸检测网络确定目标人物的数量，其中，人物特征包括目标人物的数量。

也就是说，在多帧图像中会包括目标人物，将多帧图像输入到视频处理模块310中，之后人脸检测模块312中的人脸检测网络对多帧图像进行计算，获得目标人物的数量。

例如，多帧图像中显示的是多个舞蹈演员(即目标人物)，人脸检测网络对多帧图像进行人脸检测之后，获得多帧图像中的多个舞蹈演员的个数为10个，即目标人物的数量为10个。例如，多帧图像中显示的是相声演员(即目标人物)，人脸检测网络对多帧图像进行人脸检测之后，获得多帧图像中的相声演员的个数为两个，即目标人物的数量为两个。

可以理解的是，在获得目标人物的数量之后可以通过目标人物的数量和目标人物在下一帧的位置，控制目标视音频信号采集设备进行跟随远景拍摄或者跟随近景拍摄。

在本申请的一些实施例中，至少一个神经网络模型包括行为识别网络，S220包括：将多帧图像输入行为识别网络，通过行为识别网络确定目标人物的行为。

也就是说，在多帧图像中会包括目标人物，将多帧图像输入到视频处理模块310中，之后行为识别模块313中的行为识别网络对多帧图像进行识别，获得目标人物的行为所对应的类型。

例如，多帧图像中显示的是戏曲演员(即目标人物)，行为识别网络对多帧图像进行行为识别之后，获得戏曲演员的行为所对应的类型为武打。再例如，多帧图像中显示的是歌手(即目标人物)，行为识别网络对多帧图像进行行为识别之后，获得歌手的行为所对应的类型为唱歌。

作为本申请一具体实施例，本申请采用卷积神经网络R(2+1)D模型进行行为识别，该模型是在C3D模型和R3D模型基础上演化而来。R(2+1)D属于混合卷积，用2D卷积和1D卷积来逼近3D卷积。本申请实施例中，选择R(2+1)D模型的原因为：一是两个子卷积之间多出来一个非线性操作，和原来同样参数量的3维卷积相比使用双倍的非线性操作，增强了网络的表达能力；二是时空分解让优化的过程也分解开来。相关技术中，3维时空卷积把空间信息和动态信息混合在一起，不容易优化。2+1维卷积更容易优化，损失更低。

可以理解的是，在获得目标人物的行为所对应的类型之后，可以通过目标人物的行为和目标人物的数量进行综合判断，以控制目标视音频信号采集设备。例如，目标人物的行为是武打，目标人物的数量为多个，则可以实现控制目标视音频信号采集设备先对目标人物进行近景拍摄，之后再对目标人物进行远景拍摄，同时还可以控制目标视音频信号采集设备对目标人物的武打动作进行跟随拍摄。另外，在切换画面时，可以先切换近景设备所对应的画面，再切换远景设备所对应的画面。

在本申请的一些实施例中，多个待导播数据为多段音频数据，S220包括：对多段音频数据进行声源判定，获得多段音频的音量和发送多段音频的位置。

也就是说，在视音频节目制作的过程中，多台话筒会获取目标人物产生的多段音频数据，在获取到多段音频数据之后，将多段音频数据输入到声源判定模块321，声源判定模块321中包括的音频处理模块320判断多段音频数据中各段音频数据的声音的音量和发声的位置。从而能够根据声音的音量和发生的位置，判断正在发声的目标人物。

例如，在视音频节目制作的过程中，在音频节目中包括目标人物A和目标人物B，话筒A采集目标人物A中发出的声音，获得一段音频数据A，话筒B采集目标人物B发出的声音，获得一段音频数据B。声源判定模块321判断音频数据A的音量大于音频数据B的音量，并且音频数据A是由目标人物A发出。

在本申请的一些实施例中，多个待导播数据为多段音频数据，至少一个神经网络模型包括语义识别网络，S220包括：将多段音频数据输入语义识别网络，通过语义识别网络确定多段音频数据的语义。

也就是说，在获取到多段音频数据之后，将多段音频数据输入到声源判定模块321，声源判定模块321中包括的语义识别模块322，语义识别模块322通过语义识别网络识别出多段音频数据所对应语义。之后再将获得的语义与预设词进行比对，挑选出与预设词相同的语义。

例如，将多段音频数据输入到语义识别网络中，获得的多段音频所对应的语义为“欢迎大家来到今天的节目现场，下面有请某某为我们到来一段精彩的相声表演”。之后，将上述语义与预设词进行对比，发现“相声”这个词与预设词相符，并且将其挑选出来。

需要说明的是，预设词是在导播服务器中预先设置的与导播相关的词语。例如，乐队、相声、舞蹈、戏曲等。

S230，根据人物特征完成对视音频节目的导播。

在本申请的一些实施例中，完成对视音频节目的导播为从多个待导播数据中选择目标待导播数据，并且通过客户终端播放该目标待导播数据。

具体的，在S220中，视频处理模块310和音频处理模块320获取多个待导播数据中的人物特征之后，在综合评估模块330中，根据人物特征确定多台视音频信号采集设备中各视音频信号采集设备所对应的权重，并且依据权重从多个待导播数据中选择目标待导播数据进行播出。

例如，在S220中获得目标人物处于移动状态，目标人物的数量为5个人，目标人物的行为是跳舞，则多台视音频信号采集设备中的远景设备所对应的权重最大，因此通过切换设备将画面切换到远景设备所对应的目标待导播数据，并且通过客户终端播放目标待导播数据。

作为本申请一具体实施例，在访谈类节目中，音频信号采集设备(即多台话筒)所占权重较大，在S220中识别到目标人物A所对应的音量较大，并且发生位置也为目标人物A，则通过切换设备将音频切换到目标人物A所对应的音频，并且通过客户终端播放该音频。

需要说明的是，目标待导播数据包括一个或多个被选中的待导播数据。

在本申请的另一些实施例中，完成对视音频节目的导播还包括控制视音频信号采集设备，采集质量更好的新的待导播数据。

也就是说，在S220中，视频处理模块310和音频处理模块320获取多个待导播数据中的人物特征之后，根据人物特征控制视音频信号采集设备获取新的待导播数据。分别为如下具体实施例：

作为本申请一具体实施例，在判断目标人物处于移动状态的情况下，控制目标视音频信号采集设备对目标人物进行跟踪拍摄，获取新的待导播数据。

也就是说，在目标人物处于移动状态下，控制可以进行跟随的采集设备(即目标视音频信号采集设备)跟随目标人物进行移动，以使目标人物能够始终保持在画面的中间位置，并且获得新的待导播数据。

需要说明的是，目标视音频信号采集设备可以是上一次获取该待导播数据的设备，也可以是重新分配的设备。上述新的待导播数据用于下一次对视音频节目的导播。

例如，在确认目标人物处于移动状态，并且目标人物在视音频信号采集设备所对应画面的中心点的距离(可以用像素点表示)，超过了预设距离，则控制目标视音频信号采集设备跟随目标人物移动相对应的距离，以使目标人物始终保持在画面中间，并且获得新的待导播数据。

作为本申请另一具体实施例，在判断目标人物的数量之后，控制目标视音频信号采集设备根据目标人物的数量，获取新的待导播数据。

例如，当判断目标人物的数量为一个或者两个的情况下，可以控制目标视音频信号采集设备为对目标人物进行近景拍摄。若判断目标人物的数量为多个的情况下(例如：8个)，则控制目标视音频信号采集设备为目标人物进行远景拍摄。

作为本申请另一具体实施例，在判断目标人物的行为之后，控制目标视频信号采集设备根据目标人物的行为，获取新的待导播数据。

例如，在判断目标人物的行为是唱歌、弹琴或主持时，控制目标视音频信号采集设备为对目标人物进行近景拍摄。在判断目标人物的数量为多个，并且在跳舞或者唱戏时，控制目标视音频信号采集设备为对目标人物进行远景拍摄。

需要说明的是，目标人物的行为与目标视音频信号采集设备的拍摄方式之间的匹配关系，需要预先通过对导播视频进行学习完成。

作为本申请另一具体实施例，在识别多段音频数据语义之后，控制目标视音频信号采集设备根据语义获取新的待导播数据。

例如，识别获得的多段音频数据语义为相声、独唱、独奏等，控制目标音频信号采集设备对目标人物进行近景拍摄。识别获得的多段音频数据语义为大合唱、合奏、交响乐等，控制音频信号采集设备对目标人物进行远景拍摄。

上文描述了本申请实施例中由导播服务器执行的一种视音频节目的导播方法，下文将描述本申请中视音频节目的导播方法的具体实施例。

如图6所示，本申请实施例中视音频节目的导播方法的具体实施例包括：S410，获取同一节目的音频数据和视频数据；S420，对识别视频数据的待训练神经网络模型进行训练，以及对识别音频数据的待训练神经网络模型进行训练；S430，获得至少一个神经网络模型。

也就是说，本申请实施例需要采集同一节目的音频数据和视频数据，并且将音频数据和视频数据分别添加标签，将音频数据和视频数据以及相对应的标签输入到待训练神经网络模型中，提取相对应的特征，形成与音频数据和视频数据相对应的至少一个神经网络模型。由于不同类型的视音频节目有不同的导播风格，不同的导播人员的导播风格也不尽相同，因此，本申请分别对不同类型的视音频节目进行大量的数据采集，并且进行训练，针对不同的类型节目产生不同导播风格的神经网络模型。

具体的，采集视音频节目制作的过程中现场的大量视音频数据，之后将视频数据进行行为识别、人脸检测、跟踪判断等处理，对音频数据进行声源定位和简单语音识别，重复上述过程，直至训练结束，获得至少一个神经网络模型，并且将其存储于导播服务器中。输出形成模式化导播行为，针对不同类型的演出训练形成对应的基本模式。

本申请实施例中一种视音频节目的导播方法的具体步骤如图7所示：

S510，开始。

S520，获取多台视音频信号采集录制的多个待导播数据。

也就是说，演出过程中多台视音频信号采集设备将多个待导播数据传输到导播服务器中。

S530，使用神经网络模型对多个待导播数据进行计算，获得人物特征，并且根据人物特征获得转换指令。

也就是说，通过预先训练完成的神经网络模型，计算出如何切换视音频信号采集设备的机位，并且使目标视音频信号采集设备完成镜头的推、拉、摇、移、跟等基本操作。

S540，将转换指令发送到转换设备，以使转换设备切换相对应的画面。

也就是说，导播服务器将转换指令发送到转换设备，转换设备根据转换指令组合输出相对应的画面。

S550，判断演出是否结束，若是，则执行S560结束，若否，则继续执行S520。

因此，本申请通过至少一个神经网络模型自动导播，使用演播室常用的视音频信号采集设备获取多个待导播数据，按照导播服务器中学习形成的至少一个神经网络模型自动完成导播工作，建立了一个能够应用于多种中小型演出场景、更加灵活方便的导播系统。减少了视音频节目制作播出所需要的人员成本、工作量，加强了中小型节目制作播出时的灵活性，并且应用场景相较于现有技术更加广泛，不仅局限于简单的新闻、访谈类节目，还能应用于演艺类等多种场景。

上文描述了本申请实施例中一种视音频节目的导播方法的具体实施例，下文将描述本申请实施例中一种视音频节目的导播装置。

如图8所示，一种视音频节目的导播装置600，包括：数据获取模块610、特征识别模块620和导播模块630。

本申请提供了一种视音频节目的导播装置600，所述导播装置包括：数据获取模块610，被配置为获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；特征识别模块620，被配置为通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频类节目中人物的行为；导播模块630，被配置为根据所述人物特征完成对所述视音频节目的导播。

在本申请的一种实施方式中，所述导播模块630还被配置为：根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据。

在本申请的一种实施方式中，所述多个待导播数据为多帧图像，所述多帧图像中的至少一帧图像包括目标人物，所述至少一个神经网络模型包括行为跟踪网络；其中，所述特征识别模块620还被配置为：将所述多帧图像输入所述行为跟踪网络；通过所述行为跟踪网络确定所述目标人物处于移动状态，其中，所述人物特征包括所述目标人物处于移动状态；所述导播模块630还被配置为：控制目标视音频信号采集设备对所述目标人物进行跟随拍摄，获取所述新的待导播数据。

在本申请的一种实施方式中，所述至少一个神经网络模型包括人脸检测网络；其中，所述特征识别模块620还被配置为：将所述多帧图像输入所述人脸检测网络；通过所述人脸检测网络确定所述目标人物的数量，其中，所述人物特征包括所述目标人物的数量；所述导播模块630还被配置为：控制目标视音频信号采集设备根据所述目标人物的数量，获取新的待导播数据。

在本申请的一种实施方式中，所述至少一个神经网络模型包括行为识别网络；其中，所述特征识别模块620还被配置为：将所述多帧图像输入所述行为识别网络；通过所述行为识别网络确定所述目标人物的行为，其中，所述人物特征包括所述目标人物的行为；所述导播模块630还被配置为：控制目标视音频信号采集设备根据所述目标人物的行为，获取新的待导播数据。

在本申请的一种实施方式中，所述多个待导播数据为多段音频数据，所述至少一个神经网络模型包括语义识别网络，其中，所述特征识别模块620还被配置为：将所述多段音频数据输入所述语义识别网络；通过所述语义识别网络确定所述多段音频数据的语义，其中，所述人物特征包括所述多段音频数据的语义；所述导播模块630还被配置为：控制目标视音频信号采集设备根据所述语义，获取新的待导播数据。

在本申请的一种实施方式中，所述导播模块630还被配置为：根据所述人物特征，确定所述多台视音频信号采集设备中各视音频信号采集设备所对应的权重；依据所述权重从所述多个待导播数据中选择目标待导播数据进行播出。

在本申请实施例中，图8所示模块能够实现图1至图7方法实施例中的各个过程。图8中的各个模块的操作和/或功能，分别为了实现图1至图7中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

如图9所示，本申请实施例提供一种电子设备700，包括：处理器710、存储器720和总线730，所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如上述所有实施例中任一项所述的方法，具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

其中，总线用于实现这些组件直接的连接通信。其中，本申请实施例中处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，可以执行上述实施例中所述的方法。

可以理解，图9所示的结构仅为示意，还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法，具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视音频节目的导播方法，其特征在于，所述导播方法包括：

获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；

通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频节目中人物的行为；

根据所述人物特征完成对所述视音频节目的导播。

2.根据权利要求1所述的方法，其特征在于，所述根据所述人物特征完成对所述视音频节目的导播，包括：

根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据。

3.根据权利要求2所述的方法，其特征在于，所述多个待导播数据为多帧图像，所述多帧图像中的至少一帧图像包括目标人物，所述至少一个神经网络模型包括行为跟踪网络；其中，

所述通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，包括：

将所述多帧图像输入所述行为跟踪网络；

通过所述行为跟踪网络确定所述目标人物处于移动状态，其中，所述人物特征包括所述目标人物处于移动状态；

所述根据所述人物特征控制所述视音频信号采集设备获取新的待导播数据，包括：

控制目标视音频信号采集设备对所述目标人物进行跟随拍摄，获取所述新的待导播数据。

4.根据权利要求3所述的方法，其特征在于，所述至少一个神经网络模型包括人脸检测网络；其中，

将所述多帧图像输入所述人脸检测网络；

通过所述人脸检测网络确定所述目标人物的数量，其中，所述人物特征包括所述目标人物的数量；

控制目标视音频信号采集设备根据所述目标人物的数量，获取新的待导播数据。

5.根据权利要求4所述的方法，其特征在于，所述至少一个神经网络模型包括行为识别网络；其中，

将所述多帧图像输入所述行为识别网络；

通过所述行为识别网络确定所述目标人物的行为，其中，所述人物特征包括所述目标人物的行为；

控制目标视音频信号采集设备根据所述目标人物的行为，获取新的待导播数据。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述多个待导播数据为多段音频数据，所述至少一个神经网络模型包括语义识别网络，其中，

将所述多段音频数据输入所述语义识别网络；

通过所述语义识别网络确定所述多段音频数据的语义，其中，所述人物特征包括所述多段音频数据的语义；

控制目标视音频信号采集设备根据所述语义，获取新的待导播数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述人物特征完成对所述视音频节目的导播，包括：

根据所述人物特征，确定所述多台视音频信号采集设备中各视音频信号采集设备所对应的权重；

依据所述权重从所述多个待导播数据中选择目标待导播数据进行播出。

8.一种视音频节目的导播系统，其特征在于，包括：

多台视音频信号采集设备，被配置为采集视音频节目在制作过程中产生的多个待导播数据；

导播服务器，被配置为获取所述多个待导播数据，并且基于所述多个待导播数据执行如权利要求1-7任一项所述的方法，并且发送转换指令；

切换设备，被配置为：

获取所述转换指令；

根据所述转换指令选择目标待导播数据；以及

发送所述目标待导播数据；以及

客户终端，被配置为接收并播放所述目标待导播数据。

9.一种视音频节目的导播装置，其特征在于，所述导播装置包括：

数据获取模块，被配置为获取多个待导播数据，其中，所述多个待导播数据是在视音频节目制作过程中由多台视音频信号采集设备获得的，一个待导播数据包括一段音频信号和/或至少一帧图像；

特征识别模块，被配置为通过至少一个神经网络模型获取所述多个待导播数据中的人物特征，其中，所述人物特征至少用于表征所述视音频类节目中人物的行为；

导播模块，被配置为根据所述人物特征完成对所述视音频节目的导播。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线；

所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如权利要求1-8任一项所述方法。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被执行时实现如权利要求1-8任一项所述方法。