CN116847112A

CN116847112A - 直播一体机、虚拟主播直播方法及相关装置

Info

Publication number: CN116847112A
Application number: CN202310628967.3A
Authority: CN
Inventors: 柴金详; 谭宏冰
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-10-03

Abstract

本申请提供了虚拟主播直播方法、电子设备、直播一体机、虚拟主播直播系统、计算机可读存储介质及计算机程序产品，用于为虚拟主播提供直播功能，所述方法包括：接收中之人的图像数据；基于中之人的图像数据，确定虚拟主播的面部驱动数据和动作驱动数据；基于面部驱动数据和动作驱动数据驱动虚拟主播，以得到虚拟主播的图像数据；接收中之人的语音数据；基于中之人的语音数据进行音频数据处理，以得到虚拟主播的语音数据；将虚拟主播的图像数据和虚拟主播的语音数据进行音画同步并合成，以得到直播视频流；将直播视频流发送至直播服务器。本申请通过直播一体机将软件与硬件相结合实现虚拟主播直播，降低中之人操作难度，操作过程更加简便。

Description

直播一体机、虚拟主播直播方法及相关装置

技术领域

本申请涉及虚拟人、人工智能的技术领域，尤其涉及虚拟主播直播方法、电子设备、直播一体机、虚拟主播直播系统、计算机可读存储介质及计算机程序产品。

背景技术

随着互联网技术的不断发展，虚拟主播逐渐成为直播行业的趋势之一。虚拟主播能够模拟人类的形象和动作，具有较高的娱乐性和观赏性。然而，现有的虚拟主播系统通常需要多种硬件设备和软件系统进行协同操作，操作过程繁琐。

基于此，本申请提供了虚拟主播直播方法、电子设备、直播一体机、虚拟主播直播系统、计算机可读存储介质及计算机程序产品，以改进现有技术。

发明内容

本申请的目的在于提供虚拟主播直播方法、电子设备、直播一体机、虚拟主播直播系统、计算机可读存储介质及计算机程序产品，通过直播一体机将软件与硬件相结合实现虚拟主播直播，降低中之人操作难度，操作过程更加简便。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供一种虚拟主播直播方法，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块和通信模块，所述方法包括：

接收所述图像采集模块采集的中之人的图像数据；

基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据；

基于所述面部驱动数据和所述动作驱动数据驱动所述虚拟主播，以得到所述虚拟主播的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

基于所述中之人的语音数据进行音频数据处理，以得到所述虚拟主播的语音数据；

将所述虚拟主播的图像数据和所述虚拟主播的语音数据进行音画同步并合成，以得到直播视频流；

通过所述通信模块将所述直播视频流发送至直播服务器，以便所述直播服务器向观众客户端推流。

该技术方案的有益效果在于：通过采集中之人的图像数据和语音数据，利用面部驱动数据和动作驱动数据驱动虚拟主播的动作，从而得到虚拟主播的图像数据，通过音频数据处理得到虚拟主播的语音数据，再将二者进行音画同步合成为直播视频流，最终通过通信模块发送至直播服务器，以便观众客户端接收观看。其工作原理是基于中之人驱动虚拟主播，将中之人的面部表情、动作等通过面部驱动数据和动作驱动数据转化为虚拟主播的动作，从而实现虚拟主播的直播功能。同时，采集中之人的语音数据并进行音频数据处理，从而合成直播视频流，通过音画同步的方式使得直播效果更加逼真，提升了观众的观看体验。一方面，通过面部驱动数据和动作驱动数据驱动虚拟主播，使得虚拟主播的表情和动作更加真实自然，具有更高的逼真程度，可以吸引更多的观众观看。另一方面，采用中之人驱动虚拟主播，避免了传统直播需要准备场地、摄像机等大量设备的情况，节约了成本，并且可以随时进行直播，提高了直播效率。又一方面，通过音画同步的方式使得直播效果更加逼真，观众能够更好地沉浸在虚拟直播的场景中，提升了观众的观看体验。又一方面，由于采用虚拟主播，可以根据需求随时更换虚拟主播的形象、性别等特征，实现多样化的直播内容，以满足不同的需求。又一方面，通过直播一体机将软件与硬件相结合实现虚拟主播直播，降低中之人的操作难度，操作过程更加简便。

在一些可能的实现方式中，所述直播一体机还包括启动模块，所述方法还包括：

响应于针对所述启动模块的激活操作，控制所述图像采集模块获取所述中之人的面部图像信息；

对所述面部图像信息和开机面容信息进行比对检测，以得到比对结果；

当所述比对结果为面容不匹配时，存储所述面部图像信息并记录开机失败次数；

当所述比对结果为面容匹配时，激活所述直播一体机。

该技术方案的有益效果在于：通过面容比对的检测确保只有经过授权的中之人才能启动该直播一体机。当中之人进行直播一体机的激活操作时，启动模块会要求图像采集模块获取中之人的面部图像信息，然后将该面部图像信息与已存储的开机面容信息进行比对检测，以得到比对结果。如果比对结果为面容不匹配，说明该中之人不是经过授权的中之人，该直播一体机会记录开机失败次数并禁止进一步的使用，同时若开机失败次数到达一定数量时可能会锁定该直播一体机。如果比对结果为面容匹配，说明中之人是经过授权的中之人，直播一体机将被激活。一方面，可以防止未经授权的中之人使用直播一体机，在直播一体机被应用于需要严格控制使用者身份的场景时，可以确保直播一体机的安全性和稳定性。另一方面，通过采用面部识别的技术，可以减少人工干预和提高操作效率。

在一些可能的实现方式中，所述直播一体机还包括显示模块，所述当所述比对结果为面容匹配时，激活所述直播一体机，还包括；

基于所述面部图像信息，确定待选虚拟对象集合；所述待选虚拟对象集合包括至少一个待选虚拟对象；

将所有的所述待选虚拟对象在所述显示模块中显示；

响应针对其中一个所述待选虚拟对象的选择操作，将被选择的待选虚拟对象确定为虚拟主播，以进行直播。

该技术方案的有益效果在于：当直播一体机的面部图像信息与开机面容信息匹配时，直播一体机将被激活并显示待选虚拟对象。中之人可以在显示模块中选择其中一个待选虚拟对象作为虚拟主播进行直播。在这个过程中，通过面部图像信息确定待选虚拟对象集合，使得中之人可以通过显示模块选择一个合适的待选虚拟对象作为本次直播的虚拟主播进行直播。通过让中之人选择虚拟主播，可以更好地满足中之人的个性化需求，同时快捷地为中之人推荐其常用的虚拟主播，增强中之人的使用体验感。

在一些可能的实现方式中，所述基于所述面部图像信息，确定待选虚拟对象集合，包括：

基于所述面部图像信息和历史直播信息，获取与所述面部图像信息对应的第一虚拟对象集合；所述第一虚拟对象集合包括至少一个第一虚拟对象；

将所述面部图像信息输入虚拟对象推荐模型中，以得到第二虚拟对象；

将所有的所述第一虚拟对象和所述第二虚拟对象列入所述待选虚拟对象集合中。

该技术方案的有益效果在于：基于面部图像信息和历史直播信息，获取与面部图像信息对应的第一虚拟对象集合。可以理解为根据中之人的面部特征和之前的直播历史记录，确定与中之人在直播历史记录中所使用过的虚拟对象，并列入第一虚拟对象集合。将中之人的面部图像信息输入到虚拟对象推荐模型中，以得到第二虚拟对象，通过分析中之人的面部特征推荐合适的虚拟对象。将所有的第一虚拟对象和第二虚拟对象列入待选虚拟对象集合，并呈现在显示模块中供中之人选择。中之人可以自主选择一个待选虚拟对象作为本次直播的虚拟主播进行直播。从而为中之人提供多个待选虚拟对象以供中之人选择，其中包括中之人在直播历史记录中所使用过的第一虚拟对象和虚拟对象推荐模型所推荐的第二虚拟对象，让中之人有更多选择的余地。

在一些可能的实现方式中，所述方法还包括：

获取所述直播一体机的设备标识信息，并将所述设备标识信息嵌入所述直播视频流中，以便所述直播服务器在接收到所述直播视频流后，基于所述设备标识信息，确定与所述设备标识信息对应的直播待遇；所述直播待遇用于确定直播初始热度、直播推荐力度和礼物分成比例中的至少一种。

该技术方案的有益效果在于：若直播平台与直播一体机的提供方有合作关系，当直播一体机开始直播时，获取直播一体机的设备标识信息，并将其嵌入直播视频流中。当直播服务器接收到该直播视频流时，根据设备标识信息来确定该直播一体机对应的直播待遇。这些直播待遇包括直播初始热度、直播推荐力度和礼物分成比例等方面，以确保直播平台向直播一体机提供适当的奖励和优惠政策。从而可以促进直播一体机的提供方与直播平台之间的合作关系。直播平台可以根据不同级别的直播一体机的设备标识信息，提供不同的直播待遇，以鼓励直播一体机的使用和推广。同时，直播待遇也可以根据该直播一体机的直播内容和观众反馈进行调整，以保持直播平台与直播一体机的提供方之间的合作关系的良好状态。还可以提高直播一体机与直播平台之间的合作效率，为直播平台提供更好的服务，同时也可以提高中之人的直播体验和收益。

在一些可能的实现方式中，所述直播一体机还包括生理数据获取模块，所述方法还包括：

通过所述生理数据获取模块获取所述中之人的生理数据；所述生理数据包括血压、血氧饱和度、体温、呼吸频率、走路步数、睡眠质量、心电图和脑电图中的一种或多种；

将所述中之人的生理数据输入疲劳状态检测模型中，以得到疲劳状态值；

当所述疲劳状态值低于预设状态值时，向所述中之人的终端设备发送提示信息或在所述直播一体机的显示模块中显示所述提示信息，以提示所述中之人停止直播。

该技术方案的有益效果在于：在直播过程中监测中之人的生理数据，以判断其是否处于疲劳状态，并在必要时提醒其停止直播，以保障中之人的身体健康。通过使用直播一体机的生理数据获取模块获取中之人的生理数据，包括血压、血氧饱和度、体温、呼吸频率、走路步数、睡眠质量、心电图和脑电图中的一种或多种。这些生理数据能够反映中之人的身体状况，特别是当中之人连续直播时，这些生理数据能够提供更多的信息用于判断中之人是否处于疲劳状态。在获取到中之人的生理数据后，将所述中之人的生理数据输入到疲劳状态检测模型中，以得到疲劳状态值，通过分析中之人的生理数据来判断其疲劳程度。疲劳状态值可以是一个数值，反映中之人当前的疲劳程度。当所述疲劳状态值低于预设状态值时，向所述中之人的终端设备发送提示信息或在直播一体机的显示模块中显示提示信息，以提示中之人停止直播。预设状态值可以是一个经过实验和数据分析得到的阈值，表示中之人应该停止直播的疲劳状态值。提示信息可以是一条文字信息或者是一个语音提示，提醒中之人注意身体健康，合理安排直播时间和休息时间。从而保障中之人的身体健康，避免由于连续直播过度导致身体疲劳和健康问题的发生。此外，还能够提高直播的质量，因为中之人在疲劳状态下进行直播时，可能会影响直播的效果和品质。通过提醒中之人合理安排直播时间和休息时间，可以帮助中之人更好地管理自己的健康和直播工作，提高直播效率和品质。

在一些可能的实现方式中，所述基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据，包括：

检测所述中之人的图像数据中是否存在手势信息；

若存在，则基于所述手势信息，确定与所述手势信息对应的手势驱动数据，并将所述手势驱动数据作为所述虚拟主播的动作驱动数据；

若不存在，则基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据。

该技术方案的有益效果在于：通过检测中之人的图像数据，获取中之人的手势信息，如果存在手势信息，则将该手势信息对应的手势驱动数据作为虚拟主播的动作驱动数据；如果不存在手势信息，则通过图像数据分析中之人的面部表情、头部姿态等信息，确定虚拟主播的面部驱动数据和动作驱动数据。可以使用深度学习算法对中之人的图像数据进行分析，检测其中的手势信息。若存在手势信息，可以将其与预先定义好的手势驱动数据进行匹配，以确定虚拟主播的动作驱动数据。若不存在手势信息，则通过分析中之人的面部表情、头部姿态、身体动作姿态等信息，确定虚拟主播的面部驱动数据和动作驱动数据。例如，当中之人微笑时，虚拟主播的面部表情也应该为微笑；当中之人向左转头时，虚拟主播的头部姿态也应该向左转。从而能够更加精准地模拟中之人的行为和表情，使虚拟主播的动作和表情更加自然和生动。此外，通过手势信息的获取和识别，可以实现更加直观和丰富的交互方式，提高直播的互动性和娱乐性。

第二方面，本申请提供了一种电子设备，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

基于所述面部驱动数据和所述动作驱动数据驱动所述虚拟主播动作，以得到所述虚拟主播的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

第三方面，本申请提供了一种直播一体机，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块、通信模块、存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

第四方面，本申请提供了一种虚拟主播直播系统，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述系统包括直播一体机和直播服务器；所述直播一体机包括图像采集模块、语音采集模块和通信模块；

所述直播一体机被配置成接收所述图像采集模块采集的中之人的图像数据；基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据；基于所述面部驱动数据和所述动作驱动数据驱动所述虚拟主播动作，以得到所述虚拟主播的图像数据；接收所述语音采集模块采集的所述中之人的语音数据；基于所述中之人的语音数据进行音频数据处理，以得到所述虚拟主播的语音数据；将所述虚拟主播的图像数据和所述虚拟主播的语音数据进行音画同步并合成，以得到直播视频流；通过所述通信模块将所述直播视频流发送至直播服务器；

所述直播服务器被配置成接收所述直播视频流并向所述观众客户端推流。

第五方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤，或者实现上述任一项电子设备的功能，或者实现上述任一项直播一体机的功能。

第六方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤，或者实现上述任一项电子设备的功能，或者实现上述任一项直播一体机的功能。

附图说明

下面结合说明书附图和具体实施方式进一步说明本申请。

图1是本申请实施例提供的一种虚拟主播直播方法的流程示意图。

图2是本申请实施例提供的一种激活直播一体机的流程示意图。

图3是本申请实施例提供的一种选择虚拟主播的流程示意图。

图4是本申请实施例提供的一种列入待选虚拟对象集合的流程示意图。

图5是本申请实施例提供的一种疲劳状态检测的流程示意图。

图6是本申请实施例提供的一种手势信息驱动的流程示意图。

图7是本申请实施例提供的一种电子设备的结构框图。

图8是本申请实施例提供的一种直播一体机的结构示意图。

图9是本申请实施例提供的一种虚拟主播直播系统的结构框图。

图10是本申请实施例提供的一种程序产品的结构示意图。

具体实施方式

下面将结合本申请的说明书附图以及具体实施方式，对本申请中的技术方案进行描述，需要说明的是，在不相冲突的前提下，以下描述的各实施方式之间或各技术特征之间可以任意组合形成新的实施方式。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施方式或设计方案不应被解释为比其他实施方式或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对数量的特别限定，不能构成对本申请实施例的任何限制。

下面对本申请实施例技术领域和相关术语进行简单说明。

虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中，虚拟人是由CG技术构建、以代码形式运行的拟人化形象，具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展，并且在很多技术领域都得到了应用，例如影视、传媒、游戏、金融、文旅、教育、医疗等领域，不仅可以定制化虚拟主持人、虚拟主播、虚拟偶像、虚拟客服、虚拟律师、虚拟律师助手、虚拟律师助手、虚拟医生、虚拟讲解员、虚拟助手等，还可以通过文本或音频一键生成视频。在虚拟人中，服务型虚拟人的主要功能为替代真人服务和提供日常陪伴，是现实中服务型角色的虚拟化，其产业价值主要是降低已有服务型产业的成本，为存量市场降本增效。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。计算机程序可以在给定某种类别的任务T和性能度量P下学习经验E，如果其在任务T中的性能恰好可以用P度量，则随着经验E而提高。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是一种特殊的机器学习，通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

虚拟主播直播应用用于提供虚拟主播直播功能。虚拟对象可以模拟人类的交流和行为，并与观众进行互动。这种软件(指虚拟人互动应用)通常是由人工智能和自然语言处理技术驱动的，并且能够通过文本、语音、图像、表单等方式与用户进行交互。

在虚拟人技术中，“中之人”指的是通过语音采集、动作捕捉、面部捕捉技术来演绎并完善虚拟人形象的人，可以实现虚拟人与现实的交互，让虚拟人能够自如地与真人互动。

本申请实施例提供的方案涉及虚拟人、交互设计、人工智能、3D建模、云计算等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

(虚拟主播直播方法)

参见图1，图1是本申请实施例提供的一种虚拟主播直播方法的流程示意图。

本申请提供一种虚拟主播直播方法，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块和通信模块，所述方法包括：

步骤S101：接收所述图像采集模块采集的中之人的图像数据；

步骤S102：基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据；

步骤S103：基于所述面部驱动数据和所述动作驱动数据驱动所述虚拟主播，以得到所述虚拟主播的图像数据；

步骤S104：接收所述语音采集模块采集的所述中之人的语音数据；

步骤S105：基于所述中之人的语音数据进行音频数据处理，以得到所述虚拟主播的语音数据；

步骤S106：将所述虚拟主播的图像数据和所述虚拟主播的语音数据进行音画同步并合成，以得到直播视频流；

步骤S107：通过所述通信模块将所述直播视频流发送至直播服务器，以便所述直播服务器向观众客户端推流。

所述虚拟主播直播方法可以在电子设备上运行，电子设备和直播一体机可以各自独立，电子设备也可以和直播一体机结合为一体。当电子设备和直播一体机各自独立时，电子设备可以是计算机、服务器(包括云服务器)等具有计算能力的设备。

服务器可以运行一个或多个应用程序(例如是虚拟主播直播应用的应用程序)，用于提供虚拟主播直播功能。这些应用程序可以使用一种或多种编程语言编写，例如Java、Python、Node.js等，并且可以利用各种框架和库实现各种功能，例如自然语言处理、语音转文本、图像识别等。为了提高服务器的可用性和性能，可以使用负载均衡器来将请求分配到多个服务器上，并且可以使用故障转移机制来在服务器故障时自动切换到备用服务器上。电子设备和服务器可以各自独立，电子设备也可以和服务器结合为一体。所述虚拟主播直播方法可以在服务器上运行，此时电子设备和服务器结合为一体。

本申请实施例中，直播服务器是指直播平台的服务器，用于提供实时直播的流媒体服务。直播服务器通常配备了高性能的处理器、存储器和网络连接，以应对大量观众同时观看直播时的高并发访问需求。在直播过程中，直播一体机上传直播视频流至直播服务器，然后由直播服务器再将直播视频流转发给观众客户端，使观众能够实时观看直播内容。

本申请实施例中，观众客户端是指观众的终端设备，此处对观众客户端不作限定，其例如可以是手机、平板电脑、笔记本电脑、台式计算机、智能穿戴设备等具有显示屏和扬声器的智能终端设备，或者，观众客户端可以是具有显示屏和扬声器的工作站或者控制台。显示屏可以是触控显示屏或者非触控显示屏。

本申请实施例中，虚拟主播包括虚拟人、虚拟动物和虚拟卡通形象中的一种或多种。作为一个示例，虚拟主播为虚拟人“QIN”(中文名：秦)。

虚拟主播直播应用可以设置有直播端和运营端，其中，直播端是指直播一体机，其使用者是中之人，运营端的使用者是运营人员。运营人员可以通过运营端配置一场直播的相关信息，例如直播间名称、直播时间、直播流程、带货商品、商品文案、商品页面跳转链接等。中之人和运营人员一般是客户的工作人员，中之人的工作内容包括在直播间进行带货直播，运营人员的工作内容包括配置直播间的相关信息。其中，客户是指虚拟主播直播应用的客户，通常是直播团队或个人主播、企业、公司等。本文中的用户通常是指上述客户的用户，即虚拟主播的受众，或者说直播间的观众。

本申请实施例对图像采集模块不作限定，其例如可以是摄像头、扫描仪或者其他带有拍照功能的设备(手机、平板电脑等)等。其中，摄像头例如可以包括光学摄像头和/或红外摄像头。

本申请实施例对音频数据处理不作限定，其例如可以是音频滤波、人声增强、声音合成、音频压缩和音频格式转换等。

本申请实施例中，音画同步是指将虚拟主播的图像数据和虚拟主播的语音数据在时间轴上的同步，也就是在播放直播声音和直播画面时，两者在时间上完全匹配、无误差地表现出来。音画同步可以是通过时间码同步，也可以通过帧同步、还可以通过延迟同步，此处对音画同步的实现手段不作限定。其中，时间码同步是指利用时间码标记图像数据和语音数据，通过时间码来实现音画同步。时间码通常采用一组数字或文字，表示为小时、分钟、秒和帧数，代表了视频和音频的精确时间。生成直播视频流时使用时间码将音频和视频剪辑在一起，以达到精确的同步效果。帧同步是指图像数据和语音数据的播放速度都是按照帧率进行的，在播放时通过同步时钟控制两者的帧率来达到音画同步的效果。延迟同步是指中之人的语音数据和图像数据在采集时不可避免存在延迟，通过计算延迟时间，以补偿实现音画同步。

由此，通过采集中之人的图像数据和语音数据，利用面部驱动数据和动作驱动数据驱动虚拟主播的动作，从而得到虚拟主播的图像数据，通过音频数据处理得到虚拟主播的语音数据，再将二者进行音画同步合成为直播视频流，最终通过通信模块发送至直播服务器，以便观众客户端接收观看。其工作原理是基于中之人驱动虚拟主播，将中之人的面部表情、动作等通过面部驱动数据和动作驱动数据转化为虚拟主播的动作，从而实现虚拟主播的直播功能。同时，采集中之人的语音数据并进行音频数据处理，从而合成直播视频流，通过音画同步的方式使得直播效果更加逼真，提升了观众的观看体验。一方面，通过面部驱动数据和动作驱动数据驱动虚拟主播，使得虚拟主播的表情和动作更加真实自然，具有更高的逼真程度，可以吸引更多的观众观看。另一方面，采用中之人驱动虚拟主播，避免了传统直播需要准备场地、摄像机等大量设备的情况，节约了成本，并且可以随时进行直播，提高了直播效率。又一方面，通过音画同步的方式使得直播效果更加逼真，观众能够更好地沉浸在虚拟直播的场景中，提升了观众的观看体验。又一方面，由于采用虚拟主播，可以根据需求随时更换虚拟主播的形象、性别等特征，实现多样化的直播内容，以满足不同的需求。

以虚拟电商主播“QIN”正在服装类直播间进行带货直播为例，说明上述虚拟主播直播方法的步骤：

中之人站立于直播一体机前，图像采集模块实时采集的中之人的图像数据，使用人脸识别、面部表情分析、身体动作分析等技术确定虚拟主播的面部驱动数据和动作驱动数据。例如，检测中之人的面部表情、姿势和眼神等，以及中之人的身体动作，以确定虚拟主播的面部驱动数据和动作驱动数据。根据面部驱动数据和动作驱动数据，驱动虚拟主播进行相应的动作和表情变化，以得到虚拟主播的图像数据。接收语音采集模块采集的中之人的语音数据，并使用语音处理技术对其进行处理，以生成虚拟主播的语音数据。例如，中之人说“宝贝们，这件衣服非常的舒服，穿上去非常的轻，你值得拥有。”语音采集模块在采集到该语音数据后，将该语音数据发送至处理器进行音频数据处理，对该语音数据进行降噪、声音平衡和音高调整等，以得到虚拟主播的语音数据。将虚拟主播的图像数据和语音数据进行音画同步并进行合成，以得到直播视频流。使用通信模块将直播视频流发送至直播服务器，以便直播服务器向观众客户端推流。

参见图2，图2是本申请实施例提供的一种激活直播一体机的流程示意图。

在一些实施例中，所述直播一体机还包括启动模块，所述方法还包括：

步骤S201：响应于针对所述启动模块的激活操作，控制所述图像采集模块获取所述中之人的面部图像信息；

步骤S202：对所述面部图像信息和开机面容信息进行比对检测，以得到比对结果；

步骤S203：当所述比对结果为面容不匹配时，存储所述面部图像信息并记录开机失败次数；

步骤S204：当所述比对结果为面容匹配时，激活所述直播一体机。

本申请实施例中，所述启动模块用于在直播一体机激活时启动各个硬件设备，加载操作系统和启动其他重要的启动服务等。

本申请实施例中，针对所述启动模块的激活操作，可以触摸启动模块的启动按钮，也可以是长按启动模块的启动按钮，此处对启动模块的激活操作不作限定。

作为一个示例，中之人A触摸直播一体机B的启动模块的启动按钮，响应于启动按钮的触摸操作，直播一体机B的处理器调用图像采集模块获取中之人A的面部图像信息，并将中之人A的面部图像信息与预先存储的能够激活直播一体机B的开机面容信息进行比对检测。若中之人A的面部图像信息并未事先设置为直播一体机B的开机面容信息，则无法激活该直播一体机B。也就是说中之人A是直播一体机B未经过授权的中之人。在日常使用中，如果有多次开机失败的记录，启动模块可能会要求进行额外的身份验证或管理员解锁等操作，以确保直播一体机B的安全性和使用权限的正确性。

由此，通过面容比对的检测确保只有经过授权的中之人才能启动该直播一体机。当中之人进行直播一体机的激活操作时，启动模块会要求图像采集模块获取中之人的面部图像信息，然后将该面部图像信息与已存储的开机面容信息进行比对检测，以得到比对结果。如果比对结果为面容不匹配，说明该中之人不是经过授权的中之人，该直播一体机会记录开机失败次数并禁止进一步的使用，同时若开机失败次数到达一定数量时可能会锁定该直播一体机。如果比对结果为面容匹配，说明中之人是经过授权的中之人，直播一体机将被激活。一方面，可以防止未经授权的中之人使用直播一体机，在直播一体机被应用于需要严格控制使用者身份的场景时，可以确保直播一体机的安全性和稳定性。另一方面，通过采用面部识别的技术，可以减少人工干预和提高操作效率。

参见图3，图3是本申请实施例提供的一种选择虚拟主播的流程示意图。

在一些实施例中，所述直播一体机还包括显示模块，所述当所述比对结果为面容匹配时，激活所述直播一体机(步骤S204)，还包括；

步骤S301：基于所述面部图像信息，确定待选虚拟对象集合；所述待选虚拟对象集合包括至少一个待选虚拟对象；

步骤S302：将所有的所述待选虚拟对象在所述显示模块中显示；

步骤S303：响应针对其中一个所述待选虚拟对象的选择操作，将被选择的待选虚拟对象确定为虚拟主播，以进行直播。

本申请实施例中，所述显示模块包括显示屏，所述显示屏可以是触控显示屏或者非触控显示屏。

作为一个示例，中之人A在激活直播一体机B后，基于中之人A的面部图像信息，确定与中之人A对应的待选虚拟对象集合，该待选虚拟对象集合包括待选虚拟对象A、待选虚拟对象B、待选虚拟对象C和待选虚拟对象D，并在显示模块的显示屏中显示上述待选虚拟对象A、待选虚拟对象B、待选虚拟对象C和待选虚拟对象D，中之人A可以选择其中一个待选虚拟对象，例如选择待选虚拟对象A，则将待选虚拟对象A作为本次直播的虚拟主播。

由此，当直播一体机的面部图像信息与开机面容信息匹配时，直播一体机将被激活并显示待选虚拟对象。中之人可以在显示模块中选择其中一个待选虚拟对象作为虚拟主播进行直播。在这个过程中，通过面部图像信息确定待选虚拟对象集合，使得中之人可以通过显示模块选择一个合适的待选虚拟对象作为本次直播的虚拟主播进行直播。通过让中之人选择虚拟主播，可以更好地满足中之人的个性化需求，同时快捷地为中之人推荐其常用的虚拟主播，增强中之人的使用体验感。

参见图4，图4是本申请实施例提供的一种列入待选虚拟对象集合的流程示意图。

在一些实施例中，所述基于所述面部图像信息，确定待选虚拟对象集合(步骤S301)，包括：

步骤S401：基于所述面部图像信息和历史直播信息，获取与所述面部图像信息对应的第一虚拟对象集合；所述第一虚拟对象集合包括至少一个第一虚拟对象；

步骤S402：将所述面部图像信息输入虚拟对象推荐模型中，以得到第二虚拟对象；

步骤S403：将所有的所述第一虚拟对象和所述第二虚拟对象列入所述待选虚拟对象集合中。

本申请实施例中，历史直播信息可以存储于独立的服务器中，也可以存储于直播一体机中，此处对历史直播信息的存储位置不作限定。

本申请实施例中，所述第一虚拟对象是指与面部图像信息对应的中之人在历史直播过程中所使用过的虚拟对象。

由此，基于面部图像信息和历史直播信息，获取与面部图像信息对应的第一虚拟对象集合。可以理解为根据中之人的面部特征和之前的直播历史记录，确定与中之人在直播历史记录中所使用过的虚拟对象，并列入第一虚拟对象集合。将中之人的面部图像信息输入到虚拟对象推荐模型中，以得到第二虚拟对象，通过分析中之人的面部特征推荐合适的虚拟对象。将所有的第一虚拟对象和第二虚拟对象列入待选虚拟对象集合，并呈现在显示模块中供中之人选择。中之人可以自主选择一个待选虚拟对象作为本次直播的虚拟主播进行直播。从而为中之人提供多个待选虚拟对象以供中之人选择，其中包括中之人在直播历史记录中所使用过的第一虚拟对象和虚拟对象推荐模型所推荐的第二虚拟对象，让中之人有更多选择的余地。

本申请实施例中，虚拟对象推荐模型的训练过程包括：

获取训练集，所述训练集包括多个训练数据，每个所述训练数据包括一个样本面部图像信息以及与样本面部图像信息对应的第二虚拟对象的标注数据；

针对所述训练集中的每个训练数据，执行以下处理：

将所述训练数据中的样本面部图像信息输入预设的深度学习模型，以得到与样本面部图像信息对应的第二虚拟对象的预测数据；

基于与样本面部图像信息对应的第二虚拟对象的预测数据和标注数据，对所述深度学习模型的模型参数进行更新；

检测是否满足预设的训练结束条件；如果是，则将训练出的所述深度学习模型作为所述虚拟对象推荐模型；如果否，则利用下一个所述训练数据继续训练所述深度学习模型。

由此，通过设计，建立适量的神经元计算节点和多层运算层次结构，选择合适的输入层和输出层，就可以得到预设的深度学习模型，通过该深度学习模型的学习和调优，建立起从输入到输出的函数关系，虽然不能100％找到输入与输出的函数关系，但是可以尽可能地逼近现实的关联关系，由此训练得到的虚拟对象推荐模型，可以基于面部图像信息获取对应的第二虚拟对象，适用范围广，且计算结果准确性高、可靠性高。

在本申请的一些实施例中，本申请可以训练得到虚拟对象推荐模型。

在本申请的另一些实施例中，本申请可以采用预先训练好的虚拟对象推荐模型。

在本实施例中，预设的深度学习模型可以是卷积神经网络模型，也可以是循环神经网络模型，此处不对预设的深度学习模型的实现方式作限定。

本申请对虚拟对象推荐模型的训练过程不作限定，其例如可以采用上述监督学习的训练方式，或者可以采用半监督学习的训练方式，或者可以采用无监督学习的训练方式。

本申请对预设的训练结束条件不作限定，其例如可以是训练次数达到预设次数(预设次数例如是1次、3次、10次、100次、1000次、10000次等)，或者可以是训练集中的训练数据都完成一次或多次训练，或者可以是本次训练得到的总损失值不大于预设损失值。

由此，通过虚拟对象推荐模型基于面部图像信息快速得到与其对应的第二虚拟对象，从而缩短了第二虚拟对象的确定时长，提高了第二虚拟对象的生成效率。

在一些实施例中，所述方法还包括：获取所述直播一体机的设备标识信息，并将所述设备标识信息嵌入所述直播视频流中，以便所述直播服务器在接收到所述直播视频流后，基于所述设备标识信息，确定与所述设备标识信息对应的直播待遇；所述直播待遇用于确定直播初始热度、直播推荐力度和礼物分成比例中的至少一种。

本申请实施例中，设备标识信息是指用于唯一标识直播一体机的字符串或数字，通常由直播一体机的厂商分配给直播一体机的。该设备标识信息通常是直播一体机的一个唯一识别码，可以用于直播一体机的识别、跟踪和管理等方面。

作为一个示例，设备标识信息可以是“354265032185143”，也可以是“a51234d8a14b05c7”，还可以是“B28CD8E9-1EC9-49B1-B56A-7F8A784”，此处对设备标识信息不作限定。

本申请实施例中，将所述设备标识信息嵌入所述直播视频流中，可以通过在视频流中嵌入元数据(Metadata)实现，也可以通过在视频流中添加水印，此处对嵌入设备标识信息的实现手段不作限定。其中，元数据是一种描述数据的数据，可以用于描述媒体文件中的关键信息。

作为一个示例，在直播过程中，视频编码器可以设置元数据标签，将设备标识信息添加到视频流中的每一帧中。从而，当直播服务器接收到该直播视频流时，通过对直播视频流进行解析，得到这些元数据，从而直播服务器知道该直播视频流来自哪个直播一体机。元数据标签可以使用各种格式实现，如MPEG-4、FLV或RTMP等。

本申请实施例中，直播一体机的提供方与直播平台之间存在合作关系，为推广直播一体机的使用，直播平台可能会为直播一体机的使用者，即中之人，提供更优的直播待遇，包括但不限于提高直播初始热度、增大直播推荐力度和礼物分成比例等。同时，不同级别的直播一体机对应的直播待遇不同，通过直播服务器识别直播视频流对应的直播一体机的信息，实现为不同直播一体机提供不同直播待遇。

作为一个示例，若中之人直播所使用的直播一体机为基础版，则对应的直播待遇包括直播初始热度为10，直播推荐力度为低和礼物分成比例为3比10；若中之人直播所使用的直播一体机为中级版，则对应的直播待遇包括直播初始热度为30，直播推荐力度为中和礼物分成比例为1比2；若中之人直播所使用的直播一体机为高级版，则对应的直播待遇包括直播初始热度为50，直播推荐力度为中和礼物分成比例为7比10；若中之人直播所使用的直播一体机为至尊版，则对应的直播待遇包括直播初始热度为70，直播推荐力度为高和礼物分成比例为8比10，不同级别的直播一体机的售价可能不同。

由此，若直播平台与直播一体机的提供方有合作关系，当直播一体机开始直播时，获取直播一体机的设备标识信息，并将其嵌入直播视频流中。当直播服务器接收到该直播视频流时，根据设备标识信息来确定该直播一体机对应的直播待遇。这些直播待遇包括直播初始热度、直播推荐力度和礼物分成比例等方面，以确保直播平台向直播一体机提供适当的奖励和优惠政策。从而可以促进直播一体机的提供方与直播平台之间的合作关系。直播平台可以根据不同级别的直播一体机的设备标识信息，提供不同的直播待遇，以鼓励直播一体机的使用和推广。同时，直播待遇也可以根据该直播一体机的直播内容和观众反馈进行调整，以保持直播平台与直播一体机的提供方之间的合作关系的良好状态。还可以提高直播一体机与直播平台之间的合作效率，为直播平台提供更好的服务，同时也可以提高中之人的直播体验和收益。

为了避免直播一体机的滥用，需要对直播视频流检测，以避免多人共用一台高级别的直播一体机。

在一些实施例中，所述方法还包括：

将中之人的面部图像信息发送至所述直播服务器，以使所述直播服务器基于所述设备标识信息确定授权图像信息，并比对所述授权图像信息和所述面部图像信息；

当所述授权图像信息和所述面部图像信息的比对结果指示为不同时，获取预设直播待遇作为本次直播的直播待遇，并记录此次比对结果；

当所述授权图像信息和所述面部图像信息的比对结果指示为相同时，基于所述设备标识信息确定本次直播的直播待遇。

本申请实施例中，预设直播待遇可以是直播初始热度为10，直播推荐力度为低和礼物分成比例为3比10，也可以是直播初始热度为20，直播推荐力度为低和礼物分成比例为4比10，此处对预设直播待遇不作限定。

本申请实施例中，授权图像信息是指可以享受设备标识信息对应的直播待遇的中之人的图像信息。

由此，获取中之人的面部图像信息，并将其发送至直播服务器。同时，获取直播一体机的设备标识信息，以便服务器可以确定与该设备标识信息对应的直播待遇。在直播服务器上，对所接收到的面部图像信息与授权图像信息进行比对。如果比对结果指示所接收到的面部图像信息与授权图像信息不一致，说明该直播一体机可能被非法使用，服务器会记录该比对结果，并给予相应的处理措施，比如将本次直播的待遇降低等。如果比对结果指示所接收到的面部图像信息与授权图像信息一致，说明该直播一体机是合法使用的，根据设备标识信息确定本次直播的直播待遇，包括直播初始热度、直播推荐力度和礼物分成比例等。从而通过对面部图像信息进行比对，可以识别出非法使用直播一体机的行为，及时给予相应的处理措施，保障直播平台的安全运营。同时，通过基于设备标识信息确定直播待遇，可以保证每个直播主都有公平的直播机会，并得到相应的待遇。

参见图5，图5是本申请实施例提供的一种疲劳状态检测的流程示意图。

在一些实施例中，所述直播一体机还包括生理数据获取模块，所述方法还包括：

步骤S501：通过所述生理数据获取模块获取所述中之人的生理数据；所述生理数据包括血压、血氧饱和度、体温、呼吸频率、走路步数、睡眠质量、心电图和脑电图中的一种或多种；

步骤S502：将所述中之人的生理数据输入疲劳状态检测模型中，以得到疲劳状态值；

步骤S503：当所述疲劳状态值低于预设状态值时，向所述中之人的终端设备发送提示信息或在所述直播一体机的显示模块中显示所述提示信息，以提示所述中之人停止直播。

本申请实施例中，生理数据获取模块包括各种传感器装置，其例如包括血压计、脉搏氧饱和度计、体温计、呼吸频率计、步数计、睡眠监测设备、心电图采集器、脑电图采集器等等。这些传感器装置可以通过蓝牙、WiFi等无线通讯方式或者USB、串口等有线通讯方式实现通讯相连。

本申请实施例中，疲劳状态检测模型可以是卷积神经网络模型，也可以是循环神经网络模型，此处不对疲劳状态检测模型的实现方式作限定。

本申请实施例中，疲劳状态检测模型的训练过程与上述虚拟对象推荐模型的训练过程类似，此处不再赘述。

作为一个示例，中之人装备上获取相应生理数据的传感器装置，例如血压计、脉搏氧饱和度计、体温计、呼吸频率计、步数计等，以及心电图采集器或脑电图采集器等设备，并确定传感器装置连接传输通畅。中之人进行直播时，上述传感器装置会实时采集他的生理数据，并将其传输到直播一体机中。直播一体机内置的疲劳状态检测模型会对这些生理数据进行处理，以得到中之人的疲劳状态值。如果中之人的疲劳状态值低于预设状态值，直播一体机会向他的终端设备发送提示信息，提醒他停止直播。这个提示信息可以采用语音、文字、图标等方式呈现，具体形式可以根据实际情况进行定制。中之人在接收到了提示信息后，就应该立即停止直播，休息片刻，以保证自己的身体健康和安全。

本申请实施例中，预设状态值可以是1％、5％、10％、20％、40％、60％、80％等，此处对预设状态值不作限定。

由此，在直播过程中监测中之人的生理数据，以判断其是否处于疲劳状态，并在必要时提醒其停止直播，以保障中之人的身体健康。通过使用直播一体机的生理数据获取模块获取中之人的生理数据，包括血压、血氧饱和度、体温、呼吸频率、走路步数、睡眠质量、心电图和脑电图中的一种或多种。这些生理数据能够反映中之人的身体状况，特别是当中之人连续直播时，这些生理数据能够提供更多的信息用于判断中之人是否处于疲劳状态。在获取到中之人的生理数据后，将所述中之人的生理数据输入到疲劳状态检测模型中，以得到疲劳状态值，通过分析中之人的生理数据来判断其疲劳程度。疲劳状态值可以是一个数值，反映中之人当前的疲劳程度。当所述疲劳状态值低于预设状态值时，向所述中之人的终端设备发送提示信息或在直播一体机的显示模块中显示提示信息，以提示中之人停止直播。预设状态值可以是一个经过实验和数据分析得到的阈值，表示中之人应该停止直播的疲劳状态值。提示信息可以是一条文字信息或者是一个语音提示，提醒中之人注意身体健康，合理安排直播时间和休息时间。从而保障中之人的身体健康，避免由于连续直播过度导致身体疲劳和健康问题的发生。此外，还能够提高直播的质量，因为中之人在疲劳状态下进行直播时，可能会影响直播的效果和品质。通过提醒中之人合理安排直播时间和休息时间，可以帮助中之人更好地管理自己的健康和直播工作，提高直播效率和品质。

在一些实施例中，所述方法还包括：

将所述提示信息发送至所述直播服务器；以使所述直播服务器将所述提示信息发送至所述观众客户端。

其中，将提示信息发送至观众客户端可以以弹幕的形式发送，也可以以弹窗的形式发送，此处对提示信息的发送手段不作限定。

作为一个示例，以弹窗的形式向观众客户端发送提示信息，该提示信息所包含的文本内容是“您所关注的主播已在线XX小时，电量不足哦，请督促主播尽快下线充电吧。”

由此，观众也可以根据提示信息知道中之人的疲劳状态，从而不会因为中之人的疲劳状态而受到直播质量的影响。同时，也能够起到监督中之人下播的作用。

参见图6，图6是本申请实施例提供的一种手势信息驱动的流程示意图。

在一些实施例中，所述基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据(步骤S102)，包括：

步骤S601：检测所述中之人的图像数据中是否存在手势信息；

步骤S602：若存在，则基于所述手势信息，确定与所述手势信息对应的手势驱动数据，并将所述手势驱动数据作为所述虚拟主播的动作驱动数据；

步骤S603：若不存在，则基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据。

本申请实施例中，手势信息是指中之人的手部的运动姿势和手势动作的信息。手势信息可以包括手势的位置、方向、形状、动作等方面的信息，例如手掌张合、握拳、比心、招手等动作。检测手势信息可以通过传统的图像处理和机器学习算法，例如卷积神经网络(CNN)、支持向量机(SVM)、随机森林(Random Forest)等实现。同时，也可以借助深度学习算法，例如基于深度神经网络的手势识别技术，通过训练神经网络来识别手势信息。

作为一个示例，中之人在直播过程中做出了一个比心的手势，该手势通过计算机视觉算法在图像数据中检测出来，当检测到中之人做出比心的手势时，根据预先定义好的手势库，获取与该比心手势对应的手势驱动数据，将手势驱动数据作为虚拟主播的动作驱动数据，例如，比心手势对应的手势驱动数据为控制虚拟主播双手连续比心。从而，中之人无需实际做出双手连续比心，通过做出比心手势，即可实现虚拟主播双手连续比心，减少了中之人的体力，同时避免了中之人实际做出双手连续比心时可能存在的识别错误问题。

由此，通过检测中之人的图像数据，获取中之人的手势信息，如果存在手势信息，则将该手势信息对应的手势驱动数据作为虚拟主播的动作驱动数据；如果不存在手势信息，则通过图像数据分析中之人的面部表情、头部姿态等信息，确定虚拟主播的面部驱动数据和动作驱动数据。可以使用深度学习算法对中之人的图像数据进行分析，检测其中的手势信息。若存在手势信息，可以将其与预先定义好的手势驱动数据进行匹配，以确定虚拟主播的动作驱动数据。若不存在手势信息，则通过分析中之人的面部表情、头部姿态、身体动作姿态等信息，确定虚拟主播的面部驱动数据和动作驱动数据。例如，当中之人微笑时，虚拟主播的面部表情也应该为微笑；当中之人向左转头时，虚拟主播的头部姿态也应该向左转。从而能够更加精准地模拟中之人的行为和表情，使虚拟主播的动作和表情更加自然和生动。此外，通过手势信息的获取和识别，可以实现更加直观和丰富的交互方式，提高直播的互动性和娱乐性。

在一个具体应用场景中，本申请实施例还提供了一种虚拟主播直播方法，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块、通信模块、显示模块和启动模块，所述方法包括：

当所述比对结果为面容匹配时，基于所述面部图像信息和历史直播信息，获取与所述面部图像信息对应的第一虚拟对象集合；所述第一虚拟对象集合包括至少一个第一虚拟对象；

将所有的所述第一虚拟对象和所述第二虚拟对象列入所述待选虚拟对象集合中；所述待选虚拟对象集合包括至少一个待选虚拟对象；

将所有的所述待选虚拟对象在所述显示模块中显示；

响应针对其中一个所述待选虚拟对象的选择操作，将被选择的待选虚拟对象确定为虚拟主播，以进行直播；

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

作为一个示例，中之人在启动模块上点击“开始直播”，控制图像采集模块获取中之人的面部图像信息。将中之人的面部图像信息与直播一体机的开机面容信息进行比对，以确定中之人的身份。如果比对结果为面容不匹配，则记录开机失败次数并提示中之人重新尝试。如果比对结果为面容匹配，则基于中之人的面部图像信息和历史直播信息，获取与中之人的面部图像信息对应的第一虚拟对象集合。该第一虚拟对象集合可能包括多个第一虚拟对象。第一虚拟对象为中之人在历史直播过程中所使用的虚拟主播。将中之人的面部图像信息输入虚拟对象推荐模型中，以得到第二虚拟对象，该第二虚拟对象是根据中之人的面部特征所推荐的虚拟对象。将所有的第一虚拟对象和第二虚拟对象列入待选虚拟对象集合中，并在显示模块中显示。中之人可以在待选虚拟对象集合中选择自己喜欢的虚拟主播进行直播。中之人选择虚拟主播后，开始接收中之人的图像数据和语音数据。并基于中之人的图像数据确定虚拟主播的面部驱动数据和动作驱动数据，面部驱动数据和动作驱动数据可以用来驱动虚拟主播的表情和动作，使得虚拟主播的行为更加自然逼真。同时，对中之人的语音数据进行音频数据处理，以得到虚拟主播的语音数据。语音数据可以通过语音识别技术进行识别和转换，然后进行音频合成，生成虚拟主播的语音。将虚拟主播的图像数据和语音数据进行音画同步并合成，以得到直播视频流。通过通信模块将直播视频流发送至直播服务器，以便直播服务器向观众客户端推流，实现虚拟主播的直播功能。

(电子设备)

本申请实施例还提供了一种电子设备，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述电子设备用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

在一些实施例中，所述直播一体机还包括启动模块，所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤：

当所述比对结果为面容匹配时，激活所述直播一体机。

在一些实施例中，所述直播一体机还包括显示模块，所述至少一个处理器被配置成执行所述计算机程序时采用以下方式激活所述直播一体机：

将所有的所述待选虚拟对象在所述显示模块中显示；

在一些实施例中，所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述面部图像信息，确定待选虚拟对象集合：

在一些实施例中，所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤：

在一些实施例中，所述直播一体机还包括生理数据获取模块，所述至少一个处理器还被配置成执行所述计算机程序时实现以下步骤：

在一些实施例中，所述至少一个处理器被配置成执行所述计算机程序时采用以下方式基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据：

检测所述中之人的图像数据中是否存在手势信息；

参见图7，图7是本申请实施例提供的一种电子设备10的结构框图。

电子设备10例如可以包括至少一个存储器11、至少一个处理器12以及连接不同平台系统的总线13。

存储器11可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)111和/或高速缓存存储器112，还可以进一步包括只读存储器(ROM)113。

其中，存储器11还存储有计算机程序，计算机程序可以被处理器12执行，使得处理器12实现上述任一项方法的步骤。

存储器11还可以包括具有至少一个程序模块115的实用工具114，这样的程序模块115包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器12可以执行上述计算机程序，以及可以执行实用工具114。

处理器12可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

总线13可以为表示几类总线结构的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构的任意总线结构的局域总线。

电子设备10也可以与一个或多个外部设备例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备10交互的设备通信，和/或与使得该电子设备10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口14进行。并且，电子设备10还可以通过网络适配器15与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器15可以通过总线13与电子设备10的其它模块通信。应当明白，尽管图中未示出，但在实际应用中可以结合电子设备10使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

(直播一体机)

参见图8，图8是本申请实施例提供的一种直播一体机的结构示意图。

所述直播一体机用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块、通信模块、存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

当所述比对结果为面容匹配时，激活所述直播一体机。

将所有的所述待选虚拟对象在所述显示模块中显示；

由此，通过采集中之人的图像数据和语音数据，利用面部驱动数据和动作驱动数据驱动虚拟主播的动作，从而得到虚拟主播的图像数据，通过音频数据处理得到虚拟主播的语音数据，再将二者进行音画同步合成为直播视频流，最终通过通信模块发送至直播服务器，以便观众客户端接收观看。其工作原理是基于中之人驱动虚拟主播，将中之人的面部表情、动作等通过面部驱动数据和动作驱动数据转化为虚拟主播的动作，从而实现虚拟主播的直播功能。同时，采集中之人的语音数据并进行音频数据处理，从而合成直播视频流，通过音画同步的方式使得直播效果更加逼真，提升了观众的观看体验。一方面，通过面部驱动数据和动作驱动数据驱动虚拟主播，使得虚拟主播的表情和动作更加真实自然，具有更高的逼真程度，可以吸引更多的观众观看。另一方面，采用中之人驱动虚拟主播，避免了传统直播需要准备场地、摄像机等大量设备的情况，节约了成本，并且可以随时进行直播，提高了直播效率。又一方面，通过音画同步的方式使得直播效果更加逼真，观众能够更好地沉浸在虚拟直播的场景中，提升了观众的观看体验。又一方面，由于采用虚拟主播，可以根据需求随时更换虚拟主播的形象、性别等特征，实现多样化的直播内容，以满足不同的需求。又一方面，采用直播一体机进行技术支持，直播一体机将将软件与硬件相结合实现虚拟主播直播，降低中之人的操作难度，操作过程更加简便，同时提高了中之人满意度。

(虚拟主播直播系统)

本申请实施例还提供了一种虚拟主播直播系统，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

参见图9，图9是本申请实施例提供的一种虚拟主播直播系统的结构框图。

所述虚拟主播直播系统用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述系统包括直播一体机和直播服务器；所述直播一体机包括图像采集模块、语音采集模块和通信模块；

由此，本申请提供的虚拟主播直播系统采用面部驱动数据和动作驱动数据驱动虚拟主播，以得到虚拟主的图像数据，可以让虚拟主播的表情和动作更加自然、生动，更符合观众的视觉习惯，提高观众的观看体验。同时，采用语音数据进行音频数据处理，可以让虚拟主播的语音更加清晰、流畅，提高观众的听觉体验。同时，虚拟主播可以根据不同场景、不同主题进行不同的形象设计和表现方式，可以更好地满足不同观众群体的需求，提高可塑性，增强直播的趣味性和互动性。另外，采用直播一体机进行技术支持，直播一体机将将软件与硬件相结合实现虚拟主播直播，降低中之人的操作难度，操作过程更加简便，同时提高了中之人满意度。

(计算机可读存储介质)

本申请实施例还提供了一种计算机可读存储介质，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在观众计算设备上执行、部分地在观众设备上执行、作为一个独立的软件包执行、部分在观众计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到观众计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

(计算机程序产品)

本申请实施例还提供了一种计算机程序产品，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

参见图10，图10是本申请实施例提供的一种计算机程序产品的结构示意图。

所述计算机程序产品用于实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。计算机程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的计算机程序产品不限于此，计算机程序产品可以采用一个或多个计算机可读介质的任意组合。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种虚拟主播直播方法，其特征在于，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块和通信模块，所述方法包括：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

2.根据权利要求1所述的虚拟主播直播方法，其特征在于，所述直播一体机还包括启动模块，所述方法还包括：

当所述比对结果为面容匹配时，激活所述直播一体机。

3.根据权利要求2所述的虚拟主播直播方法，其特征在于，所述直播一体机还包括显示模块，所述当所述比对结果为面容匹配时，激活所述直播一体机，还包括；

将所有的所述待选虚拟对象在所述显示模块中显示；

4.根据权利要求3所述的虚拟主播直播方法，其特征在于，所述基于所述面部图像信息，确定待选虚拟对象集合，包括：

5.根据权利要求1所述的虚拟主播直播方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的虚拟主播直播方法，其特征在于，所述直播一体机还包括生理数据获取模块，所述方法还包括：

7.根据权利要求1所述的虚拟主播直播方法，其特征在于，所述基于所述中之人的图像数据，确定所述虚拟主播的面部驱动数据和动作驱动数据，包括：

检测所述中之人的图像数据中是否存在手势信息；

8.一种电子设备，其特征在于，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

9.一种直播一体机，其特征在于，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述直播一体机包括图像采集模块、语音采集模块、通信模块、存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

接收所述图像采集模块采集的中之人的图像数据；

接收所述语音采集模块采集的所述中之人的语音数据；

10.一种虚拟主播直播系统，其特征在于，用于为虚拟主播提供直播功能，所述虚拟主播采用中之人驱动，所述系统包括直播一体机和直播服务器；所述直播一体机包括图像采集模块、语音采集模块和通信模块；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求1-7任一项所述方法的步骤，或者实现权利要求8所述电子设备的功能，或者实现权利要求9所述直播一体机的功能。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求1-7任一项所述方法的步骤，或者实现权利要求8所述电子设备的功能，或者实现权利要求9所述直播一体机的功能。