CN116684654A

CN116684654A - 直播控制方法、电子设备、存储介质及程序产品

Info

Publication number: CN116684654A
Application number: CN202310618708.2A
Authority: CN
Inventors: 柴金详; 谭宏冰; 王斌; 栾欣洋
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-01

Abstract

本申请提供了直播控制方法、电子设备、计算机可读存储介质及计算机程序产品，所述方法包括：接收来自第一终端设备的访问请求，并建立所述第一终端设备与目标服务器之间的通信连接，所述目标服务器用于提供虚拟主播的直播功能，所述虚拟主播采用中之人驱动；在直播间的直播过程中，实时获取所述中之人的语音信息；检测所述语音信息是否满足预设的引导条件，当所述语音信息满足所述引导条件时，在所述直播间的所有用户的第二终端设备显示引导画面，所述引导画面用于引导所述用户点击所述直播间的购买链接。本申请无需助播人员人工引导，利用引导画面快速、准确地引导用户点击直播间的购买链接，提高购买转化率。

Description

直播控制方法、电子设备、存储介质及程序产品

技术领域

本申请涉及虚拟人、人工智能的技术领域，尤其涉及直播控制方法、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中，虚拟人是由CG技术构建、以代码形式运行的拟人化形象，具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展，并且在很多技术领域都得到了应用，例如影视、传媒、游戏、金融、文旅、教育、医疗等领域。

在传统的线上直播中，一场直播需要主播、运营、助播和场控四方人员合作，在对商品进行推广时，需要助播人员实时跟进主播讲解的内容，在直播间配合主播喊话以引导直播观众下单，对助播人员的要求较高。

基于此，本申请提供了直播控制方法、电子设备、计算机可读存储介质及计算机程序产品，以改进现有技术。

发明内容

本申请的目的在于提供直播控制方法、电子设备、计算机可读存储介质及计算机程序产品，无需助播人员人工引导，利用引导画面快速、准确地引导用户点击直播间的购买链接，提高购买转化率。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种直播控制方法，所述方法包括：

接收来自第一终端设备的访问请求，并建立所述第一终端设备与目标服务器之间的通信连接，所述目标服务器用于提供虚拟主播的直播功能，所述虚拟主播采用中之人驱动；

在直播间的直播过程中，实时获取所述中之人的语音信息；

检测所述语音信息是否满足预设的引导条件，当所述语音信息满足所述引导条件时，在所述直播间的所有用户的第二终端设备显示引导画面，所述引导画面用于引导所述用户点击所述直播间的购买链接。

该技术方案的有益效果在于：实时获取虚拟主播直播间的中之人的语音信息，并检测语音信息是否满足预设的引导条件，在语音信息满足引导条件的情况下，利用引导画面快速、准确地引导用户点击直播间的购买链接，无需助播人员人工引导，可以更加精准地向用户推荐商品，并提高购买转化率，在提高销售效率的同时保证了用户使用体验和满意度，提高直播过程的自动化程度和智能化水平，进而提高直播销售的效率和收益。此外，虚拟主播直播功能在当今的网络直播行业越来越受欢迎，基于中之人驱动的虚拟主播直播功能，提供了一个更加灵活、便捷、高效的解决方案，能够满足不同用户群体的需求。

在一些可选的实施例中，所述检测所述语音信息是否满足预设的引导条件，包括：

使用所述语音信息对应的语义提取模型，从所述语音信息中提取语义信息；

分别检测所述语义信息与预设的每个引导关键词是否相匹配；

当所述语义信息与一个或多个所述引导关键词相匹配时，确认所述语音信息满足所述引导条件。

该技术方案的有益效果在于：使用语义提取模型对语音信息进行提取和分析，能够更加准确地检测和识别语义信息，并快速匹配到预设的引导关键词，从而提高引导成功率。采用该方法实现直播间的引导操作，可以实现24小时自动运营，降低了人力成本和时间成本，提高了效率，提高了用户参与度和满意度，增强了用户体验。通过引导用户下单，能够有效促进销售业绩的提升，实现商业价值。综上所述，本申请能够提高引导成功率、自动化运营、增强用户体验、优化销售业绩等方面的效果。

在一些可选的实施例中，所述引导画面的显示内容包括引导视频；

在所述引导视频中，所述虚拟主播引导所述用户点击所述购买链接后浏览对应的商品页面。

该技术方案的有益效果在于：通过展示引导视频，引导用户点击购买链接并浏览对应的商品页面，能够提高用户对商品的认知和购买意愿，并提高用户转化率。虚拟主播通过视频引导用户完成购买，能够增强用户购物体验，让用户更容易理解商品特点和使用方法，提高用户满意度。通过虚拟主播的引导，可以增加品牌的知名度和曝光度，提高品牌影响力。采用虚拟主播进行下单引导，能够提高营销效果和效率，降低运营成本，实现营销模式的优化。综上所述，采用在引导画面显示引导视频，并在视频中采用虚拟主播引导用户进行下单的方式，具有提高用户转化率、提升用户购物体验、提高品牌曝光度以及优化营销模式等效果。

在一些可选的实施例中，当所述语音信息满足所述引导条件时，所述方法还包括：

获取所述直播间的在播商品的商品信息，所述在播商品是所述直播间正在直播的商品；

基于所述商品信息，更新所述直播间的背景音乐，并利用所述直播间的所有用户的第二终端设备播放更新后的所述背景音乐。

该技术方案的有益效果在于：通过获取正在直播的商品的商品信息，更新直播间的背景音乐，可以提高直播间的趣味性和互动性，吸引更多用户参与互动和购买。通过利用直播间的所有用户的第二终端设备播放背景音乐，可以增加商品的曝光度，让更多用户了解正在直播的商品，提高商品的关注度和销售量，还可以提高用户的满意度和体验感，增强用户对直播间的粘性和留存率。通过不断更新直播间的背景音乐，可以调整直播间的氛围和主题，提高直播间的营销效果，促进商品销售和品牌影响力的提升。

在一些可选的实施例中，所述方法还包括：

实时获取所述直播间的直播信息，所述直播信息包括以下任意一种：观众数、直播点赞数和直播弹幕数；

根据所述直播信息获取所述直播间的直播热度；

当所述直播热度小于预设直播热度时，利用预设的弹幕生成模型获取所述直播间的模拟弹幕；

在所述直播间的所有用户的第二终端设备显示所述模拟弹幕。

该技术方案的有益效果在于：通过实时获取直播信息，并根据直播热度生成模拟弹幕，可以提高直播间的趣味性和互动性，吸引更多用户参与互动和留存。通过展示模拟弹幕，可以营造出热闹的氛围，吸引更多观众进入直播间观看，从而增加直播间的热度和观众数量。针对直播热度低于预设直播热度的情况，生成模拟弹幕，可以在直播间热度不够高时调整和优化直播间的运营策略，提升直播间的收视率和用户留存率，从而提高直播间的运营效果。通过模拟弹幕的展示，可以让用户感受到直播间的热闹气氛，增强用户的参与感和体验感，提高用户对直播间的满意度和粘性。

在一些可选的实施例中，所述利用预设的弹幕生成模型获取所述直播间的模拟弹幕，包括：

将所述商品信息输入至所述弹幕生成模型，以得到所述直播间的模拟弹幕。

该技术方案的有益效果在于：通过获取直播间在播商品信息，并将其输入弹幕生成模型得到模拟弹幕，可以在直播间展示和推广商品，提高商品的曝光率和销售效果。通过弹幕的展示，可以让用户获得更多关于商品的信息和其他用户的评价，增加用户的参与感和购买决策，从而促进交易的产生。通过展示模拟弹幕，可以吸引更多观众进入直播间观看，在提高商品销售的同时，增加直播间的收益和转化率。通过将商品信息作为弹幕生成模型的输入，可以使模型更贴近实际情况，提高模拟弹幕的精度和真实性，从而增强模型的实用性和适用性。

在一些可选的实施例中，所述模拟弹幕用于指示以下至少一种：针对所述在播商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项。

该技术方案的有益效果在于：通过模拟弹幕展示商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项等信息，能够让观众更全面地了解商品的性能、优点和适用情况，从而提高商品的销售。模拟弹幕可以让用户看到其他观众的评价和购买体验，从而增加用户参与感和互动性，提高直播间的用户体验和用户粘性。模拟弹幕的信息可以针对不同的目标人群进行展示，提高广告的定向性和精准度，从而提高广告营销效果。通过模拟弹幕展示商品的注意事项，如安全须知等信息，可以提醒用户注意个人安全问题，从而提高商品的安全性和用户的信任度。

在一些可选的实施例中，当所述直播热度小于预设直播热度时，所述方法还包括：

根据所述语音信息，从所述直播间的所有用户中选择一个作为目标用户，并向所述目标用户的第二终端设备发送互动请求；

使用所述目标用户的第二终端设备接收互动确认操作，获取所述目标用户对应的目标互动场景；

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

在所述直播间的所有用户的第二终端设备展示所述互动场景图像，以使所述目标用户在所述互动场景中与所述虚拟主播进行互动。

该技术方案的有益效果在于：针对直播间热度低于预设值的情况，使用互动场景来吸引用户进行互动，能够提高直播间的热度，增加用户观看和参与的积极性。通过展示互动场景图像，在虚拟主播的带领下，让用户参与到游戏、活动等互动场景中，提高用户的参与感和体验感，增强用户对直播间的粘性和忠诚度。通过展示互动场景图像，让用户体验到真实的互动场景，吸引潜在用户进入直播间，提高直播间的曝光率和知名度。通过互动场景，可以结合直播产品或服务的特点，进行营销推广，提升直播间的销售业绩与品牌效应。

第二方面，本申请提供了一种电子设备，所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

在直播间的直播过程中，实时获取所述中之人的语音信息；

在一些可选的实施例中，所述至少一个处理器被配置成执行所述计算机程序时采用以下方式检测所述语音信息是否满足预设的引导条件：

在一些可选的实施例中，当所述语音信息满足所述引导条件时，所述至少一个处理器被配置成执行所述计算机程序时还实现以下步骤：

在一些可选的实施例中，所述至少一个处理器被配置成执行所述计算机程序时还实现以下步骤：

根据所述直播信息获取所述直播间的直播热度；

在一些可选的实施例中，所述至少一个处理器被配置成执行所述计算机程序时采用以下方式利用预设的弹幕生成模型获取所述直播间的模拟弹幕：

在一些可选的实施例中，当所述直播热度小于预设直播热度时，所述至少一个处理器被配置成执行所述计算机程序时还实现以下步骤：

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

第四方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

附图说明

下面结合说明书附图和具体实施方式进一步说明本申请。

图1是本申请实施例提供的一种直播控制方法的流程示意图。

图2是本申请实施例提供的一种检测语音信息的流程示意图。

图3是本申请实施例提供的另一种直播控制方法的流程示意图。

图4是本申请实施例提供的又一种直播控制方法的流程示意图。

图5是本申请实施例提供的一种电子设备的结构框图。

图6是本申请实施例提供的一种计算机程序产品的结构示意图。

具体实施方式

下面将结合本申请的说明书附图以及具体实施方式，对本申请中的技术方案进行描述，需要说明的是，在不相冲突的前提下，以下描述的各实施方式之间或各技术特征之间可以任意组合形成新的实施方式。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施方式或设计方案不应被解释为比其他实施方式或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对数量的特别限定，不能构成对本申请实施例的任何限制。

下面对本申请实施例技术领域和相关术语进行简单说明。

虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中，虚拟人是由CG技术构建、以代码形式运行的拟人化形象，具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展，并且在很多技术领域都得到了应用，例如影视、传媒、游戏、金融、文旅、教育、医疗等领域，不仅可以定制化虚拟主持人、虚拟主播、虚拟偶像、虚拟客服、虚拟律师、虚拟培训讲师、虚拟培训讲师、虚拟医生、虚拟讲解员、虚拟助手等，还可以通过文本或音频一键生成视频。在虚拟人中，服务型虚拟人的主要功能为替代真人服务和提供日常陪伴，是现实中服务型角色的虚拟化，其产业价值主要是降低已有服务型产业的成本，为存量市场降本增效。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。计算机程序可以在给定某种类别的任务T和性能度量P下学习经验E，如果其在任务T中的性能恰好可以用P度量，则随着经验E而提高。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是一种特殊的机器学习，通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

在虚拟人技术中，“中之人”指的是通过动作捕捉、面部捕捉技术来演绎并完善虚拟人形象的人，可以实现虚拟人与现实的交互，让虚拟人能够自如地与真人互动。

本申请实施例提供的方案涉及虚拟人、交互设计、人工智能、3D建模、云计算等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

(直播控制方法)

参见图1，图1是本申请实施例提供的一种直播控制方法的流程示意图。

本申请实施例提供了一种直播控制方法，所述方法包括：

步骤S101：接收来自第一终端设备的访问请求，并建立所述第一终端设备与目标服务器之间的通信连接，所述目标服务器用于提供虚拟主播的直播功能，所述虚拟主播采用中之人驱动；

步骤S102：在直播间的直播过程中，实时获取所述中之人的语音信息；

步骤S103：检测所述语音信息是否满足预设的引导条件，当所述语音信息满足所述引导条件时，在所述直播间的所有用户的第二终端设备显示引导画面，所述引导画面用于引导所述用户点击所述直播间的购买链接。

所述直播控制方法可以在电子设备上运行，电子设备和第一终端设备可以各自独立，电子设备也可以和第一终端设备结合为一体。当电子设备和第一终端设备各自独立时，电子设备可以是计算机、服务器(包括云服务器)等具有计算能力的设备。本申请实施例对终端设备不作限定，其例如可以是手机、平板电脑、笔记本电脑、台式计算机、智能穿戴设备等具有显示屏和扬声器的智能终端设备，或者，终端设备可以是具有显示屏和扬声器的工作站或者控制台。显示屏可以是触控显示屏或者非触控显示屏。

目标服务器可以运行一个或多个应用程序(例如是虚拟主播直播应用的应用程序)，用于提供虚拟主播的直播功能。这些应用程序可以使用一种或多种编程语言编写，例如Java、Python、Node.js等，并且可以利用各种框架和库实现各种功能，例如自然语言处理、语音转文本、图像识别等。为了提高目标服务器的可用性和性能，可以使用负载均衡器来将请求分配到多个服务器上，并且可以使用故障转移机制来在服务器故障时自动切换到备用服务器上。电子设备和目标服务器可以各自独立，电子设备也可以和目标服务器结合为一体。

本申请实施例中，虚拟主播包括虚拟人、虚拟动物和虚拟卡通形象中的一种或多种。作为一个示例，虚拟主播为虚拟人“JING”(中文名：镜)。

本申请实施例中，用户是指观看直播间的观众。

所述方法还包括：当所述语音信息不满足所述引导条件时，不作任何操作。

在一个实施例中，引导画面可以包括手的示意图，在示意图中，手的食指指向直播间的购买链接(图示为黄色的购物车)，且示意图以闪烁的状态显示，这样，用户在观看直播时更容易被引导画面吸引从而点击购买链接。

在另一个实施例中，引导画面设置有文本显示区，在文本显示区，显示以下文本信息：“宝宝们，点击底部小黄车，你喜欢的都有”。

在又一个实施例中，引导画面的显示内容包括引导视频，引导视频可以是预先合成的视频，在引导视频中，虚拟主播向用户展示如何点击直播间的购物链接，以及购物链接被点击后所显示的商品页面，以使用户在虚拟主播的引导下，点击购物链接，浏览对应的商品页面，提高购买转化率。

由此，实时获取虚拟主播直播间的中之人的语音信息，并检测语音信息是否满足预设的引导条件，在语音信息满足引导条件的情况下，利用引导画面快速、准确地引导用户点击直播间的购买链接，无需助播人员人工引导，可以更加精准地向用户推荐商品，并提高购买转化率，在提高销售效率的同时保证了用户使用体验和满意度，提高直播过程的自动化程度和智能化水平，进而提高直播销售的效率和收益。此外，虚拟主播直播功能在当今的网络直播行业越来越受欢迎，基于中之人驱动的虚拟主播直播功能，提供了一个更加灵活、便捷、高效的解决方案，能够满足不同用户群体的需求。

参见图2，图2是本申请实施例提供的一种检测语音信息的流程示意图。

在一些实施例中，所述步骤S103中，检测所述语音信息是否满足预设的引导条件，包括：

步骤S201：使用所述语音信息对应的语义提取模型，从所述语音信息中提取语义信息；

步骤S202：分别检测所述语义信息与预设的每个引导关键词是否相匹配；

步骤S203：当所述语义信息与一个或多个所述引导关键词相匹配时，确认所述语音信息满足所述引导条件。

本申请对引导关键词不作限定，引导关键词例如可以是“点击小黄车”、“加购”、“抢购”、“购买”、“冲”等。

本申请实施例中，语义提取模型可以采用基于深度学习的语音转文本模型，如CTC、Transformer等将语音信息转化为文本信息，并采用预训练语言模型提取文本信息的语义特征。这样就可以从语音信息中提取出与输入信息相关的语义信息。

这样做的好处是，使用基于深度学习的语义提取模型可以更准确地提取语音信息的语义特征，从而提高了语义理解的准确性和效率；使用预训练语言模型可以提高自然语言处理的能力，包括情感分析、机器翻译等方面。

在一些实施例中，所述方法还包括：当所述语义信息与所有所述引导关键词不匹配时，确认所述语音信息不满足所述引导条件。

举例说明：直播间A中，虚拟主播小萌采用中之人小甲驱动，在直播一款面膜的过程中，中之人小甲的语音信息为：“宝宝们，这款面膜库存只有100件了，先到先得，快来抢购啊”，提取的语义信息为“面膜”、“100件”、“抢购”，预设的引导关键词为“抢购”，则语义信息满足引导条件，在直播间的所有用户的第二终端设备显示引导画面，引导画面包括一段引导视频，在引导视频中，虚拟主播小萌向用户展示如何点击直播间的购物链接，以及购物链接被点击后所显示的商品页面。

由此，使用语义提取模型对语音信息进行提取和分析，能够更加准确地检测和识别语义信息，并快速匹配到预设的引导关键词，从而提高引导成功率。采用该方法实现直播间的引导操作，可以实现24小时自动运营，降低了人力成本和时间成本，提高了效率，提高了用户参与度和满意度，增强了用户体验。通过引导用户下单，能够有效促进销售业绩的提升，实现商业价值。综上所述，本申请能够提高引导成功率、自动化运营、增强用户体验、优化销售业绩等方面的效果。

在一些实施例中，所述引导画面的显示内容包括引导视频；

由此，通过展示引导视频，引导用户点击购买链接并浏览对应的商品页面，能够提高用户对商品的认知和购买意愿，并提高用户转化率。虚拟主播通过视频引导用户完成购买，能够增强用户购物体验，让用户更容易理解商品特点和使用方法，提高用户满意度。通过虚拟主播的引导，可以增加品牌的知名度和曝光度，提高品牌影响力。采用虚拟主播进行下单引导，能够提高营销效果和效率，降低运营成本，实现营销模式的优化。综上所述，采用在引导画面显示引导视频，并在视频中采用虚拟主播引导用户进行下单的方式，具有提高用户转化率、提升用户购物体验、提高品牌曝光度以及优化营销模式等效果。

参见图3，图3是本申请实施例提供的另一种直播控制方法的流程示意图。

在一些实施例中，当所述语音信息满足所述引导条件时，所述方法还包括：

步骤S104：获取所述直播间的在播商品的商品信息，所述在播商品是所述直播间正在直播的商品；

步骤S105：基于所述商品信息，更新所述直播间的背景音乐，并利用所述直播间的所有用户的第二终端设备播放更新后的所述背景音乐。

本申请实施例对背景音乐不作限定，背景音乐可以包括以下至少一种：歌曲、合成音效和真人语音。

在一具体应用中，背景音乐可以根据虚拟主播所讲解的商品品类随时调整，例如，当虚拟主播讲解美妆类商品时，可以播放欧美流行歌曲，当虚拟主播讲解汉服、茶具、古玩等国风类商品时，可以播放古风歌曲。

由此，通过获取正在直播的商品的商品信息，更新直播间的背景音乐，可以提高直播间的趣味性和互动性，吸引更多用户参与互动和购买。通过利用直播间的所有用户的第二终端设备播放背景音乐，可以增加商品的曝光度，让更多用户了解正在直播的商品，提高商品的关注度和销售量，还可以提高用户的满意度和体验感，增强用户对直播间的粘性和留存率。通过不断更新直播间的背景音乐，可以调整直播间的氛围和主题，提高直播间的营销效果，促进商品销售和品牌影响力的提升。

参见图4，图4是本申请实施例提供的又一种直播控制方法的流程示意图。

在一些实施例中，所述方法还包括：

步骤S106：实时获取所述直播间的直播信息，所述直播信息包括以下任意一种：观众数、直播点赞数和直播弹幕数；

步骤S107：根据所述直播信息获取所述直播间的直播热度；

步骤S108：当所述直播热度小于预设直播热度时，利用预设的弹幕生成模型获取所述直播间的模拟弹幕；

步骤S109：在所述直播间的所有用户的第二终端设备显示所述模拟弹幕。

本申请实施例对预设直播热度不作限定，预设直播热度例如是30、40、50或者70。

由此，通过实时获取直播信息，并根据直播热度生成模拟弹幕，可以提高直播间的趣味性和互动性，吸引更多用户参与互动和留存。通过展示模拟弹幕，可以营造出热闹的氛围，吸引更多观众进入直播间观看，从而增加直播间的热度和观众数量。针对直播热度低于预设直播热度的情况，生成模拟弹幕，可以在直播间热度不够高时调整和优化直播间的运营策略，提升直播间的收视率和用户留存率，从而提高直播间的运营效果。通过模拟弹幕的展示，可以让用户感受到直播间的热闹气氛，增强用户的参与感和体验感，提高用户对直播间的满意度和粘性。

在一些实施例中，所述模拟弹幕用于指示以下至少一种：针对所述在播商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项。

在一个实施例中，模拟弹幕的内容可以是：“这个牛排是是不是XX主播带过专场呀”。

在另一个实施例中，模拟弹幕的内容可以是：“我之前买过这款水乳，确实好用，补水效果棒棒哒”。

在又一个实施例中，模拟弹幕的内容可以是：“能给我介绍一下这款智能门锁怎么安装么”。

由此，通过模拟弹幕展示商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项等信息，能够让观众更全面地了解商品的性能、优点和适用情况，从而提高商品的销售。模拟弹幕可以让用户看到其他观众的评价和购买体验，从而增加用户参与感和互动性，提高直播间的用户体验和用户粘性。模拟弹幕的信息可以针对不同的目标人群进行展示，提高广告的定向性和精准度，从而提高广告营销效果。通过模拟弹幕展示商品的注意事项，如安全须知等信息，可以提醒用户注意个人安全问题，从而提高商品的安全性和用户的信任度。

举例说明：直播间丙的直播热度为60，预设热度为70，直播间丙的直播热度小于预设热度，将直播间的正在直播的扫地机的商品信息输入至弹幕生成模型，得到模拟弹幕的内容如下：“这个扫地机配备了智能感应技术，可以自动识别和避免障碍物，摆脱传统扫地机需要人工干预的繁琐操作”。

在一些实施例中，所述根据所述直播信息，获取所述直播间的直播热度，包括：

将所述直播信息输入至热度评估模型，以得到所述直播间的直播热度；

所述热度评估模型的训练过程包括：

获取训练集，所述训练集包括多个训练数据，每个所述训练数据包括一个样本直播信息以及所述样本直播信息对应的直播热度的标注数据；

针对每个所述训练数据，执行以下处理：

将所述训练数据中的样本直播信息输入预设的深度学习模型，以得到所述样本直播信息对应的直播热度的预测数据；

基于所述样本直播信息对应的直播热度的预测数据和标注数据，对所述深度学习模型的模型参数进行更新；

检测是否满足预设的训练结束条件；如果是，则将训练出的所述深度学习模型作为所述热度评估模型；如果否，则继续利用下一个所述训练数据训练所述深度学习模型。

本申请实施例对热度评估模型以及下文提及的弹幕生成模型的获取方式不作限定，在一些实施例中，可以训练得到上述各模型，在另一些实施例中，可以采用预先训练好的上述各模型。

当采用深度学习方式训练得到各模型时，通过设计，建立适量的神经元计算节点和多层运算层次结构，选择合适的输入层和输出层，就可以得到各模型对应的预设的深度学习模型(即各模型对应的初始模型)，通过深度学习模型的学习和调优，建立起从输入到输出的函数关系，虽然不能100％找到输入与输出的函数关系，但是可以尽可能地逼近现实的关联关系，由此训练得到的各模型，可以基于输入数据获取对应的输出数据，适用范围广，且计算结果准确性高、可靠性高。

使用各模型对应的训练集对深度学习模型进行训练，能够只通过学习少量样本就可以进行快速建模，深度学习模型在不断的训练过程中训练误差会逐渐降低，保存最优的权重，并读取权重；记录下训练集和验证集的精度，便于调参(调整模型参数)；对深度学习模型的模型参数进行更新，可以使模型更好地拟合数据，具有有效的泛化能力，提高鲁棒性和拟合精度。

在一些可选的实施方式中，可以对历史数据进行数据挖掘，以获取训练集中的样本数据。也就是说，这些样本数据可以是在真实互动过程中采集得到的。另外，样本数据也可以是利用GAN模型的生成网络自动生成的。

其中，GAN模型即生成对抗网络(Generative Adversarial Network)，由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。使用GAN模型可以生成大量样本数据，用于上述各模型的训练过程，能有效降低原始数据采集的数据量，大大降低数据采集和标注的成本。

本申请实施例对各模型的训练过程不作限定，其例如可以采用监督学习的训练方式，或者可以采用半监督学习的训练方式，或者可以采用无监督学习的训练方式。

当采用监督学习或者半监督学习的训练方式时，本申请实施例对标注数据的获取方式不作限定，例如可以采用人工标注的方式，也可以采用自动标注或者半自动标注的方式。当样本数据是在真实互动过程中采集得到时，可以通过关键词提取的方式从历史数据中获取真实数据作为标注数据。

本申请实施例对各模型的训练过程中的训练结束条件不作限定，其例如可以是训练次数达到预设次数(预设次数例如是1次、3次、10次、100次、1000次、10000次等)，或者可以是训练集中的训练数据都完成一次或多次训练，或者可以是本次训练得到的总损失值不大于预设损失值。

由此，通过输入直播信息并使用深度学习模型进行训练，获得直播间的热度评估模型。通过该模型，可以实时地对直播间的热度情况进行评估，提供参考意见和决策支持。这对于直播平台的运营和管理具有重要意义，可以帮助平台更好地了解用户需求、调整内容策略，提高直播平台的服务质量和用户体验。同时，还能够提升直播平台的效率和精度，减少人工干预，节省成本，提高经济效益。具体而言，通过实时了解直播间的热度情况，可以更加准确地把握用户需求和兴趣，调整内容策略，提供更符合用户期望的直播内容，从而提高直播平台的服务质量和用户体验。自动化地对直播间进行热度评估，减少了人工干预的需求，大大提高了管理效率。通过使用深度学习模型对直播间进行热度评估，不仅可以提高准确性，还可以降低成本，提高经济效益。

在一些实施例中，所述利用预设的弹幕生成模型获取所述直播间的模拟弹幕，包括：

本申请实施例中，每个商品的商品信息可以包括以下至少一种：商品标识、商品价格、库存数量、品牌介绍、商品卖点、适用场景、买家秀展示、物流介绍、商品销量、发货地点和发货时间。

由此，通过获取直播间在播商品信息，并将其输入弹幕生成模型得到模拟弹幕，可以在直播间展示和推广商品，提高商品的曝光率和销售效果。通过弹幕的展示，可以让用户获得更多关于商品的信息和其他用户的评价，增加用户的参与感和购买决策，从而促进交易的产生。通过展示模拟弹幕，可以吸引更多观众进入直播间观看，在提高商品销售的同时，增加直播间的收益和转化率。通过将商品信息作为弹幕生成模型的输入，可以使模型更贴近实际情况，提高模拟弹幕的精度和真实性，从而增强模型的实用性和适用性。

在一些实施例中，当所述直播热度小于预设直播热度时，所述方法还包括：

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

本申请实施例对虚拟主播所提供的互动场景不作限定，虚拟主播可以提供多种类型的互动场景，如语音互动、文本聊天、图像互动、虚拟游戏互动、语音交互式小说、动画片制作互动、虚拟演唱会(音乐会)、虚拟综艺节目、虚拟体育竞技互动、拍照合影、虚拟舞蹈互动、虚拟现实游戏、线上演出互动、手势控制互动、体感游戏互动、个性化定制、虚拟旅游互动、线上直播互动、社交网络互动等。

由此，针对直播间热度低于预设值的情况，使用互动场景来吸引用户进行互动，能够提高直播间的热度，增加用户观看和参与的积极性。通过展示互动场景图像，在虚拟主播的带领下，让用户参与到游戏、活动等互动场景中，提高用户的参与感和体验感，增强用户对直播间的粘性和忠诚度。通过展示互动场景图像，让用户体验到真实的互动场景，吸引潜在用户进入直播间，提高直播间的曝光率和知名度。通过互动场景，可以结合直播产品或服务的特点，进行营销推广，提升直播间的销售业绩与品牌效应。

在一些实施例中，所述根据所述语音信息，从所述直播间的所有用户中选择一个作为目标用户，可以包括：

根据所述语音信息对应的语义信息，获取目标用户标识，将所述目标用户标识对应的用户作为所述目标用户。

举例说明：在一场直播中，虚拟主播的语音信息为：“恭喜ID为‘温柔的小兔子’的观众成为我们的幸运观众”，语义信息为“ID”、“温柔的小兔子”，将ID为温柔的小兔子的用户作为目标用户。

向目标用户的手机发送互动请求，目标用户在手机上点击了互动确认按钮，并选择了一个室内KTV包厢场景作为目标互动场景。

目标服务器根据所选的目标互动场景获取背景图像。例如，背景图像是一个KTV包厢室内图像。

目标服务器获取包含虚拟主播的前景图像。例如，在KTV包厢场景中，虚拟主播正在包厢内的舞台上演唱歌曲。

目标服务器将背景图像与前景图像进行合成，生成互动场景图像。在这个互动场景中，虚拟主播出现在KTV包厢背景中的舞台上。

最后，用户的终端设备展示互动场景图像。用户可以在目标互动场景中与虚拟主播进行互动，例如点歌、与虚拟主播一起唱歌或进行对话、一起干杯等。

通过这种虚拟主播互动方法，用户能够获得身临其境般的沉浸式体验，与虚拟主播进行有趣、生动的互动。同时，该方法可以灵活适应各种场景，让用户在不同场合都能享受到与虚拟主播互动的乐趣。

在一个具体应用场景中，本申请实施例还提供了一种直播控制方法，所述方法包括：

在直播间的直播过程中，实时获取所述中之人的语音信息；

所述检测所述语音信息是否满足预设的引导条件，包括：

所述引导画面的显示内容包括引导视频；

当所述语音信息满足所述引导条件时，所述方法还包括：

所述方法还包括：

根据所述直播信息获取所述直播间的直播热度；

所述利用预设的弹幕生成模型获取所述直播间的模拟弹幕，包括：

所述模拟弹幕用于指示以下至少一种：针对所述在播商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项。

当所述直播热度小于预设直播热度时，所述方法还包括：

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

在一些实施例中，为了提高引导画面和模拟弹幕的显示精度，可以使用更先进的语音识别技术，例如深度学习技术，同时增加语音数据集的数量和多样性，以提高识别准确度。

引导画面不仅应该显示购买链接，还可以显示一些促销信息、商品特点等，以吸引用户点击购买链接。此外，可以根据用户的历史行为和偏好，个性化显示引导画面。

为了提高直播间的氛围和用户体验，可以根据不同的直播场景选择不同的背景音乐，并考虑与正在直播的商品相符合的音乐风格。

模拟弹幕的内容应该更加贴合用户的兴趣和需求，可以通过分析用户的历史行为和偏好来生成相关的模拟弹幕。

为了提高用户的参与度和互动体验，可以增加更多的互动场景和互动方式，例如游戏、问答、抽奖等。同时，可以根据用户的喜好和行为个性化选择互动场景和方式。

直播热度的判断标准应该更加合理和科学，可以根据用户的行为、直播内容、时段等多方面因素来判断直播热度，以减少模拟弹幕的显示频率。

为了提高用户的参与度和互动体验，可以考虑采用更多的互动请求方式，例如语音、视频、文字等，同时增加互动请求的多样性和创意性，以提高用户的参与度。

具体地，可以引入实时语音识别技术。语音信息的处理是通过提取语义信息来实现的。而使用实时语音识别技术，可以直接将语音信息转换成文字，从而更加准确地判断是否满足引导条件，提高用户体验。

还可以引入深度学习模型来生成模拟弹幕。模拟弹幕是通过预设的弹幕生成模型来生成的。而引入深度学习模型，可以更加准确地生成符合用户需求和商品特点的模拟弹幕，提高用户参与度。

互动场景的生成是通过目标用户的第二终端设备来实现的。而通过引入虚拟现实技术，可以提高用户的参与度和沉浸感，从而提高直播间的互动性。

直播间的商品信息是通过在播商品来获取的。而引入推荐系统，可以基于用户的兴趣和历史行为，提供更加符合用户需求的商品推荐，从而提高用户购买意愿和销售额。

直播间的音视频质量对用户的体验至关重要。优化音视频质量，可以提高用户的观看体验和参与度，从而提高直播间的热度和销售额。

此外，在直播间中引入用户画像，即基于用户的兴趣、行为等数据，为用户推荐更相关的商品和引导内容。例如，对于喜欢美妆的用户，可以引导其点击直播间中美妆产品的购买链接，并展示与美妆相关的引导视频。

对直播过程中的中之人语音进行实时转写，将其转化为文字信息。这样可以更方便地对语音信息进行处理和分析，并且可以为直播间中听力受损或外语不流利的用户提供更好的体验。

根据直播间中的直播信息(例如观众数、点赞数等)自适应调整背景音乐的节奏、速度等，以提升用户的观感体验。例如，在直播间中人气高涨时，可以增加背景音乐的节奏和速度，以更好地配合直播内容。

利用人工智能技术，实现更智能的互动体验。例如，在直播间中可以实现语音交互功能，用户可以直接向虚拟主播提问或者进行互动，虚拟主播则可以实时回答用户的问题或者进行互动。这样可以增强用户的参与感和互动体验。

利用增强现实(AR)技术，将虚拟主播的形象和直播内容融入到用户的实际场景中，以增强用户的沉浸感和体验。例如，在直播间中可以引入AR商品展示，让用户通过AR技术在虚拟空间中查看商品的效果，以增加用户对商品的认知和购买意愿。

为了提高直播间用户的购买转化率和用户体验，可以引入一个推荐机制。可以根据用户的历史行为、偏好、兴趣等信息，为用户推荐更加个性化、符合用户需求的商品或服务。这样能够提高用户的购买意愿，增加购买转化率，并提高用户对直播间的满意度。

为了满足不同语言用户的需求，可以引入机器翻译技术。直播主播的语音信息可以通过机器翻译技术翻译成用户所需的语言，并在直播间的所有用户的第二终端设备上显示。这样能够提高直播间的用户覆盖率，吸引更多的用户观看直播，提高直播间的曝光度和影响力。

为了提高直播主播的语音表现力和表现效果，可以引入AI语音合成技术。通过AI语音合成技术，直播主播可以将自己的语音信息转化为更加生动、自然、富有表现力的语音，从而提高用户对直播主播的好感度和认可度，吸引更多的用户观看直播，提高直播间的用户互动和用户粘性。

(电子设备)

本申请实施例还提供了一种电子设备，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

在直播间的直播过程中，实时获取所述中之人的语音信息；

根据所述直播信息获取所述直播间的直播热度；

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

参见图5，图5是本申请实施例提供的一种电子设备10的结构框图。

电子设备10例如可以包括至少一个存储器11、至少一个处理器12以及连接不同平台系统的总线13。

存储器11可以包括易失性存储器形式的(计算机)可读介质，例如随机存取存储器(RAM)111和/或高速缓存存储器112，还可以进一步包括只读存储器(ROM)113。

其中，存储器11还存储有计算机程序，计算机程序可以被处理器12执行，使得处理器12实现上述任一项方法的步骤。

存储器11还可以包括具有至少一个程序模块115的实用工具114，这样的程序模块115包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器12可以执行上述计算机程序，以及可以执行实用工具114。

处理器12可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

总线13可以为表示几类总线结构的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构的任意总线结构的局域总线。

电子设备10也可以与一个或多个外部设备例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备10交互的设备通信，和/或与使得该电子设备10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口14进行。并且，电子设备10还可以通过网络适配器15与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器15可以通过总线13与电子设备10的其它模块通信。应当明白，尽管图中未示出，但在实际应用中可以结合电子设备10使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

(计算机可读存储介质)

本申请实施例还提供了一种计算机可读存储介质，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

(计算机程序产品)

本申请实施例还提供了一种计算机程序产品，其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

参见图6，图6是本申请实施例提供的一种计算机程序产品的结构示意图。

所述计算机程序产品用于实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。计算机程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的计算机程序产品不限于此，计算机程序产品可以采用一个或多个计算机可读介质的任意组合。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种直播控制方法，其特征在于，所述方法包括：

在直播间的直播过程中，实时获取所述中之人的语音信息；

2.根据权利要求1所述的直播控制方法，其特征在于，所述检测所述语音信息是否满足预设的引导条件，包括：

3.根据权利要求2所述的直播控制方法，其特征在于，所述引导画面的显示内容包括引导视频；

4.根据权利要求3所述的直播控制方法，其特征在于，当所述语音信息满足所述引导条件时，所述方法还包括：

5.根据权利要求1所述的直播控制方法，其特征在于，所述方法还包括：

根据所述直播信息获取所述直播间的直播热度；

6.根据权利要求5所述的直播控制方法，其特征在于，所述利用预设的弹幕生成模型获取所述直播间的模拟弹幕，包括：

7.根据权利要求6所述的直播控制方法，所述模拟弹幕用于指示以下至少一种：针对所述在播商品的正向评价、卖点介绍、使用场景、使用方法、适用人群和注意事项。

8.根据权利要求5所述的直播控制方法，其特征在于，当所述直播热度小于预设直播热度时，所述方法还包括：

根据所述目标互动场景获取背景图像；

获取包含所述虚拟主播的前景图像；

根据所述背景图像和所述前景图像生成互动场景图像；

9.一种电子设备，其特征在于，所述电子设备包括存储器和至少一个处理器，所述存储器存储有计算机程序，所述至少一个处理器被配置成执行所述计算机程序时实现以下步骤：

在直播间的直播过程中，实时获取所述中之人的语音信息；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求1-8任一项所述方法的步骤或者实现权利要求9所述电子设备的功能。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求1-8任一项所述方法的步骤或者实现权利要求9所述电子设备的功能。