CN117640982A

CN117640982A - 直播交互方法、装置、设备和存储介质

Info

Publication number: CN117640982A
Application number: CN202311756511.1A
Authority: CN
Inventors: 杨涛
Original assignee: China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-01

Abstract

本发明公开了一种直播交互方法、装置、设备和存储介质，在检测到与游戏主播连麦的用户开启了智能互动模式时，对游戏主播正在直播的游戏视频进行场景识别，当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与特定游戏场景对应的目标氛围语音，并将所述目标氛围语音发送到直播间，以在直播间播放这一模拟连麦用户的目标氛围语音，连麦用户可以不说话也能实现与游戏主播的互动，满足连麦用户与游戏主播的互动需求，同时增加了直播间氛围，提高主播的互动积极性。

Description

直播交互方法、装置、设备和存储介质

技术领域

本发明涉及直播技术领域，尤其涉及一种直播交互方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展和智能设备的应用，游戏已成为娱乐和社交的一种重要方式。特别是随着直播的兴起，游戏直播已在各大直播平台广泛应用，直播平台亦提供给用户越来越多的交互功能。在游戏直播平台中，很多游戏主播会与观众进行连麦，但由于观众或主播的不善言辞，导致直播间人气一直起不来，大大降低了主播的互动积极性，从而影响到直播间的氛围。为了改善直播间的氛围，现有技术主要都还是以运营互动方式为主，一种是人力运营，通过直播间的运营人员去带节奏拉起连麦用户的参与度，但是这种方式投入的成本较大，且不够智能；另一种是通过在直播间机械式的添加弹幕，但这些弹幕往往无法契合实际直播场景，会让主播和连麦用户觉得不够真实，同样会降低主播的互动积极性。

发明内容

本发明实施例的目的是提供一种直播交互方法、装置、设备和存储介质，能够在游戏主播直播时根据相应的游戏操作结果向主播发送对应的氛围语音，增加直播间氛围，提高主播的互动积极性。

为实现上述目的，本发明实施例提供了一种直播交互方法，包括：

当检测到第一用户端启动智能互动模式时，对第二用户端正在直播的游戏视频进行场景识别；其中，所述第一用户端和所述第二用户端处于连麦状态；

当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与所述特定游戏场景对应的目标氛围语音；

将所述目标氛围语音发送到第二用户端，以使所述第二用户端播放所述目标氛围语音。

作为上述方案的改进，所述对第二用户端正在直播的游戏直播视频进行游戏场景识别，包括：

获取所述第二用户端正在直播的游戏视频；

对所述游戏视频进行目标物体检测，并根据目标物体检测结果识别所述游戏视频中的游戏场景。

作为上述方案的改进，所述方法还包括：

获取所述第一用户端采集到的音频数据；

提取所述音频数据中的声纹特征，并根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音。

作为上述方案的改进，每一所述特定游戏场景预先配置有对应的惯用语列表；则，所述根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音，包括：

将所述声纹特征输入到模拟语音生成模型中，以使所述模拟语音生成模型输出与所述惯用语列表对应的氛围语音。

作为上述方案的改进，所述获取与所述特定游戏场景对应的目标氛围语音，包括：

根据所述第一用户端的标识码查找对应的氛围语音包，并从所述氛围语音包中获取与所述特定游戏场景对应的目标氛围语音。

作为上述方案的改进，所述获取与所述特定游戏场景对应的目标氛围语音后，所述方法还包括：

若所述目标氛围语音包括至少两条，且存在至少两条目标氛围语音对应的标识码不相同时，按照预设的排序规则对至少两条目标氛围语音进行排序；则，所述将所述目标氛围语音发送到第二用户端，包括：

按照排序顺序依次将至少两条目标氛围语音发送到第二用户端。

作为上述方案的改进，所述排序规则为：以第一用户端最后采集到音频数据的时间为序；或，以第一用户端的连麦时间为序。

为实现上述目的，本发明实施例还提供了一种直播交互装置，包括：

场景识别模块，用于当检测到第一用户端启动智能互动模式时，对第二用户端正在直播的游戏视频进行场景识别；其中，所述第一用户端和所述第二用户端处于连麦状态；

目标氛围语音获取模块，用于当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与所述特定游戏场景对应的目标氛围语音；

目标氛围语音发送模块，用于将所述目标氛围语音发送到第二用户端，以使所述第二用户端播放所述目标氛围语音。

为实现上述目的，本发明实施例还提供一种直播交互设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的直播交互方法。

为实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的直播交互方法。

相比于现有技术，本发明公开的直播交互方法、装置、设备和存储介质，在检测到与游戏主播连麦的用户开启了智能互动模式时，对游戏主播正在直播的游戏视频进行场景识别，当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与特定游戏场景对应的目标氛围语音，并将所述目标氛围语音发送到直播间，以在直播间播放这一模拟连麦用户的目标氛围语音，连麦用户可以不说话也能实现与游戏主播的互动，满足连麦用户与游戏主播的互动需求，同时增加了直播间氛围，提高主播的互动积极性。

附图说明

图1是本发明实施例提供的一种直播交互方法的流程图；

图2是本发明实施例提供的一种直播交互方法的另一流程图；

图3是本发明实施例提供的一种游戏界面示意图；

图4是本发明实施例提供的另一种游戏界面示意图；

图5是本发明实施例提供的生成氛围语音的流程图；

图6是本发明实施例提供的一种直播交互装置的结构框图；

图7是本发明实施例提供的一种直播交互设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种直播交互方法的流程图，所述直播交互方法包括：

S11、当检测到第一用户端启动智能互动模式时，对第二用户端正在直播的游戏视频进行场景识别；

S12、当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与所述特定游戏场景对应的目标氛围语音；

S13、将所述目标氛围语音发送到第二用户端，以使所述第二用户端播放所述目标氛围语音。

值得说明的是，本发明实施例所述的直播交互方法由服务器执行实现，所述服务器与安装了直播软件的用户端实现信息交互，所述直播软件可以用来直播以及可以观看直播。所述服务器与用户端的信息交互可参考图2，图2是本发明实施例提供的一种直播交互方法的另一流程图，为了将本发明实施例描述清楚，图2中的用户端还区分了第一用户端和第二用户端，第一用户端为观众端，表示此时正在观看直播的终端设备，第二用户端为主播端，表示此时正在进行直播的终端设备。可以理解的，所述第一用户端也可以进行直播，此时作为第二用户端，所述第二用户端也可以观看直播，此时作为第一用户端。

示例性的，服务器在检测到与游戏主播连麦的用户开启了智能互动模式时，对游戏主播正在直播的游戏视频进行场景识别，当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，服务器获取预存的与特定游戏场景对应的目标氛围语音，并将所述目标氛围语音发送到直播间，以在直播间播放这一模拟连麦用户的目标氛围语音，连麦用户可以不说话也能实现与游戏主播的互动，满足连麦用户与游戏主播的互动需求，同时增加了直播间氛围，提高主播的互动积极性。

具体地，在步骤S11中，当检测到第一用户端启动智能互动模式时，对第二用户端正在直播的游戏视频进行场景识别；其中，所述第一用户端和所述第二用户端处于连麦状态。

示例性的，当用户正在观看游戏直播时，所述第一用户端的显示界面上有两个按钮，一个是和主播连麦的上麦按钮，另一个是用于启动智能交互模式的智能交互按钮。当用户点击所述上麦按钮时，会触发与所述游戏主播的连麦请求，此时所述第二用户端的显示界面上会出现“xx用户请求连麦”的提示信息，若所述游戏主播同意连麦，则用户可与游戏主播直接进行语音沟通，若所述游戏主播不同意连麦，则所述第一用户端的显示界面会出现“xx主播拒绝连麦”的提示信息，此时用户无法与主播进行语音沟通。若所述游戏主播同意连麦，则连麦用户可以选择是否启动智能语音交互模式，若是用户此时不想说话(如用户临时离开第一用户端)，但所述第一用户端和所述第二用户端仍旧处于连麦状态，用户可以按下所述智能交互按钮，以启动所述智能交互模式，所述智能交互按钮的作用是在用户不方便说话的时候，帮助用户参与直播模拟连麦沟通。可以理解的，当用户再次按下所述智能交互按钮时，关闭所述智能交互模式，连麦用户可继续与主播进行语音沟通。

具体地，所述服务器在检测到所述第一用户端启动了智能交互模式后，实时获取所述第二用户端正在直播的游戏视频，并对第二用户端正在直播的游戏视频进行场景识别。

示例性的，所述游戏场景可以反应主播控制的虚拟角色的角色状态，以及反应主播所玩游戏的游戏状态，如虚拟角色处于静止状态(虚拟角色静止场景)、跑步状态(虚拟角色跑步场景)、回城状态(虚拟角色回城场景)、战斗状态(虚拟角色战斗场景，包括正在战斗状态、被击败、击败敌人、放出大招等)、回城缓冲(虚拟角色等待回城场景)等，又或者游戏一方胜利时显示的对局详情(对局结果显示场景)、主播打开地图界面、进入商城、打开背包等(游戏信息显示场景)等，而并不是所有游戏场景都需要播放氛围语音，仅在这一游戏场景为特定游戏场景才需要播放氛围语音，这一特定游戏场景可以通过监控游戏主播在历史直播时，连麦用户发言最多和/或观众发送弹幕最多的游戏场景设置为所述特定游戏场景，当然，后台人员也可以按照经验自行设置。如所述特定游戏场景包括：主播控制的虚拟角色被击败、主播所在游戏方失败、主播所在游戏方被团灭、主播控制的虚拟角色放出大招、主播所在游戏方胜利、主播控制的虚拟角色击倒敌人、主播控制的虚拟角色击倒敌人的数量大于n个(n为大于1的整数)、主播闯过一关、主播达成某个游戏成就。值得说明的是，以上所述特定游戏场景仅作为示例，并不仅限于此，且所述特定游戏场景可根据游戏类型进行设置，所述游戏可以为n V n(如2V2、3V3、4V4、5V5)的团队竞技游戏、1V1单挑类游戏、大世界探索类游戏、闯关类游戏等。

具体地，所述对第二用户端正在直播的游戏直播视频进行游戏场景识别，包括：获取所述第二用户端正在直播的游戏视频；对所述游戏视频进行目标物体检测，并根据目标物体检测结果识别所述游戏视频中的游戏场景。

示例性的，所述目标物体为虚拟角色或游戏弹窗，本发明实施例中识别游戏视频中的游戏场景的方式有以下两种，一种是通过识别游戏视频中虚拟角色的动作得到，另一种是识别游戏视频中的游戏弹窗得到。两种方式可以择一应用或者共同应用。

在第一种实施方式中，对所述游戏视频进行虚拟角色检测，以确定所述虚拟角色的角色动作，并根据所述角色动作识别所述游戏视频中的游戏场景。

示例性的，服务器中预先预置有不同游戏的角色动作识别模板，服务器在获取到游戏视频后，对所述游戏视频中主播控制的虚拟角色进行动作识别，利用所述角色动作识别模板与所述虚拟角色的角色动作进行匹配，可以得知虚拟角色此时的角色动作，若是这一角色动作是所述虚拟角色正在放出大招，则符合“主播控制的虚拟角色放出大招”这一特定游戏场景；若这一角色动作是虚拟角色正在回城缓冲中，则符合“虚拟角色回城场景”，这一游戏场景并非所述特定游戏场景。通过识别角色动作的方式适用于团队竞技游戏、1V1单挑类游戏、大世界探索类游戏等。如图3所示，玩家A为游戏主播，玩家A控制虚拟角色A，玩家B为其余玩家，玩家B控制虚拟角色B，此时虚拟角色A针对虚拟角色B放出大招，虚拟角色B表征生命值的血条减少，以及虚拟角色B周围呈现“掉血”的数值，服务器识别到这一动作为虚拟角色A的大招动作，则判定此时符合“主播控制的虚拟角色放出大招”这一特定游戏场景。

另外，本发明实施例中除了能够对所述主播控制的虚拟角色进行角色动作识别外，还能够对其余玩家(队友或敌对方)控制的虚拟角色进行角色动作识别，若是检测到主播虚拟角色与敌方虚拟角色在对决，且敌方虚拟角色被击败时，敌方虚拟角色会在游戏视频中呈现一个倒下的动作，服务器识别到敌方虚拟角色倒下的动作时，则判定此时符合“主播控制的虚拟角色击倒敌人”这一特定游戏场景，若是检测到敌方虚拟角色倒下的数量较多，且大于n，则此时符合“主播控制的虚拟角色击倒敌人的数量大于n”这一特定游戏场景，若是检测到主播虚拟角色被击倒，则此时符合“主播控制的虚拟角色被击倒”这一特定游戏场景。值得说明的是，若是检测到主播虚拟角色与敌方虚拟角色在对决，但敌方虚拟角色并未被击倒以及主播虚拟角色也未被击倒，则此时符合的游戏场景为“虚拟角色正在战斗场景”，由于此时并未呈现胜负结果(主播虚拟角色被击倒或敌方虚拟角色被击倒)，因此此时的游戏场景还不符合所述特定游戏场景，直至检测到其中一方倒下时，才符合“主播控制的虚拟角色击倒敌人”或“主播控制的虚拟角色被击倒”这一特定游戏场景。

在第二种实施方式中，对所述游戏视频进行游戏弹窗检测，以识别所述游戏弹窗的文字信息，并根据所述文字信息识别所述游戏视频中的游戏场景。

示例性的，通过识别游戏弹窗的方式适用的游戏较多，如适用于团队竞技游戏、1V1单挑类游戏、大世界探索类游戏、闯关类游戏等，参见图4，假设此时有两个游戏团队，分别为团队A和团队B，团队A包括虚拟角色A1、A2、A3，团队B包括虚拟角色B1、B2、B3，在一次团战后，团队A将团队B所有成员击败，若游戏主播为团队A的玩家，此时游戏中会出现“三连破”的游戏弹窗，则此时符合“主播控制的虚拟角色击倒敌人的数量大于n个”的特定游戏场景；若游戏主播为团队B的玩家，此时游戏中会出现弹窗“团灭”的游戏弹窗，则此时符合“主播所在游戏方被团灭”的特定游戏场景。又比如在闯关游戏中，主播闯过一关之后，游戏中会有弹窗提示“成功通过x关卡”，则此时符合“主播闯过一关”这一特定游戏场景，当主播由于达成游戏的某个成就时，如刷新最快通关时间，游戏中会有“达成最快通关成就”，此时符合“主播达成某个游戏成就”这一特定游戏场景。

另外，游戏中的弹窗除了表示游戏的胜负结果、对局结果、闯关结果外，还包括一些游戏提示信息，因此通过文字识别的方式能够得知这一游戏弹窗出现的原因，进而分析当前游戏场景是否为所述特定游戏场景。如在大世界探索类游戏中，当虚拟角色抵达某一地方触发事件时，会在游戏界面弹窗提示玩家，如此时显示的文字信息为“前方突发事件”，根据这一游戏弹窗的文字信息可以得知这一游戏场景并不符合所述特定游戏场景，或者，虚拟角色在进入到秘境或副本时，也会出现弹窗提示，如提示“进入xx副本/秘境”，此时也可以得知这一游戏场景并不符合所述特定游戏场景。

在本发明实施例中，通过识别游戏视频中确定虚拟角色的角色动作来确定特定游戏场景，可以通过角色动作反应主播的游戏操作，进而为后续匹配氛围语音提供可靠依据。通过识别游戏弹窗的方式来确定游戏场景，能够得知这一游戏弹窗出现的原因，进而分析当前游戏场景是否为特定游戏场景，另外，由于进行文字识别，可以快速的确定特定游戏场景，进而提高场景识别效率，且适应的游戏类型较广，通用性强。

具体地，在步骤S12中，每一所述特定游戏场景均有其对应的至少一条氛围语音，所述氛围语音的类型按照用户在观看游戏直播时的情绪，可以划分为：喝彩、鼓励、吐槽和惋惜，所述氛围语音的示例可以参考表1，表1中示出了四种氛围语音的示例，及其对应的特定游戏场景的示例，可以理解的，表1中的氛围语音仅作为示例，所述氛围语音的类型并不仅限于此，不同的两个特定游戏场景可以具有相同的氛围语音。

表1不同氛围语音及其对应的特定游戏场景示例

示例性的，假设此时符合“主播达成某个游戏成就”这一特定游戏场景，则可以获取“主播你好帅”、“主播怎么这么牛”、“主播这个技能怎么释放的哈，可以教教我吗”这些氛围语音，可以获取一条或多条氛围语音。

值得说明的是，若观看直播的用户为新注册用户，此时所述氛围语音可以由服务器进行设置，在用户按下所述智能交互模式时，在识别到特定游戏场景时，会播放服务器默认设置的与所述特定游戏场景对应的氛围语音。当这一用户已有长时间观看直播的经验时(如注册时间达到时间阈值，或连麦次数达到次数阈值)，由于这一用户在每次连麦与主播进行沟通的时候，服务器都会记录这一用户的惯用语，在用户多次连麦后，已经收集了足够多的用户语音，则可以得到用户的惯用语，从而可以根据这一惯用语更新所述氛围语音，按照用户的惯用语去生成对应的氛围语音。

具体地，在步骤S13中，将所述目标氛围语音发送到第二用户端，以使所述第二用户端播放所述目标氛围语音。

示例性的，假设在步骤S12中获取的氛围语音只有一条，则直接将这一条氛围语音发送到第二用户端，第二用户端在收到所述服务器发送的氛围语音后，会立刻播放，此时在除了主播能听到这一氛围语音之外，观看这一直播的所有观众(包括连麦用户)都可以听到这一氛围语音。如这一氛围语音为“主播怎么这么牛”，则在第二用户端播放“主播怎么这么牛”，观看这一直播的所有第一用户端均可以收听到这句氛围语音。

示例性的，假设在步骤S12中获取的氛围语音有多条(可用户自行设置获取多少条，或者服务器默认设置不能超过y条，y为大于1的整数)，则依次发送这多条氛围语音给所述第二用户端，若仅有一个第一用户端开启了智能交互模式(只有一个连麦用户启动了智能交互模式)，则表示这几条氛围语音都是与这一第一用户端对应的，则无需排序可以随机发送，第二用户端在接收到其中一条氛围语音时，需要等待上一条接收的氛围语音播放完毕后再播放下一条氛围语音，若此时接收到的氛围语音为第一条，则可以直接播放。如此时有两条氛围语音“主播怎么这么牛”、“主播这个技能怎么释放的哈，可以教教我吗”，在第二用户端接收到“主播怎么这么牛”这一条件氛围语音后，直接播放，若是还未播放完第一条“主播怎么这么牛”这一氛围语音，但是已经收到第二条“主播这个技能怎么释放的哈，可以教教我吗”这一氛围语音，则等待第一条氛围语音播放完毕后，再播放第二条氛围语音。

在本发明实施例中，针对第二用户端收到多条氛围语音的情况，需要等待上一条氛围语音播放完毕后再播放下一条氛围语音，不会出现多条语音重叠播放的问题，提高观众观看的直播的体验。

进一步地，考虑到与主播连麦的用户是可以有多个的，若是此时存在至少两个连麦用户都开启了智能交互模式，则服务器此时需要获取符合不同连麦用户语音习惯的氛围语音，此时所述获取与所述特定游戏场景对应的目标氛围语音，包括：根据所述第一用户端的标识码查找对应的氛围语音包，并从所述氛围语音包中获取与所述特定游戏场景对应的目标氛围语音。

示例性的，所述服务器预先将所述第一用户端的标识码与氛围语音包进行绑定，所述标识码可以是连麦用户的账号ID，所述氛围语音包存储在服务器的数据库中，所述氛围语音包中包括至少一条氛围语音。当第一用户端A和第一用户端B同时开启了智能交互模式时，获取所述第一用户端A的标识码A和第一用户端B的标识码B，根据标识码A和B分别找到对应的氛围语音包，然后从所述氛围语音包中获取符合所述特定游戏场景的至少一条目标氛围语音。

在本发明实施例中，当存在多个连麦用户启动智能交互模式时，根据第一用户端的标识码去对应的氛围语音包中获取氛围语音，使得获取的氛围语音是符合第一用户端的用户语音习惯的，不会出现氛围语音获取错误的情况，且能够提高获取氛围语音的效率。

更进一步地，所述获取与所述特定游戏场景对应的目标氛围语音后，所述方法还包括：若所述目标氛围语音包括至少两条，且存在至少两条目标氛围语音对应的标识码不相同时，按照预设的排序规则对至少两条目标氛围语音进行排序；则，所述将所述目标氛围语音发送到第二用户端，包括：按照排序顺序依次将至少两条目标氛围语音发送到第二用户端。

值得说明的是，“存在至少两条目标氛围语音对应的标识码不相同”这一情况是由于有至少两个第一用户端都启动了智能交互模式导致的，此时步骤S12中获取的目标氛围语音有多条，且存在至少两条目标氛围语音是从不同氛围语音包中获取的，则此时有两种方式发送这些目标氛围语音：第一种是随机排序后依次发送，这种方式可参考上述实施例，在此不再赘述；另一种是按照预设的排序规则对至少两条目标氛围语音进行排序，此时不可以随机发送这几条目标氛围语音，需要按照排序顺序依次将至少两条目标氛围语音发送到第二用户端。由用户自行设置是随机发送还是按照排序规则发送，服务器默认按照排序规则发送。

示例性的，当第一用户端A和第一用户端B同时开启了智能交互模式时，在获取到跟第一用户端A对应的目标氛围语音A，以及获取到跟第二用户端B对应的目标氛围语音B后，按照排序顺序对目标氛围语音A和目标氛围语音B进行排序，假设此时排序顺序为目标氛围语音A→目标氛围语音B，则先发送目标氛围语音A给第二用户端，后发送目标氛围语音B给第二用户端，第二用户端在收到目标氛围语音A后，直接播放目标氛围语音A，在收到目标氛围语音B后，若目标氛围语音A还未播放完，这等待播放完目标氛围语音A后再播放目标氛围语音B。

具体地，所述排序规则为：以第一用户端最后采集到音频数据的时间为序；或，以第一用户端的连麦时间为序。所述排序规则需要择一应用，可以由用户自行选择，或者服务器默认选择其中一个排序规则设置。

示例性的，若以第一用户端最后采集到音频数据的时间为序，则此时需要获取每一用户端最后采集到音频数据的时间，时间越后则顺序越前，如第一用户端A在12：34与主播进行了语音沟通，第一用户端B在12：43与主播进行了语音沟通，然后第一用户端A和第一用户端B均未跟主播进行语音交互，且在12：50启动了智能语音交互模式，由于第一用户端B与主播进行语音沟通的时间较晚，则第一用户端B对应目标氛围语音B顺序在前，第一用户端A对应目标氛围语音A顺序在后，即排序顺序为：目标氛围语音B→目标氛围语音A。

示例性的，以第一用户端的连麦时间为序，则此时需要获取每一用户端与主播的连麦时间，时间越前则顺序越前，如第一用户端A在11：20与主播进行连麦，第二用户端B在11：50与主播进行连麦，然后第一用户端A和第一用户端B在12：50启动了智能语音交互模式，由于第一用户端A与主播比较早开启连麦，则第一用户端A对应目标氛围语音A顺序在前，第一用户端B对应目标氛围语音B顺序在后，即排序顺序为：目标氛围语音A→目标氛围语音B。

在本发明实施例中，当存在多个连麦用户启动智能交互模式时，按照排序规则对多条氛围语音进行排序，按序发送氛围语音，不会出现氛围语音播放混乱的情况。以及在排序过程中考虑了用户的连麦时间/最后语音沟通时间，能够提高排序规则的合理性。

更进一步地，本发明实施例中的氛围语音是根据用户的声纹特征生成的，在用户与主播进行连麦后，服务器会采集用户的音频数据，然后在用户多次连麦后，已经收集了足够多的音频数据，根据这些音频数据去生成氛围语音。

具体地，参见图5，图5是本发明实施例提供的生成氛围语音的流程图，所述方法还包括：

S21、获取所述第一用户端采集到的音频数据；

S22、提取所述音频数据中的声纹特征；

S23、根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音。

具体地，在步骤S21中，用户点击上麦按钮后，请求与主播连麦，在连麦成功后，所述第一用户端的可以提示用户开启麦克风(开启麦克风的同时会启动音频数据采集)。连麦用户可以选择同意或者不同意，点击不同意将不会采集音频数据，此时连麦用户不会与主播进行语音交互，开启了麦克风就会采集连麦用户的音频数据，此时连麦用户可以与主播进行语音交互。

具体地，在步骤S22中，在所述第一用户端采集到连麦用户的音频数据后，所述第一用户端将所述音频数据发送给服务器，服务器从所述音频数据中提取用户的声纹特征。在实际生活中，每个人说话时的语声都有自己的特点，因为人的发声器官实际上存在着大小、形态及功能上的差异，人的发声具有特定性和稳定性，从理论上讲，它同指纹一样具有身份识别(认定个人)的作用。所述音频数据通常包括音色、音强、音高、音长四种声学特征，这四种声学特征又可以分解成九十余种特征，这些特征表现了不同声音的不同波长、频率、强度、节奏，从声学特征中分解出的表现波长、频率、强度、节奏的特征称为声纹特征。

值得说明的是，提取音频数据中的声纹特征的过程可以参考现有技术，现有技术中的声纹特征提取方式在本发明中均适用，如采用基于ResNet的r-vector模型结构提取所述音频数据的声纹特征。可以理解的，服务器并不需要在连麦用户每次上麦时都提取用户的声纹特征，在提取的声纹特征足够用于模拟用户真实说话声音后则可以不需要再提取声纹特征。

具体地，在步骤S23中，在提取完所述声纹特征后，根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音。

示例性的，每一所述特定游戏场景预先配置有对应的惯用语列表，在提取完所述声纹特征后，将所述声纹特征输入到模拟语音生成模型中，以使所述模拟语音生成模型输出与所述惯用语列表对应的氛围语音。所述惯用语列表可以由后台工作人员根据不同的特定游戏场景进行配置，如表1中特定游戏场景为“主播达成某个游戏成就”，其对应的惯用语列表包括：主播你好帅、主播怎么这么牛、主播这个技能怎么释放的哈，可以教教我吗。所述惯用语列表以文字或音频的形式存储。或者，所述惯用语列表可以通过收集连麦用户的历史惯用语得到，如在用户多次连麦后，已经收集了足够多的用户语音，则可以得到用户的惯用语，从而可以收集这些惯用语并生成对应的惯用语列表。

值得说明的是，所述模拟语音生成模型可以参考现有技术，现有技术中的模拟语音生成模型在本发明中均适用，如采用基于ResNet的r-vector模型结构作为模拟语音生成模型，以及采用残差连接方式去模拟用户语音，残差连接方式可以用公式表示为：y＝F(x,{Wi})+Wsx；其中，x和y分别为所述模拟语音生成模型中相应层的输入向量和输出向量，函数F(x,{Wi})代表需要学习的残差连接参数，当F与x的维度不同时，通过线性映射Ws完成残差连接。使用残差连接方式连接神经网络的多层特征信息，从而减少了神经网络的参数数量和训练时间，提高了生成模拟语音的模拟精度。

在本发明实施例中，由于氛围语音是根据连麦用户的声纹特征生成的，因此氛围语音可以模拟连麦用户真实说话的声音，在连麦用户启动智能交互模式时，不会让直播间“冷场”，以及播放的氛围语音由于模拟了连麦用户的真实说话的声音，不会让主播和直播间观众感到不真实，可以提高主播的互动积极性。

相比于现有技术，本发明公开的直播交互方法，在检测到与游戏主播连麦的用户开启了智能互动模式时，对游戏主播正在直播的游戏视频进行场景识别，当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与特定游戏场景对应的目标氛围语音，并将所述目标氛围语音发送到直播间，以在直播间播放这一模拟连麦用户的目标氛围语音，连麦用户可以不说话也能实现与游戏主播的互动，满足连麦用户与游戏主播的互动需求，同时增加了直播间氛围，提高主播的互动积极性。

参见图6，图6是本发明实施例提供的一种直播交互装置100的结构框图，所述直播交互装置100包括：

场景识别模块11，用于当检测到第一用户端启动智能互动模式时，对第二用户端正在直播的游戏视频进行场景识别；其中，所述第一用户端和所述第二用户端处于连麦状态；

目标氛围语音获取模块12，用于当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与所述特定游戏场景对应的目标氛围语音；

目标氛围语音发送模块13，用于将所述目标氛围语音发送到第二用户端，以使所述第二用户端播放所述目标氛围语音。

具体地，所述场景识别模块11具体用于：获取所述第二用户端正在直播的游戏视频；对所述游戏视频进行目标物体检测，并根据目标物体检测结果识别所述游戏视频中的游戏场景。

具体地，所述目标氛围语音获取模块12具体用于：根据所述第一用户端的标识码查找对应的氛围语音包，并从所述氛围语音包中获取与所述特定游戏场景对应的目标氛围语音。

具体地，获取与所述特定游戏场景对应的目标氛围语音后，若所述目标氛围语音包括至少两条，且存在至少两条目标氛围语音对应的标识码不相同时，则所述目标氛围语音获取模块12按照预设的排序规则对至少两条目标氛围语音进行排序；所述目标氛围语音发送模块13按照排序顺序依次将至少两条目标氛围语音发送到第二用户端。

具体地，所述排序规则为：以第一用户端最后采集到音频数据的时间为序；或，以第一用户端的连麦时间为序。

具体地，所述直播交互装置100还包括：

音频数据获取模块14，用于获取所述第一用户端采集到的音频数据；

声纹特征提取模块15，用于提取所述音频数据中的声纹特征；

氛围语音生成模块16，用于根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音。

具体地，每一所述特定游戏场景预先配置有对应的惯用语列表；则，所述氛围语音生成模块16用于：将所述声纹特征输入到模拟语音生成模型中，以使所述模拟语音生成模型输出与所述惯用语列表对应的氛围语音。

值得说明的是，本发明实施例所述的直播交互装置100中各个模块的工作过程请参考上述实施例所述的直播交互方法的工作过程，在此不再赘述。

相比于现有技术，本发明公开的直播交互装置100，在检测到与游戏主播连麦的用户开启了智能互动模式时，对游戏主播正在直播的游戏视频进行场景识别，当检测到游戏视频中的游戏场景符合预设的特定游戏场景时，获取与特定游戏场景对应的目标氛围语音，并将所述目标氛围语音发送到直播间，以在直播间播放这一模拟连麦用户的目标氛围语音，连麦用户可以不说话也能实现与游戏主播的互动，满足连麦用户与游戏主播的互动需求，同时增加了直播间氛围，提高主播的互动积极性。

参见图7，图7是本发明实施例提供的一种直播交互设备200的结构框图，所述直播交互设备200包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述各个直播交互方法实施例中的步骤，比如步骤S11～S13、步骤S21～S23。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述直播交互设备200中的执行过程。

所述直播交互设备200可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是直播交互设备200的示例，并不构成对直播交互设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述直播交互设备200还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述直播交互设备200的控制中心，利用各种接口和线路连接整个直播交互设备200的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述直播交互设备200的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述直播交互设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种直播交互方法，其特征在于，包括：

2.如权利要求1所述的直播交互方法，其特征在于，所述对第二用户端正在直播的游戏直播视频进行游戏场景识别，包括：

获取所述第二用户端正在直播的游戏视频；

3.如权利要求1所述的直播交互方法，其特征在于，所述方法还包括：

获取所述第一用户端采集到的音频数据；

4.如权利要求3所述的直播交互方法，其特征在于，每一所述特定游戏场景预先配置有对应的惯用语列表；则，所述根据所述声纹特征生成若干条符合所述特定游戏场景的氛围语音，包括：

5.如权利要求1所述的直播交互方法，其特征在于，所述获取与所述特定游戏场景对应的目标氛围语音，包括：

6.如权利要求5所述的直播交互方法，其特征在于，所述获取与所述特定游戏场景对应的目标氛围语音后，所述方法还包括：

7.如权利要求6所述的直播交互方法，其特征在于，所述排序规则为：以第一用户端最后采集到音频数据的时间为序；或，以第一用户端的连麦时间为序。

8.一种直播交互装置，其特征在于，包括：

9.一种直播交互设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的直播交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的直播交互方法。