CN109788345A

CN109788345A - 直播控制方法、装置、直播设备及可读存储介质

Info

Publication number: CN109788345A
Application number: CN201910250929.2A
Authority: CN
Inventors: 徐子豪; 吴昊; 马明参; 李政; 周志颖
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-05-21
Anticipated expiration: 2039-03-29
Also published as: CN109788345B

Abstract

本申请实施例提供一种直播控制方法、装置、直播设备及可读存储介质。其中，直播设备获取主播的语音信息，从语音信息中提取关键词和声音特征信息；根据该关键词和该声音特征信息确定主播的当前情感状态，进而根据该当前情感状态及该关键词从预存的动作指令集中匹配对应的目标动作指令；执行目标动作指令，控制直播画面中的虚拟形象执行与该目标动作指令对应的动作。如此，可以提高直播画面中的虚拟形象的动作与主播的直播内容的匹配度。

Description

直播控制方法、装置、直播设备及可读存储介质

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种直播控制方法、装置、直播设备及可读存储介质。

背景技术

随着互联网技术的快速发展，直播已成为一种广受欢迎的网络互动方式。主播可以通过电子设备进行直播，观众可以通过电子设备观看直播。

相关技术中，为了增加直播的趣味性，以及为了满足一些主播不愿在直播画面中出现的需求，通常会在直播画面中展示主播的虚拟形象，通过该虚拟形象与观众互动。但是，现有的虚拟形象直播方式中，控制虚拟形象的方式比较单一。

发明内容

有鉴于此，本申请的目的在于提供一种直播控制方法、装置、直播设备及可读存储介质，使得直播画面中的虚拟形象和主播的直播内容具有较高的契合度。

为了达到上述目的，本申请实施例采用以下技术方案：

第一方面，本申请实施例提供一种直播控制方法，应用于直播设备，所述方法包括：

获取主播的语音信息；

从所述语音信息中提取关键词和声音特征信息；

根据提取出的所述关键词以及所述声音特征信息确定所述主播的当前情感状态；

根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配对应的目标动作指令；

执行所述目标动作指令，控制直播画面中的虚拟形象执行与所述目标动作指令对应的动作。

第二方面，本申请实施例提供一种直播控制装置，应用于直播设备，所述装置包括：

语音获取模块，用于获取主播的语音信息；

信息提取模块，用于从所述语音信息中提取关键词和声音特征信息；

动作匹配模块，用于根据提取出的所述关键词以及所述声音特征信息确定所述主播的当前情感状态；根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配对应的目标动作指令；

动作执行模块，用于执行所述目标动作指令，控制直播画面中的虚拟形象执行与所述目标动作指令对应的动作。

第三方面，本申请实施例提供一种直播设备，存储器、处理器及存储在所述存储器中并在所述处理器中被执行的机器可执行指令，所述机器可执行指令被所述处理器执行时实现本实施例提供的直播控制方法。

第四方面，本申请实施例提供一种可读存储介质，其上存储有机器可执行指令，述机器可执行指令被执行时实现本实施例提供的直播控制方法。

综上，本申请实施例提供一种直播控制方法、装置、直播设备及可读存储介质，通过获取主播的语音信息，从语音信息中提取关键词和声音特征信息；然后，根据该关键词和该声音特征信息确定主播的当前情感状态，进而根据该当前情感状态及该关键词从预存的动作指令集中匹配对应的目标动作指令；最后，执行目标动作指令，以控制直播画面中的虚拟形象执行与该目标动作指令对应的动作。如此，可以提高直播画面中的虚拟形象的动作与主播的说话内容的匹配度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种直播系统的框架示意图；

图2为本申请实施例提供的一种直播设备的方框示意图；

图3为本申请实施例提供的一种直播控制方法的流程示意图；

图4为图3所示步骤34的一种子步骤示意图；

图5为图4所示步骤44的一种子步骤示意图；

图6为图4所示步骤44的又一种子步骤示意图；

图7为本申请实施例提供的直播控制装置的一种功能模块框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1是本申请实施例提供的一种直播系统的示意图。直播系统包括通过网络通信连接的直播服务器11和终端设备。其中，所述终端设备可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机(Personal Computer，PC)、笔记本电脑、虚拟实现终端、增强现实终端等。

在本实施例中，所述终端设备与所述直播服务器11的通信方式可以有多种。例如，所述终端设备中可以安装有客户端(例如，应用程序)，通过该客户端可以与所述直播服务器11通信，进而使用所述直播服务器提供的直播服务。又例如，所述终端设备可以通过运行于第三方应用的程序与所述直播服务器建立通信连接，进而使用所述直播服务器提供的直播服务。又例如，所述终端设备可以通过浏览器登录到直播服务器，从而使用直播服务器提供的直播服务。

本实施例提供的终端设备根据使用用户的不同，可以分为主播侧的第一终端设备12以及观众侧的第二终端设备13。值得说明的是，当第一终端设备12的使用用户从主播变为观众时，该第一终端设备12变成第二终端设备13；当第二终端设备13的使用用户从观众变为主播时，该第二终端设备13变成第一终端设备12。

其中，第一终端设备12设置有音频采集器件，所述音频采集器件用于采集主播的语音信息。所述音频采集器件可以内置于所述第一终端设备12，也可以外接于所述第一终端设备13。

当主播采用虚拟形象进行直播时，在一种实施方式中，第一终端设备12可以根据所述虚拟形象及采集的语音信息生成视频流，并经由所述直播服务器11将所述视频流发送给第二种终端设备13，实现基于虚拟形象的直播。在又一种实施方式中，第一终端设备12可以将采集的语音信息直接发送给直播服务器11，由直播服务器11根据所述虚拟形象及所述语音信息生成视频流，并将该视频流发送给第二终端设备13，实现基于虚拟形象的直播。

请参照图2，图2是本申请实施例提供的一种直播设备100的方框示意图，直播设备100可以是图1中示出的直播服务器11或第一终端设备12。直播设备100包括存储器110以及处理器120，所述存储器110和所述处理器120经由系统总线相互连接，以实现数据传输。所述存储器110存储有机器可执行指令，所述处理器120通过读取和执行所述机器可执行指令，可以实现下文描述的直播控制方法。

值得说明的是，图2所示的结构仅为示意。直播设备100还可以包括比图2所示更多或更少的组件，例如，当直播设备100为第一终端设备12时，所述直播设备100还包括所述音频采集器件。或者，直播设备100可以具有与图2所示完全不同的配置。

请参照图3，图3是本申请实施例提供的一种直播控制方法的流程示意图，所述直播控制方法可以由图2所示的直播设备100执行。下面对该方法的各个步骤进行描述。

步骤31，获取主播的语音信息。

在本实施例中，如果直播设备100是第一终端设备12，则直播设备100可以通过音频采集器件(如，内置麦克风或外接话筒等)实时采集主播的语音信息。如果直播设备100是直播服务器11，则直播设备100可以接收第一终端设备12采集并发送的语音信息，例如，从第一终端设备12推流的视频流中获得语音信息。

步骤32，从所述语音信息中提取关键词和声音特征信息。

在本实施例中，直播设备100获取到主播的语音信息后，可以并行地从所述语音信息中提取关键词和声音特征信息，也可以按照指定的先后顺序，依次提取关键词和声音特征信息。本实施例对该先后顺序没有限制。

其中，所述声音特征信息可以是音调信息、振幅信息、频率信息、低频信号图谱等，本实施例对提取声音特征信息的具体算法没有限制，只要能够提取出相应的声音特征信息即可。

直播设备100从所述语音信息中提取关键词的方式有多种。例如，可以基于预设的关键词库从所述语音信息中提取关键词。所述关键词库包括：预设的用于指示主播的情感状态的关键词，例如，开心、高兴、快乐、悲伤、难过、发愁、兴奋、哈哈、哭等；以及预设的用于指示主播的待执行动作的关键词，比如，再见(可以指示挥手等动作)、兴奋(可以用于指示手舞足蹈等动作)、敬礼、转身等。其中，所述关键词库可以存储在直播设备100中，也可以存储在第三方服务器中。

在实施时，直播设备100可以识别所述语音信息，并检测识别结果中是否包含有所述关键词库中的关键词，若是，则将提取出该关键词。

又例如，可以通过神经网络模型所述语音信息对应的语句进行分词，得到多个词语。针对得到的每个词语，通过所述神经网络模型进一步识别该词语的类型，即：是否用于指示情感状态或是否用于指示动作，若是，则将该词语作为提取出的所述关键词。

步骤33，根据提取出的所述关键词以及所述声音特征信息确定所述主播的当前情感状态。

在一种实施方式中，直播设备100或与直播设备100通信的第三方服务器中可以存储有不同关键词与不同情感状态的对应关系，以及不同声音特征信息与不同情感状态的对应关系。在实施时，可以根据所述对应关系，及提取出的关键词和声音特征信息确定主播的当前情感状态。

值得说明的是，当基于关键词确定的情感状态与基于声音特征信息确定的情感状态是相反的两种情感状态(如，高兴和悲伤)时，可以基于所述语音信息的低频信号图谱确定主播发音时的生理参数信息(例如，肌肉紧张程度、是否兴奋等)，依据该生理参数信息确定主播的心理状态信息，从而可以依据该生理参数信息从两种情感状态中选择一种作为主播的当前情感状态。

在又一种实施方式中，可以通过神经网络模型来实现步骤33。例如，可以获取多个主播的多条语音信息；从每条语音信息中提取关键词和声音特征信息形成一个样本，并将主播发出该条语音时的实际情感状态标注到该样本中，从而形成一个样本集；再采用所述样本集对预先建立的神经网络模型进行训练，得到一训练好的神经网络模型。亦或者，所述神经网络模型包括第一神经网络子模型，用于识别所述关键词；以及第二神经网络子模型，用于识别所述声音状态，第一神经网络子模型和第二神经网络子模型可以并行识别。

在实施时，可以将提取出的所述关键词和所述声音特征信息输入所述训练好的神经网络模型，即可获得主播的当前情感状态。

值得说明的是，上述两种实施方式仅为示例，步骤33还可以通过其他方式实现。

步骤34，根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配对应的目标动作指令。

在本实施例中，所述预存的动作指令集可以存储在直播设备100或者与直播设备100通信连接的第三方服务器中。对应地，直播设备100或与直播设备100通信连接的第三方服务器还可以存储有所述预存的动作指令集中的各个动作指令与情感状态和关键词的关联关系。

在实际应用中，动作指令可以分为两类，一类是可以应用于各种虚拟形象的动作指令，在此称为“通用动作指令”；一类是仅能应用于一些特定虚拟形象的动作指令，通过该动作指令可以实现特定的直播特效，在此将这种动作指令称为“定制动作指令”。

对应地，所述预存的动作指令集可以包括存储有通用动作指令的通用指令集以及存储有定制动作指令的定制指令集。在本实施例的一种实施方式中，当主播使用特定虚拟形象时，第一终端设备12可以下载并保存所述特定虚拟形象对应的定制指令集。在又一种实施方式中，可以针对所述定制指令集设置收费服务，当主播选用所述特定虚拟形象且支付相应的费用时，第一终端设备12可以下载并保存所述特定虚拟形象对应的定制指令集。

可选地，步骤34可以通过以下过程实现：

在所述预存的动作指令集中存在与所述当前情感状态和所述关键词关联的第一动作指令的情况下，将所述第一动作指令作为所述目标动作指令；

在所述预存的动作指令集中不存在所述第一动作指令的情况下，从所述预存的动作指令集中获取与所述当前情感状态对应的第二动作指令以及与所述关键词关联的第三动作指令；

根据所述第二动作指令和所述第三动作指令确定所述目标动作指令。

其中，所述第一动作指令既与所述当前情感状态关联，又与所述关键词关联，其与主播的说话内容匹配程度较高，因此在存在第一动作指令的情况下可以直接将所述第一动作指令作为目标动作指令。

详细地，直播设备10可以通过不同的执行逻辑实现上述过程。例如，可以通过图4所示的步骤实现。

步骤41，从所述预存的动作指令集中查找是否存在与所述当前情感状态和所述关键词关联的第一动作指令。若是，则执行步骤42；若否，则执行步骤43。

实施时，直播设备100可以以所述当前情感状态和所述关键词为检索索引，查找对应的动作指令，查找到的动作指令即为所述第一动作指令。

步骤42，将所述第一动作指令作为所述目标动作指令。

步骤43，分别从所述预存的动作指令集中查找是否存在与所述当前情感状态关联的第二动作指令以及与所述关键词关联的第三动作指令。

其中，直播设备100可以以所述当前情感状态为检索索引从所述预存的动作指令集中查找动作指令，查找到的动作指令即为所述第二动作指令。直播设备100可以以所述关键词为检索索引从所述预存的动作指令集中查找动作指令，查找到的动作指令即为所述第三动作指令。

步骤44，若存在所述第二动作指令和所述第三动作指令，则根据所述第二动作指令和所述第三动作指令确定所述目标动作指令。

又如，上述过程还可以通过图5所示的步骤实现。

步骤51，从预存的动作指令集中查找是否存在与所述当前情感状态关联的第二动作指令以及与所述关键词关联的第三动作指令。

步骤52，判断所述第二动作指令和所述第三动作指令是否为相同指令。若是，则执行步骤53；若否，则执行步骤54。

步骤53，将该相同指令作为所述目标动作指令。

其中，当第二动作指令和第三动作指令为相同指令时，该相同指令可以充当本实施例的第一动作指令。

步骤54，根据所述第二动作指令和所述第三动作指令确定所述目标动作指令。

在本实施例中，根据所述第二动作指令和所述第三动作指令确定目标动作指令的步骤(例如，上述的步骤44或步骤54)，可以通过图6所示的步骤实现。

步骤61，检测所述第二动作指令和所述第三动作指令是否存在联动关系。若是，则执行步骤62；若否，则执行步骤63。

在本实施例中，所述直播设备100可以存储有所述预存的动作指令集的各个动作指令间的关联关系。所述关联关系的记录方式可以有多种，本实施例不以此为限制。例如，所述关联关系可以以一条数据记录的形式保存，每条数据记录包括相应动作指令的标识信息以及用于指示关联关系类型的标志位。

例如，一条数据记录a用于表示动作指令1和2的关联关系，则数据记录a可以包括动作指令1和2各自的标识信息(例如，预设的编号信息)。所述关联关系类型例如可以是联动关系或近似关系，比如，当所述标志位为1时，表示数据记录中记录的动作指令间具有联动关系；当所述标志位为0时，表示数据记录中记录的动作指令间具有近似关系。应当理解，所述联动关系和所述近似关系也可以用其他值表示，本实施例不以此为限制。

其中，具有联动关系的至少两个动作指令可以按照一定顺序合并成一个动作指令，比如，当实现“大笑”的动作指令和实现“跳舞”的动作指令具有联动关系时，这两个动作指令可以合并成一个动作指令，可以通过合并的动作指令一次性控制主播的虚拟形象进行大笑和跳舞。可选地，对于具有联动关系的至少两个动作指令，可以在相应的数据记录中设置所述至少两个动作指令的执行顺序。

具有近似关系的至少两个动作指令是指用于实现类似动作的指令，比如用于实现“大笑”的动作指令和用于实现“微笑”的动作指令可以认为是近似的动作指令，可以建立这两个动作指令的近似关系。

基于以上配置，直播设备100可以查找同时记录有所述第二动作指令和所述第三动作指令的标识信息的第一数据记录。如果查找到，则根据所述第一数据记录中的标志位的值确定所述第二动作指令和所述第三动作指令的关联关系类型，若该标志位的值指示的关联关系类型为联动关系，则可以确定所述第二动作指令和所述第三动作指令之间存在联动关系。如果该标志位的值指示的关联关系不是联动关系，或者没有查找到所述第一数据记录，则可以确定所述第二动作指令和所述第三动作指令之间不存在联动关系。

步骤62，按照该联动关系指示的动作执行顺序对所述第二动作指令和所述第三动作指令进行合并，得到所述目标动作指令。

其中，所述第一数据记录中设置的执行顺序可以充当所述联动关系指示的动作执行顺序。

步骤63，根据所述第二动作指令和所述第三动作指令各自的预设优先级从所述第二动作指令和所述第三动作指令中选择一个作为所述目标动作指令。

在本实施例中，可以针对预存的动作指令集中的各个动作指令分别设置优先级。在实施时，可以根据实际需要从第二动作指令和所述第三动作指令中选取优先级较高的一个或者优先级较低的一个作为所述目标动作指令。如果所述第二动作指令和所述第三动作指令的优先级相同，则可以随机选取一个作为所述目标动作指令。

可选地，为了提高动作指令的匹配速度，本实施例提供的直播控制方法还可以包括以下步骤。

第一，针对从所述语音信息中提取出的每个关键词，统计包含该关键词的目标语音信息的数量，以及分别根据最新获取的第一数量个所述目标语音信息确定的所述第一数量个目标动作指令。

第二，若所述目标语音信息的数量达到第二数量，且所述第一数量个目标动作指令为相同指令，则在所述直播设备的内存中缓存该关键词与所述相同指令的对应关系。

其中，所述第一数量不超过所述第二数量。

下面通过一个示例对上述两个步骤进行阐述。假设：

第一数量为2，第二数量为3；

第一次获取到语音信息1，从中提取出关键词aa、bb和cc，且按照图3所示步骤，根据语音信息1确定了目标动作指令t2；

第二次获取到语音信息2，从中提取出关键词aa和dd，且按照图3所示步骤，根据语音信息2确定了目标动作指令t1；

第三次获取到语音信息3，从中提取出关键词bb，且按照图3所示步骤，根据语音信息3确定目标动作指令t3；

第四次获取到语音信息4，从中提取出关键词aa和bb，按照图3所示步骤，根据语音信息4确定目标动作指令t1；

第五次获取到语音信息5，从中提取出关键词cc，且按照图3所示步骤，根据语音信息5确定目标动作指令t2。

在以上示例中，针对关键词aa，对应的目标语音信息有语音信息1、语音信息2和语音信息4，即；包含关键词aa的目标语音信息的数量为3，达到了第二数量3。其中，分别基于语音信息1、语音信息2和语音信息4确定的目标动作指令中有两个相同，均为t1，即到达了第一数量2。因此，可以建立关键词aa和动作指令t1的对应关系，并将该对应关系缓存到直播设备100的内存中。当下一次再获取到包含关键词aa的语音信息时，可以直接将动作指令t1确定为目标动作指令。

基于以上描述，在执行步骤43之后，可以先从缓存的对应关系中查找是否存在所述关键词命中的对应关系；若存在，则将所述命中的对应关系中记录的指令确定为所述目标动作指令；若不存在，再执行所述步骤44。

考虑到主播在不同时间段内使用同一关键词表达的含义可能发生改变，因此，直播设备100可以每间隔第一预设时长清空所述内存中缓存的所述对应关系。如此，可以确保直播设备100中缓存的对应关系与主播最近的用词习惯相适应。

请再次参照图3，在确定所述目标动作指令后，直播设备100执行步骤35。

步骤35，执行所述目标动作指令，控制直播画面中的虚拟形象执行与所述目标动作指令对应的动作。

在本实施例中，直播设备100可以根据所述目标动作指令对所述虚拟形象进行处理，从而生成相应的直播视频流，并将所述直播视频流直接或间接地发送给所述第二终端设备13。

可选地，为了增加趣味性，避免主播的虚拟形象在短时间执行重复的动作，在执行步骤35之前，可以先执行以下步骤。

首先，获取当前时间，判断所述当前时间与所述目标动作指令的最新执行时间的间隔是否超过第二预设时长；若超过所述第二预设时长，则执行所述步骤35。

其中，针对预存的动作指令集中的每个动作指令，直播设备100可以记录有该动作指令的最新执行时间。值得说明的是，对于未被执行过的动作指令，直播设备100记录的最新执行时间可以为空，或预设的默认值。

然后，若没有超过所述第二预设时长，则从所述预存的动作指令集中查找与所述目标动作指令存在近似关系的其他动作指令替换所述目标动作指令，并执行替换后的目标动作指令。

其中，直播设备100可以从存储的数据记录中查找包含有所述目标动作指令的标识信息的第二数据记录，再从查找到的第二数据记录中获取不同于所述目标动作指令的标识的其他标识信息，采用所述其他标识信息指示的动作指令来替换所述目标动作指令。

请参照图7，本实施例还提供一种直播控制装置200，直播控制装置200包括至少一个可以机器可执行指令的形式存储于存储器110中的功能模块。从功能上划分，直播控制装置200可以包括语音获取模块210、信息提取模块220、动作匹配模块230以及动作执行模块240。

其中，语音获取模块210用于获取主播的语音信息。

信息提取模块220用于从所述语音信息中提取关键词和声音特征信息。

动作匹配模块230用于根据提取出的所述关键词以及所述声音特征信息确定所述主播的当前情感状态；根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配对应的目标动作指令。

动作执行模块240用于执行所述目标动作指令，控制直播画面中的虚拟形象执行与所述目标动作指令对应的动作。

在本实施例中，关于上述功能模块的描述具体可以参考上文关于对应步骤的详细描述。

本实施例还提供一种可读存储介质，其上存储有机器可执行指令，所述机器可执行指令被执行时可以实现本实施例提供的直播控制方法。

综上所述，本申请实施例提供一种直播控制方法、装置、直播设备及可读存储介质，其中，直播设备获取主播的语音信息，从语音信息中提取关键词和声音特征信息；根据该关键词和该声音特征信息确定主播的当前情感状态，进而根据该当前情感状态及该关键词从预存的动作指令集中匹配对应的目标动作指令；执行目标动作指令，控制直播画面中的虚拟形象执行与该目标动作指令对应的动作。如此，可以提高直播画面中的虚拟形象的动作与主播的说话内容的契合度。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种直播控制方法，其特征在于，应用于直播设备，所述方法包括：

获取主播的语音信息；

从所述语音信息中提取关键词和声音特征信息；

2.根据权利要求1所述的方法，其特征在于，所述预存的动作指令集包括通用指令集以及与所述主播的当前虚拟形象对应的定制指令集，所述通用指令集存储有用于控制各个虚拟形象的通用动作指令，所述定制指令集存储有用于控制所述当前虚拟形象的定制动作指令。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配动作指令的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二动作指令和所述第三动作指令确定所述目标动作指令的步骤，包括：

检测所述第二动作指令和所述第三动作指令是否存在联动关系；

若存在联动关系，则按照该联动关系指示的动作执行顺序对所述第二动作指令和所述第三动作指令进行合并，得到所述目标动作指令；

若不存在联动关系，则根据所述第二动作指令和所述第三动作指令各自的预设优先级从所述第二动作指令和所述第三动作指令中选择一个作为所述目标动作指令。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

针对从所述语音信息中提取出的每个关键词，统计包含该关键词的目标语音信息的数量，以及分别根据最新获取的第一数量个所述目标语音信息确定的所述第一数量个目标动作指令；

若所述目标语音信息的数量达到第二数量，且所述第一数量个目标动作指令为相同指令，则在所述直播设备的内存中缓存该关键词与所述相同指令的对应关系；其中，所述第一数量不超过所述第二数量；

所述根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配动作指令的步骤，包括：

从缓存的对应关系中查找是否存在所述关键词命中的对应关系；

若存在，则将所述命中的对应关系中记录的指令确定为所述目标动作指令；

若不存在，再执行根据所述当前情感状态以及所述关键词从预存的动作指令集中匹配动作指令的步骤。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

每间隔第一预设时长清空所述内存中缓存的所述对应关系。

7.根据权利要求1或2所述的方法，其特征在于，针对所述预存的动作指令集中的每个动作指令，所述直播设备记录有该动作指令的最新执行时间；

所述执行所述目标动作指令的步骤，包括：

获取当前时间，判断所述当前时间与所述目标动作指令的最新执行时间的间隔是否超过第二预设时长；

若超过所述第二预设时长，再执行所述目标动作指令；

若没有超过所述第二预设时长，则从所述预存的动作指令集中查找与所述目标动作指令存在近似关系的其他动作指令替换所述目标动作指令，并执行替换后的目标动作指令。

8.一种直播控制装置，其特征在于，应用于直播设备，所述装置包括：

语音获取模块，用于获取主播的语音信息；

9.一种直播设备，其特征在于，包括存储器、处理器及存储在所述存储器中并在所述处理器中被执行的机器可执行指令，所述机器可执行指令被所述处理器执行时实现权利要求1-7中任意一项所述的直播控制方法。

10.一种可读存储介质，其上存储有机器可执行指令，其特征在于，所述机器可执行指令被执行时实现权利要求1-7中任意一项所述的直播控制方法。