CN116527956A

CN116527956A - 基于目标事件触发的虚拟对象直播方法、装置及系统

Info

Publication number: CN116527956A
Application number: CN202310797907.4A
Authority: CN
Inventors: 张青辉; 陈朋杰
Original assignee: 4u Beijing Technology Co ltd
Current assignee: Shiyou Beijing Technology Co ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-08-01
Anticipated expiration: 2043-07-03
Also published as: CN116527956B

Abstract

本申请提供了一种基于目标事件触发的虚拟对象直播方法、装置及系统，其中，该方法包括：获取用于驱动虚拟对象的驱动数据，并从驱动数据中提取多个驱动特征；获取用于触发目标事件的目标事件触发标记，其中，目标事件触发标记和多个驱动特征之间具有关联关系；基于目标事件触发标记确定待触发的目标事件，并基于目标事件生成用于呈现目标事件的目标事件视频帧；基于关联关系，利用目标事件视频帧和多个驱动特征，生成虚拟对象进行直播的直播视频流，其中，直播视频流包括目标事件视频帧；将直播视频流推送到终端设备。本申请解决了虚拟对象直播时交互节点和直播数据流的画面内容不一致的技术问题。

Description

基于目标事件触发的虚拟对象直播方法、装置及系统

技术领域

本申请涉及直播技术领域，具体而言，涉及一种基于目标事件触发的虚拟对象直播方法、装置及系统。

背景技术

随着计算机技术和互联网技术的进步，虚拟对象在生活、娱乐等领域提供了多项功能和服务。例如，在数字直播间中利用虚拟对象进行实时讲解是一种应用方式。然而，虚拟对象在进行直播讲解时需要在特定的情境下触发一些与业务相关的指令。例如，在虚拟对象进行讲解时，当其提到某个产品时，用户界面会弹出该产品的购买链接或相关推荐。因此，在虚拟对象的讲解过程中，如何准确触发相应的业务行为，以确保虚拟对象的讲解与触发指令的同步，成为亟待解决的技术问题。

在一些相关技术中，虚拟对象执行自动讲解时，当遇到需要触发直播间内交互的节点时，直播运营人员根据直播内容或预定的时间，在后台手动触发相应的交互。然而，由于人为触发的误差，可能导致交互节点与直播流内容不一致，触发过早或延迟。甚至人为失误可能导致指令未能准确触发。

在另一些相关技术中，采用定时任务的方式，在预定的时间执行脚本以触发直播间内交互行为对应的触发指令。然而，由于虚拟对象直播流画面的出现时间难以准确预估，且虚拟对象直播剧本内容可能随时调整，这增加了准确预估的难度。因此，采用定时任务在指定画面触发指令的方案可能导致画面和指令触发时机的不一致问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于目标事件触发的虚拟对象直播方法、装置及系统，以至少解决现有技术中由于触发目标事件的触发指令存在时间上的误差导致虚拟对象直播时交互节点和直播数据流的画面内容不一致的技术问题。

根据本申请实施例的一个方面，提供了一种基于目标事件触发的虚拟对象直播方法，该方法包括：获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系；基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧；基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧；将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。

根据本申请实施例的另一方面，还提供了一种基于目标事件触发的虚拟对象直播装置，包括获取模块，被配置为：获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系；生成模块，被配置为：基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧；基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧；推送模块，被配置为将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。

根据本申请实施例的又一方面，还提供了一种基于目标事件触发的虚拟对象直播系统，包括服务器，其上设置有如上所述的基于目标事件触发的虚拟对象直播装置；终端设备，被配置为接收所述服务器推送的所述直播视频流。

在本申请实施例中，获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系；基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧；基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧；将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。通过上述方案，解决了现有技术中由于触发目标事件的触发指令存在时间上的误差导致虚拟对象直播时交互节点和直播数据流的画面内容不一致的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种基于目标事件触发的虚拟对象直播方法的流程图；

图2是根据本申请实施例的另一种基于目标事件触发的虚拟对象直播方法的流程图；

图3是根据本申请实施例的一种提取多个驱动特征的方法的流程图；

图4是根据本申请实施例的一种将语音特征和第二触发标记映射到驱动特征上的方法的流程图；

图5是根据本申请实施例的一种生成直播视频流的方法的流程图；

图6是根据本申请实施例的一种基于目标事件触发的虚拟对象直播装置的结构示意图；

图7是根据本申请实施例的一种基于目标事件触发的虚拟对象直播系统的架构示意图；

图8示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种基于目标事件触发的虚拟对象直播方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102，获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征。

1）获取虚拟对象的待播放的文本内容，从所述文本内容中提取与目标事件相关联的关键字，在所述关键字的位置设置第一触发标记。

使用字符串匹配方法从所述文本内容中查找所述关键字在所述文本内容中的出现位置；在所述出现位置上设置所述第一触发标记，其中，所述第一触发标记设置在所述关键字后。

本实施例中，提取与目标事件相关联的关键字可以帮助确定虚拟对象需要执行的具体动作或触发的事件。这些关键字可以是指令、触发条件或特定内容的标识符。此外，通过在关键字的位置设置第一触发标记，可以准确标记与目标事件相关的部分。这有助于在后续步骤中进行进一步的处理和驱动。

2）将设置了所述第一触发标记的所述文本内容转换为待播放的语音数据，从所述待播放的语音数据中提取多个语音特征，其中，所述多个语音特征中的部分语音特征携带有与所述第一触发标记对应的第二触发标记。

首先，将包含第一触发标记的文本内容传入语音合成系统，该系统将文本转换为相应的语音数据。这个过程可以使用文本到语音（TTS）技术来完成，其中文本被转换成具有自然语音的音频。接着，使用语音信号处理技术，对待播放的语音数据进行分析和处理，以提取多个语音特征。最后，将提取得到的语音特征组织成一个特征向量矩阵。根据第一触发标记的位置，定位到与其对应的语音特征向量，并在该向量上设置第二触发标记。第二触发标记可以是一个特殊的标记值或者标记位，用于表示该语音特征向量与第一触发标记相关联。

本实施例中，将提取得到的语音特征组织成特征向量矩阵，并根据第一触发标记的位置定位到与其对应的语音特征向量。在该向量上设置第二触发标记，用于表示该语音特征向量与第一触发标记的关联。这样的标记设置可以帮助标识和处理特定事件或信息，为后续的分析和应用提供更精确的定位和参考。

3）获取用于驱动所述虚拟对象的驱动数据，从所述驱动数据中提取多个驱动特征，并将所述多个语音特征和所述第二触发标记映射到所述多个驱动特征上。

首先，获取驱动数据，并从驱动数据中提取多个驱动特征。驱动数据可以是各种形式的输入数据，例如传感器数据、用户输入等。从驱动数据中提取多个驱动特征，以捕捉与驱动行为相关的有用信息。驱动特征可以包括但不限于时间、位置、速度、方向、力度、声音、图像等方面的特征。

接着，将所述多个语音特征和所述第二触发标记映射到所述多个驱动特征。

通过对所述多个语音特征和所述多个驱动特征进行插值来使得所述多个语音特征和所述多个驱动特征在时间上对齐；在对齐后的所述多个驱动特征上设置与所述第二触发标记所在的时间点对应的所述第三触发标记。

例如，将所述多个语音特征和所述多个驱动特征映射到同一时间轴上；利用线性插值方法，在所述时间轴上对所述多个语音特征和所述多个驱动特征分别进行插值操作，以在时间上对齐所述多个语音特征和所述多个驱动特征。具体地，确定所述多个语音特征在所述时间轴上的第一时间点的位置，根据所述第一时间点的位置，分别计算所述多个语音特征中两个相邻语音特征之间的线性权重，并基于所述线性权重进行插值操作；确定所述多个驱动特征在所述时间轴上的第二时间点的位置，在所述多个驱动特征中两个相邻驱动特征之间进行插值操作，使得所述多个驱动特征在时间上对齐所述多个语音特征。最后，在对齐后的驱动特征上设置与第二触发标记所在时间点对应的第三触发标记。

本实施例通过对多个语音特征和多个驱动特征进行插值，可以将它们在时间轴上对齐。这样做的好处是能够确保语音特征和驱动特征在相同的时间点上对应，从而实现更准确的数据分析和处理。此外，对齐语音特征和驱动特征可以提高数据的一致性。通过插值和对齐，可以确保语音特征和驱动特征之间的相关性和一致性，从而更好地理解和分析数据。

步骤S104，获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系。

读取驱动特征中的第三触发标记，并将第三触发标记作为触发目标事件的目标事件触发标记。这样，通过在驱动特征上设置目标事件触发标记，使得目标事件触发标记与多个驱动特征之间具有时间上的关联关系。

本申请实施例通过上述方法，提供了一种有效的方式来关联目标事件触发标记和驱动特征，从而实现了目标事件的触发和驱动特征的同步。通过在驱动特征上设置目标事件触发标记，可以准确地确定目标事件的发生时间点，并相应地生成目标事件视频帧。这样，虚拟对象的直播过程可以根据目标事件的发生情况进行动态调整和呈现，提供更加沉浸式和互动性的体验。

此外，通过在驱动特征上设置目标事件触发标记，可以有效地管理和控制虚拟对象的呈现。直播视频流可以根据目标事件的发生动态地调整，使得终端设备侧的用户可以通过触发的目标事件和虚拟对象进行交互，并且，使得目标事件的触发时机和直播内容匹配。

步骤S106，基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧。

根据目标事件触发标记，确定待触发的目标事件。目标事件可以是与直播内容相关的特定动作、情节或效果，例如特殊场景的出现、虚拟对象的交互行为等。然后，基于确定的目标事件，生成用于呈现目标事件的目标事件视频帧。这些视频帧可以是预先设计的静态或动态图像，或者通过计算机图形技术实时生成的动态图像。

步骤S108，基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧。

首先，基于所述关联关系，确定和所述目标事件触发标记在时间上对应的所述多个驱动特征中的一个或多个驱动特征；然后，基于所述一个或多个驱动特征，生成所述虚拟对象的当前视频流，并基于所述目标事件视频帧和所述当前视频流，生成所述虚拟对象进行直播的直播视频流。

在一些实施例中，获取所述多个驱动特征中的所述一个或多个驱动特征之后的至少一个相邻驱动特征，基于所述至少一个相邻驱动特征生成与所述当前视频流邻接的邻接视频流；基于所述当前视频流、所述邻接视频流和所述目标事件视频帧，生成所述虚拟对象进行直播的直播视频流。例如，将所述目标事件视频帧插入到所述当前视频流和所述邻接视频流之间，生成融合后的视频流；对所述融合后的视频流进行平滑处理，得到所述直播视频流。

在一些实施例中，进行平滑处理可以采用如下的方式：

首先，获取所述当前视频流中的末视频帧和所述邻接视频流中的首视频帧，其中，所述末视频帧是所述当前视频流中的最末尾的视频帧，所述首视频帧是所述邻接视频流中的第一个视频帧。

然后，通过分析所述末视频帧、所述目标事件视频帧和所述首视频帧之间的像素运动，来推断待插入的中间帧的像素值。例如，根据所述像素在所述末视频帧中的位置和运动向量，计算所述像素在所述目标事件视频帧中的推断位置；根据所述像素在所述目标事件视频帧中的位置和运动向量，计算所述像素在所述首视频帧中的推断位置；基于所述像素在所述目标事件视频帧中的推断位置、所述像素在所述首视频帧中的推断位置、和所述像素在所述目标事件视频帧中的实际位置，来推断待插入的中间帧的像素值。

最后，基于所述像素值来生成所述中间帧；并将所述中间帧插入到所述融合后的视频流中的相应位置，对所述融合后的视频流进行平滑处理。

本实施例通过将目标事件视频帧与当前视频流融合生成直播视频流，确保了目标事件的呈现时机与直播内容的匹配。这样，终端设备侧的用户可以在与直播内容相匹配的适当时机与虚拟对象进行交互，从而提升了直播的效果。

此外，通过分析当前视频流的末视频帧、邻接视频流的首视频帧以及目标事件视频帧之间的像素运动，推断出待插入的中间帧的像素值，可以确保插入的目标事件视频帧与当前视频流和邻接视频流之间的过渡平滑，避免了不连续或突兀的视觉切换，提供更好的观看体验。

最后，通过推断中间帧的像素值，保持了目标事件视频帧与当前视频流和邻接视频流的视觉一致性。这有助于使插入的目标事件视频帧与周围内容融合自然，减少视觉不协调或不连贯的感觉。并且，对融合后的视频流进行平滑处理，进一步增强了观看体验。平滑处理还可以涉及调整颜色、亮度、对比度等参数，使视频流的过渡更加流畅，提供更高质量的直播内容。

步骤S110，将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。

在终端设备上，目标事件视频帧被展示给用户，用户可以观看到目标事件的实时展示。这样，用户可以在观看直播的同时与虚拟对象进行交互，如与虚拟人物进行对话、与虚拟物体进行互动等。终端设备可以提供各种交互方式，例如触摸屏幕操作、语音指令、手势识别等，用于与目标事件视频帧中的虚拟对象进行互动。

实施例2

本申请实施例提供了另一种基于目标事件触发的虚拟对象直播方法的流程图，如图2所示，该方法包括以下步骤：

步骤S202，从待播放的文本内容中提取与目标事件相关的关键字，并在关键字位置设置第一触发标记。

获取待播放的虚拟对象的文本内容。针对目标事件，确定与之相关的关键字。这些关键字可以是指令、触发条件或特定内容的标识符。关键字的选择应该能够准确地表示目标事件。例如，可以是“链接”或“红包”等。然后，使用字符串匹配方法，从文本内容中查找关键字的出现位置。例如，可以使用字符串搜索算法，如KMP算法或正则表达式等。在关键字的位置设置第一触发标记，以便后续步骤能够准确地识别与目标事件相关的部分。完成关键字提取和第一触发标记设置后，文本内容中的关键字位置将被准确标记，以便后续步骤能够根据这些标记进行进一步处理和驱动。

步骤S204，将设置了第一触发标记的文本内容转换为待播放的语音数据，并提取多个语音特征。

将获取的文本内容传入语音合成系统。语音合成系统使用文本到语音（TTS）技术，将文本转换为相应的语音数据。这个过程可以通过调用适当的语音合成API或库来实现。语音合成系统会根据输入的文本内容生成具有自然语音的音频。随后，使用语音信号处理技术对待播放的语音数据进行分析和处理，以提取多个语音特征。

最后，将提取得到的多个语音特征组织成一个特征向量矩阵。每个语音特征可以表示为一个向量，将这些向量按照时间顺序排列，形成一个特征向量矩阵。这样的特征向量矩阵将提供有关语音数据的详细信息，为后续的处理和驱动步骤提供基础。通过执行以上步骤，能够将设置了第一触发标记的文本内容转换为携带有与第一触发标记对应的第二触发标记的特征向量矩阵。

步骤S206，获取用于驱动虚拟对象的驱动数据，并从中提取多个驱动特征。

如图3所示，提取多个驱动特征的方法可以包括如下步骤：

步骤S2062，获取用于驱动虚拟对象的驱动数据。

获取用于驱动虚拟对象的驱动数据，其中，驱动数据可以是各种形式的输入数据，如传感器数据、用户输入等。

步骤S2064，从获取的驱动数据中提取多个驱动特征。

驱动特征是与驱动行为相关的有用信息，用于控制虚拟对象的行为。驱动特征包括但不限于：时间，指示当前的时间戳或时间段，用于控制虚拟对象在不同时间点执行不同的动作。位置，指示虚拟对象的位置信息，可以是二维坐标或三维坐标，用于控制虚拟对象在空间中的移动。速度，指示虚拟对象的运动速度，用于控制虚拟对象的运动快慢。方向，指示虚拟对象的朝向或运动方向，用于控制虚拟对象的朝向或路径。力度，指示虚拟对象的力度或强度，用于控制虚拟对象的力量大小或动作幅度。声音，指示声音特征，如音量、音调等，可以用于控制虚拟对象的声音表现。图像，指示虚拟对象的视觉特征，如颜色、形状等，可以用于控制虚拟对象的外观。

在一些实施例中，对于时间、位置、速度、方向等连续型的特征，可以进行统计分析，如计算均值、方差、最大值、最小值等。对于声音、图像等离散型的特征，可以采用相应的信号处理或图像处理方法，如频谱分析、颜色直方图等。

将提取得到的多个驱动特征转换成特征向量或特征向量的形式，以便后续使用。特征向量可以是一维数组或矩阵，其中每个元素对应一个驱动特征的值。对于每个驱动特征，可以根据实际需求进行标准化或归一化处理，以确保它们具有相似的尺度或范围。这样可以避免某些特征对模型或系统的影响过大。在提取特征的过程中，可以根据需要进行特征选择或降维处理，以减少数据维度和冗余，提高计算效率和模型性能。

步骤S208，将语音特征和第二触发标记映射到驱动特征上。

如图4所示，将语音特征和第二触发标记映射到驱动特征上的方法包括以下步骤：

步骤S2082，获取第二触发标记的位置信息。

第二触发标记是用于标记与目标事件相关的标记。通过识别和定位第二触发标记在特征向量矩阵中的位置，可以确定与目标事件相关的触发时机。

步骤S2084，将第二触发标记映射到驱动特征上。

根据第二触发标记的位置，可以定位到与其对应的驱动特征向量，并在该向量上设置第三触发标记。第三触发标记可以是一个特殊的标记值或者标记位，用于表示该驱动特征向量与第二触发标记相关联。映射后的驱动特征可以是一维数组或矩阵，其中每个元素对应一个驱动特征的值。

为了实现驱动特征的映射，需要进行数据对齐或插值操作，以使语音特征和驱动特征在时间上保持一致。可以使用插值方法将语音特征和驱动特征映射到同一时间轴上，并在对齐后的驱动特征上设置与第二触发标记所在的时间点对应的第三触发标记。

具体地说，首先通过插值方法对齐语音特征和驱动特征。在语音特征上，根据已知的时间点或时间段，获取相应的语音特征值。在驱动特征上，找到与该时间点或时间段最接近的位置，并使用插值方法计算出该位置的驱动特征值。然后，将插值后的驱动特征值与语音特征值进行对齐，使它们在时间上保持一致。

假设驱动特征为Y，可以使用以下公式对驱动特征Y进行插值操作：

其中， Y′(t_new) 是插值后的驱动特征在时间点 t_new处的值，c_i是插值多项式的系数，t_i是原始驱动特征的第i 个样本点所对应的时间点，t_j是原始驱动特征的第j 个样本点所对应的时间点，n表示插值中使用的数据点的数量，即原始驱动特征的样本点个数。

在本实施例中，通过上述插值对齐方法，可以将语音特征和驱动特征映射到同一时间轴上，使它们在时间上保持一致。这样可以确保语音和驱动特征的对应关系准确无误。在另外一些实施例中，还可以通过近邻数据点的插值计算，使驱动特征值在时间上平滑变化。这有助于减少突变和噪声对特征分析的干扰，使得特征更加连续和可靠。

接着，在插值对齐之后，设置第三触发标记。例如可以通过以下公式来设置第三触发标记：

其中，Y_i,j′表示驱动特征矩阵中第 i 行、第j 列的元素，Y_i,j表示原始驱动特征矩阵中对应位置的元素，w表示权重，f(j)表示第三触发标记，t_trigger为第二触发标记的位置。

本实施例，通过数据对齐或插值操作，可以将语音特征和驱动特征在时间上对齐，使它们具有相同的时间分辨率。这有助于在后续的分析和处理过程中保持数据的一致性和可比性。通过在对齐后的驱动特征上设置第三触发标记，可以表示该驱动特征与第二触发标记相关联。这样可以标记出与语音特征对应的驱动特征的位置，方便后续的特征分析和处理。

步骤S210，生成直播视频流。

如图5所示，生成直播视频流的方法可以包括如下步骤：

步骤S2102，生成当前视频流。

确定和所述目标事件触发标记在时间上对应的所述多个驱动特征中的一个或多个驱动特征；基于所述一个或多个驱动特征，生成所述虚拟对象的当前视频流。

步骤S2104，生成邻接视频流。

获取所述多个驱动特征中的所述一个或多个驱动特征之后的至少一个相邻驱动特征，基于所述至少一个相邻驱动特征生成与所述当前视频流邻接的邻接视频流。

步骤S2106，平滑处理。

将所述目标事件视频帧插入到所述当前视频流和所述邻接视频流之间，并进行平滑处理。具体步骤如下：

1）推断像素位置。

通过分析末视频帧、目标事件视频帧和首视频帧之间的像素运动，推断出待插入的中间帧的像素值，并以此生成中间帧。具体而言，根据像素在末视频帧中的位置和运动向量计算出它在目标事件视频帧中的推断位置。同时，根据像素在目标事件视频帧中的位置和运动向量计算出它在首视频帧中的推断位置。最后，基于像素在目标事件视频帧中的推断位置、像素在首视频帧中的推断位置以及像素在目标事件视频帧中的实际位置，推断出待插入的中间帧的像素值。

在一些实施例中，目标事件视频帧中的推断位置可以基于像素的初始横坐标位置和纵坐标位置、当前视频流中最后一个视频帧的运动向量、目标事件视频帧中的运动向量、偏置参数和权重参数来得到。例如，可以基于以下公式得到：

其中，x 和y表示像素的初始横坐标位置和纵坐标位置。MVcurrent_end(x,y)表示当前视频流中最末视频帧的运动向量，用于计算像素在当前视频流中的位置偏移。Biasx和Biasy表示第一偏置参数和第二偏置参数，用于对推断位置进行微调，避免可能的偏移或畸变因素。MVtarget(x,y)表示目标事件视频帧中的运动向量，用于表示像素在目标事件视频帧中的运动特征。Weightx和Weighty表示目标事件视频帧中像素位置推断时的第一权重参数和第二权重参数，用于调整推断位置时对目标事件视频帧中的运动向量的依赖程度。其中，Biasx、Biasy、Weightx和Weighty可以通过深度学习方法得到。

本实施例中引入了运动向量和权重参数，通过分析当前视频流、目标事件视频帧以及它们之间的像素运动，可以更准确地推断待插入中间帧的像素位置。这样做有助于提高直播视频流的质量和准确性，使生成的直播视频流更加流畅和自然。另外，准确推断像素位置还有助于填充当前视频流和邻接视频流之间的空白，并实现平滑过渡。通过消除视频流中的不连续性和跳跃感，观看体验更连贯和舒适。

最后，在本实施例中，结合了目标事件视频帧和当前视频流，通过将目标事件视频帧插入到适当的位置，确保目标事件与直播内容相匹配。这使用户能够在与直播内容匹配的时机与虚拟对象进行交互，从而提升了直播的效果和观看体验。

首视频帧中的推断位置也可以基于和上述公式类似的计算方法得到。

2）基于推断位置生成中间帧，把中间帧插入到视频流中。

首先，根据推断的像素位置，使用得到的像素值生成中间帧，在一些实施例中，可以通过插值算法来完成，例如线性插值或双线性插值。插值算法会根据已知像素值的位置和像素值之间的关系，填充中间帧中的像素值，使得中间帧在空间上平滑过渡。

接着，将生成的中间帧插入到视频流中的相应位置。具体位置取决于中间帧的时间点，应该与当前视频流和邻接视频流之间的时间对齐。这样做可以确保插入的中间帧在时间上平滑过渡，避免视频流中的不连续性和跳跃感。

除了插入中间帧外，还需要进行进一步的平滑处理，以进一步提升过渡效果。平滑处理可以采用一些滤波或平均技术，例如高斯平滑或均值平滑。这样，可以减少中间帧与当前视频流、邻接视频流之间的视觉差异，使过渡更加自然和连贯。

本实施例中，可以采用以下平滑处理公式：

其中，Ismooth(x,y)表示平滑后的像素值，Iinput(x+i,y+i)表示输入的视频帧中的像素值，σ表示高斯核函数的标准差，k表示高斯核的半径，i 表示像素在图像的垂直方向（行）上的位置，通常从上到下从 0 开始编号，j 表示像素在图像的水平方向（列）上的位置。

本实施例，通过对像素值进行加权平均，使用高斯核函数对周围像素进行加权，使得平滑后的像素值更加均匀，这有助于减少图像中的不连续性，使得图像更加平滑和自然。此外，由于高斯核函数的特性，它能够在平滑过程中保持边缘和细节的清晰度，避免过度平滑造成的模糊效果。

通过以上步实现了目标事件视频帧与当前视频流和邻接视频流的融合，同时进行了平滑处理，以确保过渡的流畅性。这样，不仅填充了视频流之间的空白，还消除了不连续性和跳跃感，提供了更加连贯和舒适的观看体验。同时，插入目标事件视频帧也确保了用户在与直播内容匹配的时机能够与虚拟对象进行交互，提升了直播的效果和观看体验。

实施例3

本申请实施例提供了一种基于目标事件触发的虚拟对象直播装置的结构示意图，如图6所示，该装置包括：获取模块62、生成模块64、和推送模块66。

获取模块62被配置为：获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系。

生成模块64被配置为：基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧；基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧。

推送模块66被配置为将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互

需要说明的是：上述实施例提供的基于目标事件触发的虚拟对象直播装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于目标事件触发的虚拟对象直播装置与基于目标事件触发的虚拟对象直播方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例4

本申请实施例提供了一种基于目标事件触发的虚拟对象直播系统，如图7所示，虚拟对象直播系统100可以包括终端设备101、102、103中的一个或多个、网络104、和服务器105。

网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

服务器105执行本公开实施例所提供的虚拟对象直播方法，生成直播视频流，并推送给终端设备101、102、103。

本公开实施例所提供的虚拟对象直播方法一般由服务器105执行，相应地，虚拟对象直播装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的虚拟对象直播方法也可以由终端设备101、102、103执行，为其他终端设备提供虚拟直播服务，相应的，虚拟对象直播装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。

在一些示例性实施例中，可以是用户通过终端设备101、102、103上的应用程序进入直播间，服务器105通过本公开实施例所提供的虚拟对象直播方法，生成直播视频流，并将直播视频流传输给终端设备101、102、103等。

实施例5

图8示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图8示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于目标事件触发的虚拟对象直播方法，其特征在于，包括：

获取用于驱动虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；

获取用于触发目标事件的目标事件触发标记，其中，所述目标事件触发标记和所述多个驱动特征之间具有关联关系；

基于所述目标事件触发标记确定待触发的所述目标事件，并基于所述目标事件生成用于呈现所述目标事件的目标事件视频帧；

基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，其中，所述直播视频流包括所述目标事件视频帧；

将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。

2.根据权利要求1所述的方法，在获取用于触发目标事件的目标事件触发标记之前，所述方法还包括：

获取所述虚拟对象的待播放的文本内容，从所述文本内容中提取与所述目标事件相关联的关键字，在所述关键字的位置设置第一触发标记；

将设置了所述第一触发标记的所述文本内容转换为待播放的语音数据，从所述待播放的语音数据中提取多个语音特征，其中，所述多个语音特征中的部分语音特征携带有与所述第一触发标记对应的第二触发标记；

将所述多个语音特征和所述第二触发标记映射到所述多个驱动特征上，其中，映射后的所述多个驱动特征中的部分驱动特征携带有与所述第二触发标记对应的作为所述目标事件触发标记的第三触发标记。

3.根据权利要求1所述的方法，基于所述关联关系，利用所述目标事件视频帧和所述多个驱动特征，生成所述虚拟对象进行直播的直播视频流，包括：

基于所述关联关系，确定和所述目标事件触发标记在时间上对应的所述多个驱动特征中的一个或多个驱动特征；

基于所述一个或多个驱动特征，生成所述虚拟对象的当前视频流，并基于所述目标事件视频帧和所述当前视频流，生成所述虚拟对象进行直播的直播视频流。

4.根据权利要求3所述的方法，基于所述目标事件视频帧和所述当前视频流，生成所述虚拟对象进行直播的直播视频流，包括：

获取所述多个驱动特征中的所述一个或多个驱动特征之后的至少一个相邻驱动特征，基于所述至少一个相邻驱动特征生成与所述当前视频流邻接的邻接视频流；

基于所述当前视频流、所述邻接视频流和所述目标事件视频帧，生成所述虚拟对象进行直播的直播视频流。

5.根据权利要求4所述的方法，基于所述当前视频流、所述邻接视频流和所述目标事件视频帧，生成所述虚拟对象进行直播的直播视频流，包括：

将所述目标事件视频帧插入到所述当前视频流和所述邻接视频流之间，生成融合后的视频流；

对所述融合后的视频流进行平滑处理，得到所述直播视频流。

6.根据权利要求5所述的方法，对所述融合后的视频流进行平滑处理，包括：

获取所述当前视频流中的末视频帧和所述邻接视频流中的首视频帧，其中，所述末视频帧是所述当前视频流中的最末尾的视频帧，所述首视频帧是所述邻接视频流中的第一个视频帧；

通过分析所述末视频帧、所述目标事件视频帧和所述首视频帧之间的像素运动，来推断待插入的中间帧的像素值，并基于所述像素值来生成所述中间帧；

将所述中间帧插入到所述融合后的视频流中的相应位置，对所述融合后的视频流进行平滑处理。

7.根据权利要求6所述的方法，其特征在于，通过分析所述末视频帧、所述目标事件视频帧和所述首视频帧之间的像素运动，来推断待插入的中间帧的像素值，包括：

根据所述像素在所述末视频帧中的位置和运动向量，计算所述像素在所述目标事件视频帧中的推断位置；

根据所述像素在所述目标事件视频帧中的位置和运动向量，计算所述像素在所述首视频帧中的推断位置；

基于所述像素在所述目标事件视频帧中的推断位置、所述像素在所述首视频帧中的推断位置、和所述像素在所述目标事件视频帧中的实际位置，来推断待插入的中间帧的像素值。

8.根据权利要求2所述的方法，其特征在于，将所述多个语音特征和所述第二触发标记映射到所述多个驱动特征上，包括：

将所述多个语音特征和所述多个驱动特征映射到同一时间轴上；

确定所述多个语音特征在所述时间轴上的第一时间点的位置，根据所述第一时间点的位置，分别计算所述多个语音特征中两个相邻语音特征之间的线性权重，并基于所述线性权重进行插值操作；

确定所述多个驱动特征在所述时间轴上的第二时间点的位置，根据所述第二时间点的位置，在所述多个驱动特征中两个相邻驱动特征之间进行插值操作，使得所述多个驱动特征在时间上对齐所述多个语音特征；

在对齐后的所述多个驱动特征上设置与所述第二触发标记所在的时间点对应的所述第三触发标记。

9.一种基于目标事件触发的虚拟对象直播装置，其特征在于，包括：

获取模块，被配置为：

获取用于驱动所述虚拟对象的驱动数据，并从所述驱动数据中提取多个驱动特征；

生成模块，被配置为：

推送模块，被配置为将所述直播视频流推送到终端设备，使得所述终端设备能够基于所述目标事件视频帧呈现的所述目标事件与所述虚拟对象进行交互。

10.一种基于目标事件触发的虚拟对象直播系统，其特征在于，包括：

服务器，其上设置有如权利要求9所述的基于目标事件触发的虚拟对象直播装置；

终端设备，被配置为接收并呈现所述服务器推送的所述直播视频流。