CN111200747A

CN111200747A - 基于虚拟形象的直播方法和装置

Info

Publication number: CN111200747A
Application number: CN201811287612.8A
Authority: CN
Inventors: 李培基; 王韧竹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-26
Also published as: JP6785282B2; JP2020071851A

Abstract

本发明提出了一种基于虚拟形象的直播方法和装置，其中，方法包括：采集主播用户的面部深度信息；根据面部深度信息确定主播用户的表情；根据表情渲染预设的虚拟形象的虚拟面部；采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端。由此，在保证直播的真实性的同时，保护了直播用户的隐私，提高了用户和产品的粘性。

Description

基于虚拟形象的直播方法和装置

技术领域

本发明涉及直播技术领域，尤其涉及一种基于虚拟形象的直播方法和装置。

背景技术

随着计算机技术的发展，依托于计算机技术的娱乐行业也越来越丰富，比如，依托于计算机技术的直播行业作为新兴行业，受到了越来越广泛的关注，比如，游戏直播、直播销售等。

相关技术中，通过将主播用户以及所在环境的真实音视频信息实时发布到社交平台，实现直播，然而，这种方式，当主播用户不希望暴露真实身份时，对主播用户的隐私具有较大伤害，因此，亟需一种可以平衡直播的真实性以及隐私保护之间的矛盾的方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于虚拟形象的直播方法，以在保证直播的真实性的同时，保护了直播用户的隐私。

本发明的第二个目的在于提出一种基于虚拟形象的直播装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于虚拟形象的直播方法，包括以下步骤：采集主播用户的面部深度信息；根据所述面部深度信息确定所述主播用户的表情；

根据所述表情渲染预设的虚拟形象的虚拟面部；采集所述主播用户的音频信息，将所述音频信息和所述虚拟面部合成视频帧，将所述视频帧发送到观看用户客户端。

另外，本发明实施例的基于虚拟形象的直播方法，还具有如下附加的技术特征：

可选地，所述采集主播用户的面部深度信息，包括：通过点阵投影器向所述主播用户面部投射多个光点；拍摄经所述主播用户面部调制的结构光图像；解调所述结构光图像的各个像素对应的相位信息获取所述主播用户的面部深度信息。

可选地，所述根据所述面部深度信息确定所述主播用户的表情，包括：查询预设的第一表情数据库，获取与所述面部深度信息对应的表情；或者，计算所述面部深度信息与上次采集的面部深度信息的深度变化信息，查询预设的第二表情数据库，获取与所述深度变化信息对应的表情。

可选地，还包括：获取所述主播用户的用户特征和直播场景特征；根据所述用户特征和直播场景特征生成虚拟形象。

可选地，所述根据所述表情渲染预设的虚拟形象的虚拟面部，包括：构建与所述虚拟面部对应的虚拟立绘模型，其中，所述虚拟立绘模型包括：与所述虚拟面部中的各器官对应的包含关键点的网格区域；查询预设的二维动画编辑数据库，获取与所述表情对应的目标器官和调整参数；根据所述调整参数调整与所述目标器官对应的目标网格对所述虚拟面部进行渲染。

本发明第二方面实施例提出了一种基于虚拟形象的直播装置，包括：采集模块，用于采集主播用户的面部深度信息；确定模块，用于根据所述面部深度信息确定所述主播用户的表情；渲染模块，用于根据所述表情渲染预设的虚拟形象的虚拟面部；合成模块，用于采集所述主播用户的音频信息，将所述音频信息和所述虚拟面部合成视频帧；发送模块，用于将所述视频帧发送到观看用户客户端。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的基于虚拟形象的直播方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的基于虚拟形象的直播方法。

本发明实施例提供的技术方案可以包含如下的有益效果：

采集主播用户的面部深度信息，根据面部深度信息确定主播用户的表情，进而，根据表情渲染预设的虚拟形象的虚拟面部，最后，采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端。由此，在保证直播的真实性的同时，保护了直播用户的隐私，提高了用户和产品的粘性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的基于虚拟形象的直播方法的流程图；

图2是根据本发明一个实施例的虚拟形象的场景示意图；

图3是根据本发明另一个实施例的基于虚拟形象的直播方法的流程图；

图4是根据本发明又一个实施例的基于虚拟形象的直播方法的流程图；

图5是根据本发明另一个实施例的虚拟形象的场景示意图；

图6是根据本发明一个实施例的基于虚拟形象的直播装置的结构示意图；以及

图7是根据本发明另一个实施例的基于虚拟形象的直播装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于虚拟形象的直播方法和装置。

基于上述现有技术的描述可以知道，相关技术中，无法平衡直播的真实性和隐私保护之间的矛盾，为了解决该技术问题，本发明提出了一种基于虚拟形象的直播方法，在该方法中，一方面，通过对主播用户构建虚拟形象，根据虚拟形象实现直播，保护了主播用户的隐私，另一方面，在构建虚拟形象时，基于主播用户的面部深度信息的分析和渲染构建，精度更高，效果更逼真，保证了直播的真实性。

具体而言，图1是根据本发明一个实施例的基于虚拟形象的直播方法的流程图，如图1所示，该方法包括：

步骤101，采集主播用户的面部深度信息。

其中，面部深度信息反映了主播用户在三维空间中的面部立体形状。

需要说明的是，根据应用场景的不同，采集主播用户的面部深度信息的方式不同，示例如下：

在本发明的一个实施例中，如图2所示，上述步骤101包括：

步骤201，通过点阵投影器向主播用户面部投射多个光点。

其中，由于通过向用户面部投射光点的技术实现面部深度信息的采集，因而，可以根据控制光点数量控制采集精度，同时，还可以根据面部信息的复杂程度控制对不同的部位投射不同数量的光点，以充分利用资源，提高采集精度，比如在眼睛和嘴巴部位投射较多数量的光点，在面部区域投射较少数量的光点等。

步骤202，拍摄经主播用户面部调制的结构光图像。

步骤203，解调结构光图像的各个像素对应的相位信息获取主播用户的面部深度信息。

具体而言，上述点阵投影器可以包括结构光投射器等，其中，当点阵投影器包括结构光投射器时，结构光投射器可用于向当前主播用户的面部投射结构光，结构光投射器中的结构光摄像头拍摄经当前主播用户的面部调制的结构光图像，以及解调结构光图像的各个像素对应的相位信息以得到深度图像，其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。当然，在一些可能的示例中，与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头首先解调出结构光图像中各个像素对应的相位信息，再根据相位信息计算出主播用户的面部深度信息。

在本发明的一个实施例中，还可以查询当前终端设备的硬件设备，基于终端设备已安装的点阵投射设备进行点阵光的投射，采集主播用户的面部深度信息，比如，对于苹果手机用户，可以基于该手机中的TrueDepth摄像头采集用户的深度信息。

步骤102，根据面部深度信息确定主播用户的表情。

具体地，考虑到在真人直播场景中，主播用户的面部表情变化是让直播变得吸引人和趣味性较高的重要体现，因而，在本发明的实施例中，根据面部深度信息确定出主播用户的表情，以便于在构建主播用户的虚拟形象时，对这种生动的表情进行还原。

其中，根据应用场景的不同，根据面部深度信息确定主播用户的表情的方式不同，示例如下：

示例一：

在本示例中，预先根据大量实验数据(该实验数据中包括用户的表情一级对应的用户面部深度信息)构建深度学习模型，进而，将主播用户的面部信息输入该深度学习模型，获取该深度学习模型输出的主播用户的表情。

示例二：

可以在主播用户注册主播平台时，采集主播用户在做不同表情时的面部深度信息，其中，为了实现表情类型和面部深度信息的对应，可以是预先向用户发送表情类型采集提示，并获取用户在该提示下做出的表情，比如，提示用户请做出开心的表情，则当前采集到的面部深度信息作为开心表情对应的面部深度信息，或者，可以是用户在做完表情后，手动输入表情类型，或者，选择有关界面上的表情选项。进而，根据面部深度信息和表情的对应关系，构建针对该主播用户的第一表情数据库，从而，在获取主播用户的面部深度信息后，查询该第一表情数据库即可获取对应表情，比如，将匹配度大于一定值的面部深度信息对应的表情作为当前主播用户的表情。

当然，为了减轻深度信息在比对时，每个点进行比对导致的计算量较大的问题，在本实施例中，还可基于面部深度信息的变化构建第二表情数据库，该第二表情数据库中包含对应主播用户的深度变化信息和表情的对应关系，比如，当面部深度信息变化为嘴角部分的相位正向变化A，眼睛部分的相位负向变化为B，则查询对应第二表情数据库，发现该深度变化信息对应的表情为开心大笑的表情1。

步骤103，根据表情渲染预设的虚拟形象的虚拟面部。

其中，虚拟形象可以是二维的，也可以是三维的。

具体地，考虑到每个人做相同类型表情时候对应的表情并不相同，因而，为了真实的还原出主播用户当前的表情，根据表情渲染预设的虚拟形象的虚拟面部，使得虚拟形象的面部表情与当前主播用户的面部表情一致。举例而言，如图3所示，虚拟形象为小猫3D模型时，则根据表情将小猫的渲染为主播用户的表情。

其中，考虑到用户的个体性差异以及与虚拟形象对应的差异，在本发明的实施例中，在根据表情渲染预设的虚拟形象时，获取主播用户面部五官位置和形状，根据五官位置和五官形状对虚拟形象进行微调。

在本发明的一个实施例中，为了提高根据表情渲染预设的虚拟形象的虚拟面部的效率，当虚拟形象是二维时，基于Live2D技术实现虚拟面部的构建，具体而言，如图4所示，根据表情渲染预设的虚拟形象的虚拟面部，包括：

步骤301，构建与虚拟面部对应的虚拟立绘模型，其中，虚拟立绘模型包括：与虚拟面部中的各器官对应的包含关键点的网格区域。

具体地，构建与虚拟面部对应的虚拟立绘模型，其中，虚拟立绘模型包括与虚拟面部中的各器官对应的包含关键点的网格区域，也就是说，将虚拟面部的各个部分打散，所以在虚拟立绘模型中眼睛、鼻子、嘴巴、头发等部位都是独立的，每一个独立的部分都有自己的关键点与网格区域，都可以依赖于动画编辑来独立运动。例如“Live2D”可以通过眼皮部位的网格区域变形来生成眼睛的眨动表情等。

步骤302，查询预设的二维动画编辑数据库，获取与表情对应的目标器官和调整参数。

步骤303，根据调整参数调整与目标器官对应的目标网格对虚拟面部进行渲染。

具体地，虚拟立绘模型中每个部分都具有虚拟面部的大量关键点，这些关键点彼此联结在一起，形成一个个网格区域，这关键点类似的3D模型中的顶点，当关键点移动时网格区域会发生变形，对应的原虚拟面部组件(包括虚拟面部的面部器官)也会发生变形。可以利用网格的变形、移动、缩放来控制对应原虚拟面部组件的运动，从而可以让二维虚拟形象做出一些表情上自然变化的动作。其中，上述网络区域的变形参数、移动参数和缩放参数可以理解为本实施例中对应目标器官的调整参数。

在本实施例中，构建包含表情和目标器官以及目标器官的调整参数的对应关系的二维动画编辑数据库，该二维动画编辑数据库可以和每个主播用户对应，进而，根据二维动画编辑数据库获取与当前主播表情对应的目标器官和调整参数，根据调整参数调整与目标器官对应的目标网格对虚拟面部进行渲染。

需要强调的是，在本发明的实施例中，虚拟形象可以是预先设置的默认形象，比如，是某个产品的推广吉祥物形象等，也可以是根据当前直播进行生成的，比如，获取主播用户的用户特征和直播场景特征，其中，用户特征包括用户的喜好信息、性别、年龄等，直播场景特征包括买衣服、游戏、商务推广等根据直播业务有关的特征，进而，根据用户特征和直播场景特征生成虚拟形象，比如，当前场景特征为秘密商业会谈且主播用户特征为商业人士，且根据需要虚拟形象不包含面部五官，则如图5所示，生成相对比较正式的虚拟形象。

步骤104，采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端。

具体地，为了实现直播，采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端，其中，每个视频帧中的虚拟形象和面部表情和音频信息与主播用户对应，因而，由视频帧组成的视频流还原了主播用户的真实主播表情等，真实感较强，且保护了主播用户的隐私。

综上，本发明实施例的基于虚拟形象的直播方法，采集主播用户的面部深度信息，根据面部深度信息确定主播用户的表情，进而，根据表情渲染预设的虚拟形象的虚拟面部，最后，采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端。由此，在保证直播的真实性的同时，保护了直播用户的隐私，提高了用户和产品的粘性。

为了实现上述实施例，本发明还提出了一种基于虚拟形象的直播装置，图6是根据本发明一个实施例的基于虚拟形象的直播装置的结构示意图，如图6所示，该基于虚拟形象的直播装置包括：采集模块10、确定模块20、渲染模块30、合成模块40和发送模块50。

其中，采集模块10，用于采集主播用户的面部深度信息。

确定模块20，用于根据面部深度信息确定主播用户的表情。

渲染模块30，用于根据表情渲染预设的虚拟形象的虚拟面部。

合成模块40，用于采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧。

发送模块50，用于将视频帧发送到观看用户客户端。

在本发明的一个实施例中，如图7所示，在如图6所示的基础上，采集模块10包括投射单元11、拍摄单元12和获取单元13。

其中，投射单元11，用于通过点阵投影器向主播用户面部投射多个光点。

拍摄单元12，用于拍摄经主播用户面部调制的结构光图像。

获取单元113，用于解调结构光图像的各个像素对应的相位信息获取主播用户的面部深度信息。

在本实施例中，确定模块20具体用于：

查询预设的第一表情数据库，获取与面部深度信息对应的表情；

或者，

计算面部深度信息与上次采集的面部深度信息的深度变化信息，查询预设的第二表情数据库，获取与深度变化信息对应的表情。

需要说明的是，前述对基于虚拟形象的直播方法实施例的解释说明也适用于该实施例的基于虚拟形象的直播装置，其实现原理类似，此处不再赘述。

综上，本发明实施例的基于虚拟形象的直播装置，采集主播用户的面部深度信息，根据面部深度信息确定主播用户的表情，进而，根据表情渲染预设的虚拟形象的虚拟面部，最后，采集主播用户的音频信息，将音频信息和虚拟面部合成视频帧，将视频帧发送到观看用户客户端。由此，在保证直播的真实性的同时，保护了直播用户的隐私，提高了用户和产品的粘性。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所描述的基于虚拟形象的直播方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所描述的基于虚拟形象的直播方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于虚拟形象的直播方法，其特征在于，包括以下步骤：

采集主播用户的面部深度信息；

根据所述面部深度信息确定所述主播用户的表情；

根据所述表情渲染预设的虚拟形象的虚拟面部；

采集所述主播用户的音频信息，将所述音频信息和所述虚拟面部合成视频帧，将所述视频帧发送到观看用户客户端。

2.如权利要求1所述的方法，其特征在于，所述采集主播用户的面部深度信息，包括：

通过点阵投影器向所述主播用户面部投射多个光点；

拍摄经所述主播用户面部调制的结构光图像；

解调所述结构光图像的各个像素对应的相位信息获取所述主播用户的面部深度信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述面部深度信息确定所述主播用户的表情，包括：

查询预设的第一表情数据库，获取与所述面部深度信息对应的表情；

或者，

计算所述面部深度信息与上次采集的面部深度信息的深度变化信息，查询预设的第二表情数据库，获取与所述深度变化信息对应的表情。

4.如权利要求1所述的方法，其特征在于，还包括：

获取所述主播用户的用户特征和直播场景特征；

根据所述用户特征和直播场景特征生成虚拟形象。

5.如权利要求1所述的方法，其特征在于，所述根据所述表情渲染预设的虚拟形象的虚拟面部，包括：

构建与所述虚拟面部对应的虚拟立绘模型，其中，所述虚拟立绘模型包括：与所述虚拟面部中的各器官对应的包含关键点的网格区域；

查询预设的二维动画编辑数据库，获取与所述表情对应的目标器官和调整参数；

根据所述调整参数调整与所述目标器官对应的目标网格对所述虚拟面部进行渲染。

6.一种基于虚拟形象的直播装置，其特征在于，包括：

采集模块，用于采集主播用户的面部深度信息；

确定模块，用于根据所述面部深度信息确定所述主播用户的表情；

渲染模块，用于根据所述表情渲染预设的虚拟形象的虚拟面部；

合成模块，用于采集所述主播用户的音频信息，将所述音频信息和所述虚拟面部合成视频帧；

发送模块，用于将所述视频帧发送到观看用户客户端。

7.如权利要求6所述的装置，其特征在于，所述采集模块，包括：

投射单元，用于通过点阵投影器向所述主播用户面部投射多个光点；

拍摄单元，用于拍摄经所述主播用户面部调制的结构光图像；

获取单元，用于解调所述结构光图像的各个像素对应的相位信息获取所述主播用户的面部深度信息。

8.如权利要求7所述的装置，其特征在于，所述确定模块，具体用于：

或者，

9.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-5中任一所述的基于虚拟形象的直播方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的基于虚拟形象的直播方法。