CN108076391A

CN108076391A - 用于直播场景的图像处理方法、装置和电子设备

Info

Publication number: CN108076391A
Application number: CN201611206683.1A
Authority: CN
Inventors: 张帆
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2018-05-25

Abstract

本发明实施例提供一种用于直播场景的图像处理方法、装置和电子设备。其中，用于直播场景的图像处理的方法包括：当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。接收直播视频数据以及直播精灵交互数据；根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。本发明实施例提供一种用于直播场景的图像处理方法、装置和电子设备，根据从直播视频数据中检测到的人物行为，提供直播精灵的交互反应，使得直播精灵与直播场景中的人物(如主播)的交互方式更为自然、直接，更有效地提高直播的娱乐性和趣味性。

Description

用于直播场景的图像处理方法、装置和电子设备

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种用于直播场景的图像处理方法、装置和电子设备。

背景技术

随着互联网技术的发展，人们越来越多地使用互联网观看视频，由此，互联网视频为许多新的业务提供了商机。

在此基础上，由于直播平台可为用户提供各种实时的视频内容，具有实时互动性，因此集聚了大量用户。为主播提供提高娱乐性的工具对吸引新用户以及提高已有用户的粘合度具有意义。

另一方面，现实中不存在的虚拟角色可以存在于电视剧、漫画、游戏等的创作性作品中。在通常的电子游戏、访谈节目、主题乐园中，运营方常常创建出各类造型的虚拟角色，并赋予其名字和人格，以达到吸引人气的目的。

在桌面软件和互联网中，使用电子精灵的场景也非常常见。如瑞星杀毒的“小狮子”、早期Office软件的“曲别针”、网络警察LOGO，都是其中经典的形象。通过使用这些精灵形象，软件的生硬形象得到改善，与用户的界面变得更友好亲切。

然而，由于技术限制的原因，电子精灵和使用者之间往往不能通过简单、自然、直接的方式进行交互，通常额外需要借助一些机械化的输入/输出设备，才能完成。

发明内容

本发明实施例的目的在于，提供一种用于直播场景的图像处理方法、装置和电子设备。

根据本发明实施例的第一方面，提供一种用于直播场景的图像处理方法，包括：当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

可选地，结合本发明实施例提供的任一种方法，其中，所述人物行为包括肢体动作、手势动作、面部动作以及表情中的至少一个。

可选地，结合本发明实施例提供的任一种方法，其中，所述直播精灵交互数据包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

可选地，结合本发明实施例提供的任一种方法，其中，所述方法还包括：根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种方法，其中，所述根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵包括：获取所述直播精灵交互数据对应的第一帧序列；采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

可选地，结合本发明实施例提供的任一种方法，其中，所述根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵还包括：获取所述直播视频数据中的人脸区域；根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种方法，其中，所述方法还包括：当检测到基于所述直播精灵的操作指令时，获取所述操作指令对应的直播精灵指令数据；发送所述直播精灵指令数据，以使所述各观众端接收所述直播精灵指令数据。

可选地，结合本发明实施例提供的任一种方法，其中，所述发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据，包括：发送所述直播精灵交互数据至服务端，以使所述服务端将所述直播精灵交互数据发送给所述各观众端；或者，发送所述直播精灵交互数据至所述各观众端。

可选地，结合本发明实施例提供的任一种方法，其中，所述肢体动作包括以下至少一个：起立、坐下、转圈、倒立和身体晃动；所述面部动作包括以下至少一个：眨眼、亲吻、张嘴、摇头、点头、嘟嘴、吹气和哈欠；所述手势动作包括以下至少一个：挥手、剪刀手、握拳、托手、鼓掌、手掌张开、手掌闭合、竖大拇指、手枪姿势、V手势和OK手势；所述表情包括指示以下至少一种情绪的表情：开心、愤怒、激动、痛苦和悲伤。

可选地，结合本发明实施例提供的任一种方法，其中，所述附件穿戴数据包括贴纸数据。

根据本发明实施例的第二方面，还提供一种用于直播场景的图像处理方法，包括：接收直播视频数据以及直播精灵交互数据；根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

可选地，结合本发明实施例提供的任一种方法，其中，根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵还包括：获取所述直播视频数据中的人脸区域；根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种方法，其中，所述方法还包括：接收直播精灵的操作指令对应的直播精灵指令数据；根据所述直播精灵指令数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种方法，其中，所述接收直播视频数据以及直播精灵交互数据，包括：从服务端接收所述直播精灵交互数据；或者，从主播端接收所述直播精灵交互数据。

可选地，结合本发明实施例提供的任一种方法，其中，所述接收直播视频数据以及直播精灵交互数据还包括：从直播场景的视频流获取所述直播视频数据以及所述直播精灵交互数据。

根据本发明实施例的第三方面，还提供一种用于直播场景的图像处理的装置，包括交互数据获取模块，用于当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；交互数据发送模块，用于发送所述交互数据获取模块获取的直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

可选地，结合本发明实施例提供的任一种装置，其中，所述人物行为包括肢体动作、手势动作、面部动作以及表情中的至少一个。

可选地，结合本发明实施例提供的任一种装置，其中，所述直播精灵交互数据包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：第一直播精灵绘制模块，用于根据所述交互数据获取模块获取的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种装置，其中，所述第一直播精灵绘制模块包括：第一帧序列获取子模块，用于获取所述直播精灵交互数据对应的第一帧序列；第一帧序列绘制子模块，用于采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

可选地，结合本发明实施例提供的任一种装置，其中，所述第一直播精灵绘制模块包括：第一人脸区域获取子模块，用于获取所述直播视频数据中的人脸区域；第一直播精灵绘制子模块，用于根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：指令数据获取模块，用于当检测到基于所述直播精灵的操作指令时，获取所述操作指令对应的直播精灵指令数据；指令数据发送模块，用于发送所述直播精灵指令数据，以使所述各观众端接收所述直播精灵指令数据。

可选地，结合本发明实施例提供的任一种装置，其中，所述指令数据发送模块用于发送所述直播精灵交互数据至服务端，以使所述服务端将所述直播精灵交互数据发送给所述各观众端；或者，用于发送所述直播精灵交互数据至所述各观众端。

可选地，结合本发明实施例提供的任一种装置，其中，所述肢体动作包括以下至少一个：起立、坐下、转圈、倒立和身体晃动；所述面部动作包括以下至少一个：眨眼、亲吻、张嘴、摇头、点头、嘟嘴、吹气和哈欠；所述手势动作包括以下至少一个：挥手、剪刀手、握拳、托手、鼓掌、手掌张开、手掌闭合、竖大拇指、手枪姿势、V手势和OK手势；所述表情包括指示以下至少一种情绪的表情：开心、愤怒、激动、痛苦和悲伤。

可选地，结合本发明实施例提供的任一种装置，其中，所述附件穿戴数据包括贴纸数据。

根据本发明实施例的第四方面，还提供一种用于直播场景的图像处理的装置，包括：交互数据接收模块，用于接收直播视频数据以及直播精灵交互数据；第二直播精灵绘制模块，用于根据所述交互数据接收模块接收的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

可选地，结合本发明实施例提供的任一种装置，其中，所述第二直播精灵绘制模块包括：第二帧序列获取子模块，用于获取所述直播精灵交互数据对应的第一帧序列；第二帧序列绘制子模块，用于采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

可选地，结合本发明实施例提供的任一种装置，其中，所述第二直播精灵绘制模块包括：第二人脸区域获取子模块，用于获取所述直播视频数据中的人脸区域；第二直播精灵绘制子模块，用于根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：指令数据接收模块，用于接收直播精灵的操作指令对应的直播精灵指令数据；所述第二直播精灵绘制模块还用于根据所述直播精灵指令数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，结合本发明实施例提供的任一种装置，其中，所述交互数据接收模块用于从服务端接收所述直播精灵交互数据；或者，用于从主播端接收所述直播精灵交互数据。

可选地，结合本发明实施例提供的任一种装置，其中，所述交互数据接收模块还用于从直播场景的视频流获取所述直播视频数据以及所述直播精灵交互数据。

根据本发明实施例的第五方面，提供一种第一电子设备。第一电子设备包括第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如上述第一方面提供的用于直播场景的图像处理方法对应的操作。

根据本发明实施例的第六方面，提供一种第二电子设备。第二电子设备包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如上述第二方面提供的用于直播场景的图像处理方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据的可执行指令；用于发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据的可执行指令。

根据本发明实施例的又一方面，还提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有：用于接收直播视频数据以及直播精灵交互数据的可执行指令；用于根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵的可执行指令。

根据本发明实施例提供的用于直播场景的图像处理方法、装置及电子设备，根据从直播视频数据中检测到的人物行为，生成检测到的人物行为对应的直播精灵交互数据并且发送生成的直播精灵交互数据，以使观众端接收所述直播精灵交互数据，从而能够在直播场景的视频画面中设置具有交互功能的直播精灵的形象，为直播场景营造虚实结合的视觉效果。与现有的电子精灵的交互方式不同，在根据本发明实施例中，根据从直播视频数据中检测到的人物行为，提供直播精灵的交互反应，使得直播精灵与直播场景中的人物(如主播)的交互方式更为自然、直接，更有效地提高直播的娱乐性和趣味性。此外，将直播精灵交互数据而不是包括绘制好的直播精灵的直播视频数据发送给观众端，有利于节约网络资源和/或客户端的系统资源，提高了视频内容的收看和互动效果。

附图说明

图1是示出根据本发明实施例一的用于直播场景的图像处理方法的流程图；

图2是示出根据本发明实施例二的用于直播场景的图像处理方法的流程图；

图3是示出根据本发明实施例三的用于直播场景的图像处理方法的流程图；

图4是示出根据本发明实施例四的用于直播场景的图像处理方法的流程图；

图5是示出根据本发明实施例五的用于直播场景的图像处理装置的逻辑框图；

图6是示出根据本发明实施例六的用于直播场景的图像处理装置的逻辑框图；

图7是示出根据本发明实施例七的用于直播场景的图像处理装置的逻辑框图；

图8是示出根据本发明实施例八的用于直播场景的图像处理装置的逻辑框图；

图9是示出根据本发明实施例九的第一电子设备的结构示意图。

图10是示出根据本发明实施例十的第二电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

图1是示出根据本发明实施例一的用于直播场景的图像处理方法的流程图。可在例如直播场景的主播端或服务器端执行该用于直播场景的图像处理方法。

参照图1，在步骤S110，当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据。

可通过例如主播用户使用的摄像机、摄像头等图像采集设备连续地采集该直播场景的视频图像，也可以接收来自主播端的直播场景的视频图像。当然，该直播场景的视频图像也可以是预先录制的直播场景的视频图像。这里的直播场景可以是直播节目的场景，如主播才艺表演的场景、主播就餐的场景等。

根据实施例一的图像处理方法，在直播场景中设置具有交互功能的直播精灵，根据从直播视频数据中检测到的人物行为，生成检测到的人物行为对应的直播精灵交互数据。可通过各种可行的图像分析技术对直播视频数据进行是否存在人物行为的检测。

在直播场景中，该人物行为通常是直播主播的行为，当然也可以是直播场景中的其他人的行为。该人物行为可以是人肢体或脸部的任何动作，但不限于此。该直播精灵交互数据可以包括指示直播精灵的动作、表情或展示状态的数据。

在步骤S120，发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

根据本发明实施例一的用于直播场景的图像处理方法，根据从直播视频数据中检测到的人物行为，生成检测到的人物行为对应的直播精灵交互数据并且发送生成的直播精灵交互数据，以使观众端接收所述直播精灵交互数据，从而能够在直播场景的视频画面中设置具有交互功能的直播精灵的形象，为直播场景营造虚实结合的视觉效果。与现有的电子精灵的交互方式不同，在根据本发明实施例中，根据从直播视频数据中检测到的人物行为，提供直播精灵的交互反应，使得直播精灵与直播场景中的人物(如主播)的交互方式更为自然、直接，更有效地提高直播的娱乐性和趣味性。此外，将直播精灵交互数据而不是包括绘制好的直播精灵的直播视频数据发送给观众端，有利于节约网络资源和/或客户端的系统资源，提高了视频内容的收看和互动效果。

实施例二

图2是示出根据本发明实施例二的用于直播场景的图像处理方法的流程图。

参照图2，在步骤S210，当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据。

如前所述，可通过各种可行的图像分析技术对直播视频数据进行是否存在人物行为的检测。这里的人物行为可包括，但不限于，肢体动作、手势动作、面部动作以及表情中的至少一个。

具体地，所述肢体动作可包括以下至少一个：起立、坐下、转圈、倒立和身体晃动；所述面部动作可包括以下至少一个：眨眼、亲吻、张嘴、摇头、点头、嘟嘴、吹气和哈欠；所述手势动作可包括以下至少一个：挥手、剪刀手、握拳、托手、鼓掌、手掌张开、手掌闭合、竖大拇指、手枪姿势、V手势和OK手势；所述表情可包括指示以下至少一种情绪的表情：开心、愤怒、激动、痛苦和悲伤。需要指出，检测到的人物行为不限于前述列举的项目，可以是要检测的任何行为。

所述人物行为对应的直播精灵交互数据可以是期望直播精灵对人物行为作出反应的任何交互数据。例如，直播精灵交互数据可包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

其中，动作数据指示直播精灵的反应动作，如作揖、鼓掌、飞吻等。表情数据指示直播精灵的反应表情，如委屈表情、欢喜表情、悲伤表情等。透明展示数据指示直播精灵的透明展示状态，如半透明展示、全透明展示、不透明展示等，其中，全透明展示的透明度为100％，实际指示隐身状态；该透明展示数据还可包括透明度的数据，以指示直播精灵的透明展示程度。展示位置数据指示直播精灵的展示位置，在交互过程中，直播精灵的展示位置可能发生改变，可根据检测到的人物行为(向内勾手指动作)将直播精灵的展示位置更新为距离人物更近的位置。

附件穿戴状态指示直播精灵当前是否穿戴有附件以及穿戴附件的信息，该附件是指要与直播精灵一同绘制的例如衣饰、道具等附件。穿戴附件的信息可包括附件的贴纸数据以及穿戴附件的绘制数据(例如绘制关键点数据)。

穿戴的附件可以是例如，某品牌的帽子、T恤等。这里所说的附件可以是衣饰或道具。在此情形中，直播精灵本身可用于承载广告，以不影响用户体验的方式提供商业服务。

以下给出获取检测到的人物行为对应的直播精灵交互数据的示例：如果从直播视频数据中检测到主播的愤怒表情，则获取的直播精灵交互数据可指示直播精灵的委屈表情；如果从直播视频数据中检测到主播的飞吻动作，获取的直播精灵交互数据可指示直播精灵的飞吻动作；如果从直播视频数据中检测到主播的拍手动作，则获取的直播精灵交互数据可指示穿戴附件。

此后，可顺序、并行或同时执行步骤S220和S230。

在步骤S220，发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

具体地，可发送所述直播精灵交互数据至服务端，以使所述服务端将所述直播精灵交互数据发送给所述各观众端；或者，也可以发送所述直播精灵交互数据至所述各观众端。

此外，还可根据直播精灵交互数据和直播视频数据生成视频流，一同发送直播精灵交互数据和直播视频数据至服务端或观众端。

在步骤S230，根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可以通过使用的图形图像绘制或渲染方法等绘制直播精灵，包括但不限于，基于OpenGL图形绘制引擎或Unity 3D渲染引擎等进行2D图形形象或3D图形形象的绘制等，以使带有绘制的直播精灵的视频画面得到展现。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL和/或Unity 3D渲染引擎等，不仅可以实现2D效果如2D贴纸或特效的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。

具体地，可设置与直播精灵交互数据(如动作、表情)相应的图像数据，使用该图像数据绘制直播精灵。例如，步骤S230可包括：获取所述直播精灵交互数据对应的第一帧序列；采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

根据本发明的一种实现方式，如果获取的直播精灵交互数据指示穿戴附件，则步骤S230可包括：获取直播精灵的第二帧序列以及与附件的贴纸数据对应的第三帧序列，根据所述第二帧序列、第三帧序列和穿戴附件的绘制数据，采用计算机绘图方式在所述视频图像中绘制所述直播精灵。由此，在视频画面中绘制和展示穿戴有附件(衣饰或道具)的直播精灵。可将该附件设为广告贴纸，将该广告贴纸显示一定的时间长度，在直播场景中自然地植入广告，在不影响用户体验的情况下提供商业服务。

直播场景中的人物(如主播)不是静态的，根据其动作或运动，人物占据的画面区域会产生变化。为了防止直播精灵被绘制和展示在视频画面中人脸的位置，在所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵时，可还执行以下处理：获取所述直播视频数据中的人脸区域；根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵，以确保绘制的直播精灵不遮挡视频画面中的人脸。

前述从直播视频数据检测的人物行为可以是其中的人物(如主播)对直播精灵的作出的动作、表情等，也可以是主播自己的动作、表情等，基于直播视频数据中检测到的人物行为来生成直播精灵交互数据，这些人物行为不依赖于绘制和展示的直播精灵。另一方面，还可提供用户(如主播)对展现的绘制有直播精灵的视频画面的界面上的直播精灵执行的操作(如点击、拖拽、长按、轻拍等操作)执行交互的功能。由于直播精灵是绘制的虚拟对象，因此该操作用户对用户界面上展现的直播精灵的操作。

相应地，根据本发明的一种可实施方式，用于直播场景的图像处理方法还包括：当检测到基于所述直播精灵的操作指令时，获取所述操作指令对应的直播精灵指令数据，并且发送所述直播精灵指令数据，以使所述各观众端接收所述直播精灵指令数据。获取的直播精灵指令数据可包含与前述直播精灵交互数据类似的信息。例如，如果从直播视频数据中检测到对直播精灵的点击操作，则获取的直播精灵指令数据可指示直播精灵的害羞表情。

此外，还可根据所述直播精灵指令数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。根据直播精灵指令数据绘制直播精灵的处理与根据直播精灵指令数据绘制直播精灵的处理类似，在此不予赘述。

根据本发明实施例二的用于直播场景的图像处理方法，在具有实施例一的有益效果的基础上，还能够可在直播视频的录制过程或提供过程中，在视频图像中添加绘制各种交互状态的直播精灵的形象，为直播场景营造虚实结合的视觉效果，并且提高直播的娱乐性和趣味性。此外，还可以根据基于所述直播精灵的操作指令来生成操作指令对应的直播精灵指令数据，发送直播精灵指令数据以及/或者根据直播精灵指令数据绘制直播精灵，提供了更多与直播精灵交互的方式。

实施例三

图3是示出根据本发明实施例三的用于直播场景的图像处理方法的流程图。可在例如直播场景的观众端执行该用于直播场景的图像处理方法。

参照图3，在步骤S310，接收直播视频数据以及直播精灵交互数据。

直播视频数据包括直播场景的视频图像，这里的直播场景可以是直播节目的场景，如主播才艺表演的场景、主播就餐的场景等。直播精灵交互数据是根据从直播视频数据中检测到的人物行为生成的与人物行为对应的直播精灵交互数据。

可分别接收直播视频数据和直播精灵交互数据，也可以一同接收直播视频数据和直播精灵交互数据。在步骤S320，根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

由于已接收到与人物行为对应的直播精灵交互数据，因此在直播场景的观众端，仅需根据直播精灵交互数据在所述直播视频数据中绘制直播精灵。通过由观众端根据直播精灵交互数据来绘制直播精灵，而不是直接传送绘制有直播精灵的视频数据，可避免因视频压缩而导致的失真，确保视频收看效果。

步骤S320的处理与前述步骤S230的处理类似，在此不予赘述。

根据本发明实施例三的用于直播场景的图像处理方法，根据接收的直播视频数据以及与直播视频数据中的人物行为对应的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵，能够可在直播场景的视频画面上添加绘制各种交互状态的直播精灵的形象，为直播场景营造虚实结合的视觉效果，并且提高直播的娱乐性和趣味性。此外，由于接收直播精灵交互数据而不是包括绘制好的直播精灵的直播视频数据，由观众端根据直播精灵交互数据来绘制直播精灵，因此有利于节约网络资源和/或客户端的系统资源，并且避免因视频压缩而导致的失真，提高了视频内容的收看和互动效果。

实施例四

图4是示出根据本发明实施例四的用于直播场景的图像处理方法的流程图。可在例如直播场景的观众端执行该用于直播场景的图像处理方法。

参照图4，在步骤S410，接收直播视频数据以及直播精灵交互数据。

具体地，可从服务端接收所述直播精灵交互数据；或者，从主播端接收所述直播精灵交互数据。

根据一种可实施方式，步骤S410可包括：接收直播场景的视频流，所述视频流包括直播视频数据以及所述直播精灵交互数据。

如前所述，直播精灵交互数据是根据从直播视频数据中检测到的人物行为生成的与人物行为对应的直播精灵交互数据。这里的人物行为可包括，但不限于，肢体动作、手势动作、面部动作以及表情中的至少一个。具体地，所述肢体动作可包括以下至少一个：起立、坐下、转圈、倒立和身体晃动；所述面部动作可包括以下至少一个：眨眼、亲吻、张嘴、摇头、点头、嘟嘴、吹气和哈欠；所述手势动作可包括以下至少一个：挥手、剪刀手、握拳、托手、鼓掌、手掌张开、手掌闭合、竖大拇指、手枪姿势、V手势和OK手势；所述表情可包括指示以下至少一种情绪的表情：开心、愤怒、激动、痛苦和悲伤。需要指出，检测到的人物行为不限于前述列举的项目，可以是要检测的任何行为。

该直播精灵交互数据与直播视频数据中的人物行为对应，可以是期望直播精灵对人物行为作出反应的任何交互数据。例如，直播精灵交互数据可包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

在步骤S420，根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。具体地，步骤S420进一步包括步骤S421和S422。在步骤S421，获取所述直播精灵交互数据对应的第一帧序列。

在步骤S422，采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

根据本发明的一种可实施方式，用于直播场景的图像处理方法还包括：接收直播精灵的操作指令对应的直播精灵指令数据，并且根据所述直播精灵指令数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

如前所述，直播精灵指令数据可包含与前述直播精灵交互数据类似的信息。例如，如果从直播视频数据中检测到对直播精灵的点击操作，则获取的直播精灵指令数据可指示直播精灵的害羞表情。由此，为用户提供更为丰富的直播精灵交互方式的展示。

根据本发明实施例四的用于直播场景的图像处理方法，除具有前述实施例三的有益效果以外，还能够绘制各种交互状态的直播精灵的形象，例如绘制具有某种动作、表情或穿戴附件的直播精灵、透明展示数据、展示位置数据以及附件穿戴数据。此外，还能够根据直播精灵指令数据，绘制所述直播精灵，为直播场景提供更为丰富的交互方式，营造生动的虚实结合的视觉效果，并且提高直播的娱乐性和趣味性。

实施例五

图5是示出根据本发明实施例五的用于直播场景的图像处理装置的逻辑框图。

参照图5，本实施例中的用于直播场景的图像处理的装置包括交互数据获取模块510和交互数据发送模块520。

交互数据获取模块510用于当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据。

交互数据发送模块520用于发送所述交互数据获取模块获取的直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

本实施例的用于直播场景的图像处理的装置用于实现前述方法实施例中相应的用于直播场景的图像处理的方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例六

图6是示出根据本发明实施例六的用于直播场景的图像处理的装置的逻辑框图。

参照图6，本实施例中的用于直播场景的图像处理的装置包括交互数据获取模块610和交互数据发送模块620。

交互数据获取模块610用于当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据。

可选地，所述人物行为包括肢体动作、手势动作、面部动作以及表情中的至少一个。

可选地，所述肢体动作包括以下至少一个：起立、坐下、转圈、倒立和身体晃动；所述面部动作包括以下至少一个：眨眼、亲吻、张嘴、摇头、点头、嘟嘴、吹气和哈欠；所述手势动作包括以下至少一个：挥手、剪刀手、握拳、托手、鼓掌、手掌张开、手掌闭合、竖大拇指、手枪姿势、V手势和OK手势；所述表情包括指示以下至少一种情绪的表情：开心、愤怒、激动、痛苦和悲伤。

可选地，所述直播精灵交互数据包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

可选地，所述附件穿戴数据包括贴纸数据。

交互数据发送模块620用于发送所述交互数据获取模块获取的直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

可选地，所述装置还包括：第一直播精灵绘制模块630，用于根据所述交互数据获取模块获取的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，所述第一直播精灵绘制模块630包括第一帧序列获取子模块6301和第一帧序列绘制子模块6302。

第一帧序列获取子模块6301用于获取所述直播精灵交互数据对应的第一帧序列；

第一帧序列绘制子模块6302用于采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

可选地，所述第一直播精灵绘制模块630包括：第一人脸区域获取子模块6303，用于获取所述直播视频数据中的人脸区域；所述第一直播精灵绘制子模块6304，用于根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，所述装置还包括：指令数据获取模块640和指令数据发送模块650。

指令数据获取模块640用于当检测到基于所述直播精灵的操作指令时，获取所述操作指令对应的直播精灵指令数据；指令数据发送模块650用于发送所述直播精灵指令数据，以使所述各观众端接收所述直播精灵指令数据。

可选地，所述指令数据发送模块650还用于发送所述直播精灵交互数据至服务端，以使所述服务端将所述直播精灵交互数据发送给所述各观众端；或者，用于发送所述直播精灵交互数据至所述各观众端。

本实施例的用于直播场景的图像处理的装置用于实现前述方法实施例中相应的直播场景的图像处理的方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例七

图7是示出根据本发明实施例六的用于直播场景的图像处理装置的逻辑框图。

参照图7，本实施例的用于直播场景的图像处理的装置包括交互数据接收模块710和第二直播精灵绘制模块720。

交互数据接收模块710用于接收直播视频数据以及直播精灵交互数据。

第二直播精灵绘制模块720用于根据所述交互数据接收模块接收的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

实施例八

参照图8，本实施例的用于直播场景的图像处理的装置包括交互数据接收模块810和第二直播精灵绘制模块820。

交互数据接收模块810用于接收直播视频数据以及直播精灵交互数据。

第二直播精灵绘制模块820用于根据交互数据接收模块810接收的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

可选地，所述第二直播精灵绘制模块820包括：第二帧序列获取子模块8201和第二帧序列绘制子模块8202。

第二帧序列获取子模块8201用于获取所述直播精灵交互数据对应的第一帧序列。

第二帧序列绘制子模块8202用于采用计算机绘图方式在所述直播视频数据中，绘制与所述直播视频数据同步的所述第一帧序列。

可选地，所述第二直播精灵绘制模块820包括：第二人脸区域获取子模块8203，用于获取所述直播视频数据中的人脸区域；第二直播精灵绘制子模块8204，用于根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中所述人脸区域之外的区域绘制所述直播精灵。

可选地，所述装置还包括：指令数据接收模块830，用于接收直播精灵的操作指令对应的直播精灵指令数据；所述第二直播精灵绘制模块820还用于根据所述直播精灵指令数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

可选地，所述交互数据接收模块810用于从服务端接收所述直播精灵交互数据；或者，用于从主播端接收所述直播精灵交互数据。

可选地，所述交互数据接收模块810还用于从直播场景的视频流获取所述直播视频数据以及所述直播精灵交互数据。

实施例九

本发明实施例还提供了一种第一电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。图9是根据本发明实施例七的一种电子设备的结构示意图。

参考图9，一种电子设备900包括一个或多个第一处理器、第一通信部等，所述一个或多个第一处理器例如：一个或多个第一中央处理单元(CPU)901，和/或一个或多个第一图像处理器(GPU)913等，第一处理器可以根据存储在第一只读存储器(ROM)902中的可执行指令或者从第一存储部分908加载到第一随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。第一通信部912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

第一处理器可与第一只读存储器902和/或第一随机访问存储器930中通信以执行可执行指令，通过第一总线904与第一通信部912相连、并经第一通信部912与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

此外，在第一RAM 903中，还可存储有装置操作所需的各种程序和数据。第一CPU901、第一ROM902以及第一RAM903通过第一总线904彼此相连。在有第一RAM903的情况下，第一ROM902为可选模块。第一RAM903存储可执行指令，或在运行时向第一ROM902中写入可执行指令，可执行指令使第一处理器901执行上述通信方法对应的操作。第一输入/输出(I/O)接口905也连接至第一总线904。第一通信部912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第一I/O接口905：包括键盘、鼠标等的第一输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分907；包括硬盘等的第一存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的第一通信部分909。第一通信部分909经由诸如因特网的网络执行通信处理。第一驱动器910也根据需要连接至第一I/O接口905。第一可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第一驱动器910上，以便于从其上读出的计算机程序根据需要被安装入第一存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

实施例十

本发明实施例还提供了一种第二电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。图10是根据本发明实施例七的一种电子设备的结构示意图。

参考图10，一种第二电子设备1000包括一个或多个第二处理器、第二通信部等，所述一个或多个第二处理器例如：一个或多个第二中央处理单元(CPU)1001，和/或一个或多个第二图像处理器(GPU)1013等，第二处理器可以根据存储在第二只读存储器(ROM)1002中的可执行指令或者从第二存储部分1008加载到第二随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。第二通信部1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

第二处理器可与第二只读存储器1002和/或第二随机访问存储器1030中通信以执行可执行指令，通过第二总线1004与第二通信部1012相连、并经第二通信部1012与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

此外，在第二RAM 1003中，还可存储有装置操作所需的各种程序和数据。第二CPU1001、第二ROM1002以及第二RAM1003通过第二总线1004彼此相连。在有第二RAM1003的情况下，第二ROM1002为可选模块。第二RAM1003存储可执行指令，或在运行时向第二ROM1002中写入可执行指令，可执行指令使第二处理器1001执行上述通信方法对应的操作。第二输入/输出(I/O)接口1005也连接至第二总线1004。第二通信部1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第二I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的第二通信部分1009。第二通信部分1009经由诸如因特网的网络执行通信处理。第二驱动器1010也根据需要连接至第二I/O接口1005。第二可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第二驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入第二存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法中限定的上述功能。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于直播场景的图像处理方法，包括：

当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；

发送所述直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

2.根据权利要求1所述的方法，其中，所述人物行为包括肢体动作、手势动作、面部动作以及表情中的至少一个。

3.根据权利要求1或2所述的方法，其中，所述直播精灵交互数据包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

4.根据权利要求1～3中任一项所述的方法，其中，所述方法还包括：

根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制所述直播精灵。

5.一种用于直播场景的图像处理方法，包括：

接收直播视频数据以及直播精灵交互数据；

根据所述直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

6.根据权利要求5所述的方法，其中，所述直播精灵交互数据包括至少一个以下数据：直播精灵的动作数据、表情数据、透明展示数据、展示位置数据以及附件穿戴数据，其中，透明展示数据包括半透明展示及全透明展示。

7.一种用于直播场景的图像处理的装置，包括：

交互数据获取模块，用于当检测到直播视频数据中存在人物行为时，获取所述人物行为对应的直播精灵交互数据；

交互数据发送模块，用于发送所述交互数据获取模块获取的直播精灵交互数据，以使各观众端接收所述直播精灵交互数据。

8.一种用于直播场景的图像处理的装置，包括：

交互数据接收模块，用于接收直播视频数据以及直播精灵交互数据；

第二直播精灵绘制模块，用于根据所述交互数据接收模块接收的直播精灵交互数据，采用计算机绘图方式在所述直播视频数据中绘制直播精灵。

9.一种第一电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1～4中任一所述的用于直播场景的图像处理方法对应的操作。

10.一种第二电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；

所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求5～6中任一所述的用于直播场景的图像处理方法对应的操作。