CN110213613A

CN110213613A - 图像处理方法、装置及存储介质

Info

Publication number: CN110213613A
Application number: CN201810903977.2A
Authority: CN
Inventors: 苏杭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2019-09-06
Anticipated expiration: 2038-08-09
Also published as: CN110213613B

Abstract

本申请公开了一种图像处理方法、装置及存储介质，该图像处理方法包括：获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；根据该音乐标识和表情图像集合生成表情动画；根据该表情动画获取该主播用户当前上传的原视频流；在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流；向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演，从而从而能在直播中利用表情模仿代替声音模仿来进行歌曲表演，灵活性高，趣味性强，有利于提高主播和观众间的互动性。

Description

图像处理方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、装置及存储介质。

背景技术

随着互联网技术的快速发展，通过互联网除了可以浏览网页外，还可以互联网为基础开发各种各样的应用，直播应用就是其中一种以互联网为基础实现实时通信的应用。

由于直播的实时性特点，直播应用越来越受到广大用户的青睐，目前众多的个人直播平台中，主播唱歌给观众听，观众打赏给主播，是目前较常见的玩法之一，但是这种唱歌直播方式比较单调，灵活性较差。

发明内容

本申请实施例提供一种图像处理方法、装置及存储介质，能利用表情表演代替声音进行唱歌直播，灵活性高。

本申请实施例提供了一种图像处理方法，包括：

获取音乐表演请求，所述音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；

根据所述音乐标识和表情图像集合生成表情动画；

根据所述表情动画获取所述主播用户当前上传的原视频流；

在所述原视频流的获取过程中，根据所述表情动画对所述原视频流进行处理，得到直播视频流；

向所述主播用户和观众用户提供所述直播视频流，以使所述主播用户根据所述表情图像集合对所述待表演音乐进行表演。

本申请实施例还提供了一种图像处理装置，包括：

第一获取模块，用于获取音乐表演请求，所述音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；

生成模块，用于根据所述音乐标识和表情图像集合生成表情动画；

第二获取模块，用于根据所述表情动画获取所述主播用户当前上传的原视频流；

处理模块，用于在所述原视频流的获取过程中，根据所述表情动画对所述原视频流进行处理，得到直播视频流；

提供模块，用于向所述主播用户和观众用户提供所述直播视频流，以使所述主播用户根据所述表情图像集合对所述待表演音乐进行表演。

本申请实施例还提供了一种存储介质，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行上述任一项图像处理方法。

本申请提供的图像处理方法、装置及存储介质，获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合，并根据该音乐标识和表情图像集合生成表情动画，之后根据该表情动画获取该主播用户当前上传的原视频流，并在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流，之后向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演，从而能在直播中利用表情模仿代替声音模仿来进行歌曲表演，灵活性高，趣味性强，有利于提高主播和观众间的互动性。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的图像处理系统的场景示意图。

图2为本申请实施例提供的图像处理方法的流程示意图。

图3为本申请实施例提供的图像处理方法的另一流程示意图。

图4为本申请实施例提供的步骤S204的流程示意图。

图5为本申请实施例提供的表情动画生成过程的展示示意图。

图6为本申请实施例提供的服务器的框架示意图。

图7为本申请实施例提供的主播设备或观众设备的显示界面示意图。

图8为本申请实施例提供的主播设备或观众设备的另一显示界面示意图。

图9为本申请实施例提供的图像处理模块的结构示意图。

图10为本申请实施例提供的图像处理模块的另一结构示意图。

图11为本申请实施例提供的生成模块的结构示意图。

图12为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、存储介质及服务器。

请参阅图1，图1为图像处理系统的场景示意图，该图像处理系统可以包括本申请实施例提供的任一种图像处理装置，该图像处理装置可以集成在服务器中。

其中服务器可以获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；根据该音乐标识和表情图像集合生成表情动画；根据该表情动画获取该主播用户当前上传的原视频流；在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流；向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

该图像处理系统还可以包括主播设备和观众设备，该主播设备用于主播用户向服务器上传原视频流，并接收服务器返回的直播视频流显示给主播用户，该观众设备用于接收直播视频流显示给观众用户。

其中该待表演音乐可以包括歌曲或乐曲，该表情图像集合可以包括至少一张表情图像，该表情图像可以用于指示人的喜怒哀乐等多种情绪，其可以包括多种类型，比如通过脸部动作来表达情绪的脸部表情图像，或者通过手指动作来表达情绪的手势表情图像。譬如，请参见图1，在直播过程中，主播用户和/或观众用户可以指定需要表演的音乐和表情图像，比如待表演音乐“xxx”和x张脸部表情图像，并将其发送至服务器，而服务器可以根据待表演音乐“xxx”和x张脸部表情图像生成对应表情动画，并获取主播用户当前上传的原视频流，之后对该原视频流和表情动画进行处理，得到直播视频流，并向主播用户和观众用户发送该直播视频流。

如图2所示，图2是本申请实施例提供的图像处理方法的流程示意图，具体流程可以如下：

S101.获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合。

本实施例中，该待表演音乐可以包括歌曲或乐曲，该音乐标识是音乐在服务器中的唯一识别标识，其可以是音乐名称，也可以是服务器分配的标识符。该表情图像集合可以包括至少一张表情图像，该表情图像可以用于指示人的喜怒哀乐等多种情绪，其可以包括多种类型，比如通过脸部动作来表达情绪的脸部表情图像，或者通过手指动作来表达情绪的手势表情图像，比如双手握拳代表哭，双手张开代表笑等，当然，该表情图像还可以是其他形式。

例如，在上述步骤S101之前，该图像处理方法还可以包括：

从该主播用户和观众用户中确定目标用户；

向该目标用户提供选取界面，该选取界面用于显示预设表情图像；

根据该目标用户在选取界面上的选取操作确定表情图像集合。

本实施例中，该观众用户通常指与主播用户位于同一直播间的用户，该目标用户可以包括主播用户和/或观众用户，其可以是主播用户人为指定的，也可以是系统根据打赏金额自动抽取的，比如系统默认将表情打赏金额最高的观众用户作为目标用户。通过选取界面，目标用户可以从设定好的预设表情图像中选取需要的添入表情图像集合，或者，该选取界面上也可以设有上传接口，目标用户可以通过该上传接口向服务器上传自定义的表情图像，添入表情图像集合。该表情图像集合中表情图像的排列顺序可以默认和用户的选取顺序一致，也可以由用户自行调整。

S102.根据该音乐标识和表情图像集合生成表情动画。

本实施例中，该表情动画是由连续帧图像构成，每帧图像上可以显示一个或多个图形元素，该图形元素可以包括表情图像。

例如，上述步骤S102具体可以包括：

1-1.获取该音乐标识对应的音乐信息，该音乐信息包括音乐的停顿节点、以及相邻两个停顿节点间音乐的播放时长和播放节奏。

本实施例中，该停顿节点指该待表演音乐的曲谱上休止符所在的位置，该休止符是曲谱中记录停顿的符号。该播放节奏主要指音乐旋律的快慢，可以包括平缓、正常、欢快等，单首歌的播放节奏可以有多个，也可以只有一个。

1-2.根据该停顿节点的数量、播放时长和播放节奏对该表情图像集合进行划分，得到多个表情图像组，每一表情图像组对应一个播放时长。

例如，上述步骤1-2具体可以包括：

根据该停顿节点的数量确定组数量，并获取该表情图像集合中表情图像的总张数；

根据该播放时长和播放节奏确定数量分配比值；

根据该数量分配比值和总张数将该表情图像集合划分成多个表情图像组，其中该表情图像组的数量等于该组数量，该表情图像组彼此间表情图像的张数的比值等于该数量分配比值。

本实施例中，两个相邻停顿节点之间的音乐片段对应一个表情图像组，每个表情图像组中表情图像的数量可以不同，该图像数量需根据对应音乐片段的播放时长和播放节奏而定，通常，播放时长越长，播放节奏越快，所需的图像数量越多。具体的，可以提前为不同播放节奏设定一个系数，在计算数量分配比值时，可以先获取每个播放时长与对应系数之间的乘积，然后计算各个乘积之间的比值，作为数量分配比值。

1-3.根据该播放时长确定对应表情图像组中相邻两张表情图像的出现间隔时长。

本实施例中，当每个音乐片段的播放时长和表情图像组都确定好时，可以通过播放时长和表情图像组中图像的数量计算出现间隔时长。

1-4.根据该出现间隔时长和表情图像组生成表情动画。

本实施例中，可以先根据每个表情图像组生成对应子动画，然后按照音乐片段的播放顺序将各个子动画进行拼接，得到表情动画，其中在该子动画中，每张表情图像作为图形元素依次有序出现，并且可以按照一定轨迹移动，从而形成一个动态画面。

S103.根据该表情动画获取该主播用户当前上传的原视频流。

本实施例中，该原视频流可以包括图像数据和音频数据，主播用户可以通过摄像头和麦克风等器件对自身及其所处环境进行相应数据采集，并将采集到的数据实时上传至服务器。

S104.在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流。

本实施例中，服务器可以一边接收主播用户上传的视频数据，一边在该视频数据中插入表情动画，从而主播用户在直播过程中可以根据该表情动画进行相应表情模仿。

进一步地，除了在原视频流中插入表情动画之外，为增加趣味性，还可以对主播用户本身或者主播用户所处的环境进行改变，比如将主播用户的头像换成某个动漫人物，将室内直播间换成户外场景，该替换可以通过AR(Augmented Reality，增强现实)技术来实现，也可以通过平面图像处理技术来实现，当通过AR技术来实现时，该音乐表演请求还可以携带虚拟模型，此时，上述步骤S104具体可以包括：

以该原视频流中的首帧图像为起始帧插入该表情动画；

在该原视频流中的每帧图像上投影该虚拟模型。

本实施例中，该虚拟模型通常由三维建模软件构建出，其可以是系统中存储的，也可以是用户上传的，该投影可以看作是将虚拟模型的空间坐标变换为二维坐标，并在二维图像上生成各个二维坐标点的过程。该虚拟模型可以包括脸部模型和场景模型，其中，该脸部模型并非一定是人脸或动物脸，其可以是一切包含眼睛、嘴巴、鼻子等五官的模型，比如拟人化的卡通番茄，该场景模型可以是设计出的场景，也可以是根据真实环境创建的场景。

需要说明的是，对于不同的虚拟模型，该表情动画中表情图像的类型也不同，比如当主播用户不想露脸，选取脸部模型作为虚拟模型来替换自己脸部时，该表情图像可以是手势表情图像，当主播用户选取场景模型作为虚拟模型来替换真实环境时，该表情图像可以是脸部表情图像。

例如，上述步骤“在该原视频流中的每帧图像上投影该虚拟模型”具体可以包括：

2-1.确定该原视频流中每帧图像的人物部分。

本实施例中，可以通过边缘检测技术对每帧图像进行人物边缘检测，以区分出人物部分和背景部分。该边缘检测算法主要包括sobel(索贝尔)算法，其是根据像素点上下、左右邻点灰度加权差，在边缘处达到极值这一现象来实现边缘检测。

2-2.根据该人物部分确定投影锚点的二维坐标。

本实施例中，可以将图像中人物或者人物脸部的几何中心的图像坐标作为投影锚点的二维坐标，该投影锚点通常对应于虚拟模型上的某个指定点(比如模型中心点)，其在二维图像上的位置决定了整个虚拟模型的投影位置。

2-3.根据该投影锚点的二维坐标在对应帧图像上生成该虚拟模型，并对该虚拟模型进行渲染。

本实施例中，可以根据投影锚点的二维坐标将虚拟模型中剩余点的空间坐标转化为二维坐标，当该虚拟模型为场景模型时，可以根据该二维坐标在对应帧图像的背景区域生成该场景模型，实现虚拟场景和真实人物的合成，当该虚拟模型为脸部模型时，可以根据该二维坐标在对应帧图像的人物区域生成该脸部模型，实现真实场景和虚拟人物的合成。

此外，在该原视频流的获取过程中，服务器除了可以对原视频流进行表情动画插入，以便主播用户根据该表情动画进行表情模仿之外，还可以实时检测主播用户的表情模仿情况，也即该图像处理方法还可以包括：

3-1.确定该表情动画中每张表情图像的出现时间。

3-2.根据该出现时间从该原视频流中确定目标帧图像。

本实施例中，每张表情图像的出现时间通常并非单个时刻，而是一个时段，在这个时段内，可以将原视频流中的每帧图像都看做目标帧图像，也可以设定一个有效模仿时间(比如表情图像刚开始出现的几秒钟)，将该有效模仿时间内的图像作为目标帧图像。

3-3.根据该目标帧图像和对应表情图像确定对应相似度，每一表情图像对应一个相似度。

例如，上述步骤3-3具体可以包括：

确定该目标帧图像中的目标区域；

计算该目标区域的图像部分与对应表情图像之间的相似度。

本实施例中，当表情图像为脸部表情图像时，该目标区域为人脸所在的图像区域，当表情图像为手势表情图像时，该目标区域为手指所在的图像区域。

3-4.根据该相似度确定该主播用户的表演评分。

本实施例中，可以将每张表情图像与对应目标帧图像进行匹配，计算两者的相似度，之后可以根据相似度的平均值确定主播用户的最终表演评分。

例如，在根据该相似度确定该主播用户的表演评分之后，还可以根据表演评分对主播用户进行相应打赏，也即该图像处理方法还可以包括：

确定该表情图像集合对应的奖励物品；

根据该表演评分和奖励物品确定赠送物品；

向该主播用户发放该赠送物品。

本实施例中，该奖励物品和赠送物品可以是具有货币价值的虚拟物品，比如深水炸弹、棒棒糖等，其中该奖励物品可以由前期参与表情图像指定的观众用户提供，该赠送物品可以根据主播用户的实际表演效果来确定。

例如，上述步骤“该根据该表演评分和奖励物品确定赠送物品”具体可以包括：

当该表演评分超过预设阈值时，将该奖励物品作为赠送物品；或者，

根据该表演评分确定赠送比例；根据该赠送比例和奖励物品确定赠送物品。

本实施例中，该预设阈值可以人为设定，也可以由系统默认设定。该奖励物品主要有两种发放方式：一种是全额发放，比如表演评分超过预设阈值时，可以直接将奖励物品作为赠送物品发放给主播用户，另一种是比例发放，比如可以将表演评分的百分比作为赠送比例，根据奖励物品的货币价值和赠送比例确定赠送物品的货币价值，通常，表演评分越高，赠送物品的货币价值也越高，之后可以获取等价值的虚拟物品进行发放。

S105.向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

本实施例中，原视频流的接收、表情动画的插入以及直播视频流的发送都是实时进行的，这样，主播用户才能根据表情动画进行相应表情模仿，观众用户才能根据主播用户的模仿情况进行互动。

由上述可知，本实施例提供的图像处理方法，通过获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合，并根据该音乐标识和表情图像集合生成表情动画，之后根据该表情动画获取该主播用户当前上传的原视频流，并在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流，之后向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演，从而能在直播中利用表情模仿代替声音模仿来进行歌曲表演，灵活性高，趣味性强，有利于提高主播和观众间的互动性。

在本实施例中，将从图像处理装置的角度进行描述，具体将以该图像处理装置集成在服务器中，该服务器为直播应用的后台服务器为例进行详细说明。

请参见图3，一种图像处理方法，具体流程可以如下：

S201.服务器从该主播用户和观众用户中确定目标用户，并向该目标用户提供选取界面，之后根据该目标用户在选取界面上的选取操作确定表情图像集合，该选取界面用于显示预设表情图像。

譬如，服务器可以为主播用户提供三种选择模式：自行选择、他人选择和共同选择，在自行选择模式下，该目标用户为主播用户本身，在他人选择模式下，该目标用户为观众用户，在共同选择模式下，该目标用户为主播用户和观众用户。该选取界面可以包括手势图标和人脸图标，通过手势图标可以浏览表情库中的手势表情图像，通过人脸图标可以浏览表情库中的脸部表情图像。

S202.服务器获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、虚拟模型以及该表情图像集合。

譬如，该待表演音乐和虚拟模型可以由主播用户或者观众用户指定，比如该音乐标识可以是歌曲名称，该虚拟模型可以是虚拟的人脸模型或场景模型。

S203.服务器获取该音乐标识对应的音乐信息，该音乐信息包括音乐的停顿节点、以及相邻两个停顿节点间音乐的播放时长和播放节奏。

譬如，该停顿节点可以是乐谱中符号“0”所在的位置，相邻两个停顿节点之间的音乐具有同一播放节奏，该播放节奏可以包括平缓、正常、欢快。

S204.服务器根据该停顿节点的数量、播放时长和播放节奏对该表情图像集合进行划分，得到多个表情图像组，每一表情图像组对应一个播放时长。

例如，请参见图4，上述步骤S204具体可以包括：

S2041.根据该停顿节点的数量确定组数量，并获取该表情图像集合中表情图像的总张数；

S2042.根据该播放时长和播放节奏确定数量分配比值；

S2043.根据该数量分配比值和总张数将该表情图像集合划分成多个表情图像组，其中该表情图像组的数量等于该组数量，该表情图像组彼此间图像张数的比值等于该数量分配比值。

譬如，可以提前为平缓、正常、欢快这三个播放节奏设定系数0.8、1、1.2，假设某首歌只有四个音乐片段，其播放节奏依次为平缓-正常-欢快-正常，播放时长依次为t1、t2、t3、t4，则数量分配比值为(t1*0.8)：(t2*1)：(t3*1.2)：(t4*1)，之后按照该数量分配比值将表情图像集合划分成四个表情图像组。

S205.服务器根据该播放时长确定对应表情图像组中相邻两张表情图像的出现间隔时长，并根据该出现间隔时长和表情图像组生成表情动画，之后获取该主播用户当前上传的原视频流。

譬如，假设某个音乐片段对应的表情图像组有N张表情图像，对应播放时长为T，则出现间隔时长可以为T/(N-1)，请参见图5，每个表情图像均可以从显示屏右下角开始生成，并沿着虚线所示轨迹移动，该移动速度可以预先设定，假设第一个表情图像(比如哭脸)生成时的时间为t0，则在t0+T/(N-1)之后，可以在显示屏右下角生成第二个表情图像(比如笑脸)，如此循环，直至最后一个表情图像(比如左张嘴)移动到轨迹末端(也即到达播放时长T)，从而形成该音乐片段对应的子动画，之后按照音乐片段的播放顺序将所有子动画拼接成一个完整的表情动画。

S206.在该原视频流的获取过程中，服务器以该原视频流中的首帧图像为起始帧插入该表情动画，同时在该原视频流中的每帧图像上投影该虚拟模型，得到直播视频流。

譬如，请参见图6，服务器可以包括多个后台，比如平台后台和图像合成后台，不同后台用于实现不同功能，具体的，主播设备可以向平台后台上传原视频流，平台后台可以将该原视频流传送至图像合成后台，其中该图像合成后台主要用于将虚拟的虚拟模型和表情动画与主播用户上传的真实图像进行合成，得到直播视频流，该直播视频流可以通过平台后台实时反馈给主播设备和观众设备。

S207.在该原视频流的获取过程中，服务器确定该表情动画中每张表情图像的出现时间，并根据该出现时间从该原视频流中确定目标帧图像。

S208.服务器确定该目标帧图像中的目标区域，并计算该目标区域的图像部分与对应表情图像之间的相似度，之后根据该相似度确定该主播用户的表演评分。

譬如，在图6中，服务器还可以包括图像识别后台，主要用于获取原视频流中的主播图像进行表情识别，并根据识别结果为主播的表演打分，其中，该目标区域包括人脸所在的图像区域或手指所在的图像区域，在表情识别过程中，当表情图像为脸部表情图像时，可以对主播的脸部动作进行识别，当表情图像为手势表情图像时，可以对主播的手指动作进行识别。

S209.服务器确定该表情图像集合对应的奖励物品，并根据该表演评分和奖励物品确定赠送物品，并向该主播用户发放该赠送物品。

譬如，该奖励物品可以是单个或多个观众用户为该待表演音乐提供的直播平台礼物，比如10个棒棒糖，假设主播用户的表演评分为80分，若采用全额发放的方式，则当80分高于预设阈值(比如预设阈值为75分)时，才能将10个棒棒糖发放给主播用户，若采用比例发放的方式，假设满分为100分，则赠送比例为0.8，此时，可以向主播用户发放8个棒棒糖。

S210.服务器向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

譬如，当该虚拟模型为脸部模型，比如卡通小熊脸时，主播用户和观众用户接收到的直播图像可以参见图7，此时，主播用户可以根据直播图像上的手势表情图像做出相应手指动作，比如握拳。当该虚拟模型为场景模型，比如户外海边时，主播用户和观众用户接收到的直播图像可以参见图8，此时，主播用户可以根据直播图像上的脸部表情图像做出相应脸部动作，比如左张嘴。

根据上述实施例所描述的方法，本实施例将从图像处理装置的角度进一步进行描述，该图像处理装置具体可以作为独立的实体来实现，也可以集成服务器中来实现。

请参阅图9，图9具体描述了本申请实施例提供的图像处理装置，应用于服务器，该图像处理装置可以包括：第一获取模块10、生成模块20、第二获取模块30、处理模块40和提供模块50，其中：

(1)第一获取模块10

第一获取模块10，用于获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合。

例如，请参见图10，该图像处理装置还可以包括确定模块60，用于：

在该第一获取模块10获取音乐表演请求之前，从该主播用户和观众用户中确定目标用户；

(2)生成模块20

生成模块20，用于根据该音乐标识和表情图像集合生成表情动画。

例如，请参见图11，该生成模块20具体可以包括：

获取单元21，用于获取该音乐标识对应的音乐信息，该音乐信息包括音乐的停顿节点、以及相邻两个停顿节点间音乐的播放时长和播放节奏。

划分单元22，用于根据该停顿节点的数量、播放时长和播放节奏对该表情图像集合进行划分，得到多个表情图像组，每一表情图像组对应一个播放时长。

例如，该划分单元22具体可以用于：

根据该播放时长和播放节奏确定数量分配比值；

确定单元23，用于根据该播放时长确定对应表情图像组中相邻两张表情图像的出现间隔时长。

生成单元24，用于根据该出现间隔时长和表情图像组生成表情动画。

(3)第二获取模块30

第二获取模块30，用于根据该表情动画获取该主播用户当前上传的原视频流。

(4)处理模块40

处理模块40，用于在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流。

进一步地，除了在原视频流中插入表情动画之外，为增加趣味性，还可以对主播用户本身或者主播用户所处的环境进行改变，比如将主播用户的头像换成某个动漫人物，将室内直播间换成户外场景，该替换可以通过AR(Augmented Reality，增强现实)技术来实现，也可以通过平面图像处理技术来实现，当通过AR技术来实现时，该音乐表演请求还可以携带虚拟模型，此时，该处理模块40具体可以用于：

以该原视频流中的首帧图像为起始帧插入该表情动画；

在该原视频流中的每帧图像上投影该虚拟模型。

进一步地，该处理模块40可以用于：

2-1.确定该原视频流中每帧图像的人物部分。

2-2.根据该人物部分确定投影锚点的二维坐标。

此外，在该原视频流的获取过程中，服务器除了可以对原视频流进行表情动画插入，以便主播用户根据该表情动画进行表情模仿之外，还可以实时检测主播用户的表情模仿情况，也即该图像处理装置还可以包括评分模块70，该评分模块70用于：

3-1.在该原视频流的获取过程中，确定该表情动画中每张表情图像的出现时间。

3-2.根据该出现时间从该原视频流中确定目标帧图像。

例如，该评分模块70具体可以用于：

确定该目标帧图像中的目标区域；

计算该目标区域的图像部分与对应表情图像之间的相似度。

3-4.根据该相似度确定该主播用户的表演评分。

例如，该图像处理装置还可以包括发放模块80，用于：

在该评分模块70根据该相似度确定该主播用户的表演评分之后，确定该表情图像集合对应的奖励物品；

根据该表演评分和奖励物品确定赠送物品；

向该主播用户发放该赠送物品。

例如，该发放模块80进一步可以用于：

(5)提供模块50

提供模块50，用于向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上述可知，本实施例提供的图像处理装置，通过第一获取模块10获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合，接着，生成模块20根据该音乐标识和表情图像集合生成表情动画，第二获取模块30根据该表情动画获取该主播用户当前上传的原视频流，并在该原视频流的获取过程中，处理模块40根据该表情动画对该原视频流进行处理，得到直播视频流，之后提供模块50向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演，从而能在直播中利用表情模仿代替声音模仿来进行歌曲表演，灵活性高，趣味性强，有利于提高主播和观众间的互动性。

相应的，本发明实施例还提供一种图像处理系统，包括本发明实施例所提供的任一种图像处理装置，该图像处理装置可以集成在服务器中。

其中，服务器可以获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；根据该音乐标识和表情图像集合生成表情动画；根据该表情动画获取该主播用户当前上传的原视频流；在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流；向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

以上各个设备的具体实施可参见前面的实施例，在此不再赘述。

由于该图像处理系统可以包括本发明实施例所提供的任一种图像处理装置，因此，可以实现本发明实施例所提供的任一种图像处理装置所能实现的有益效果，详见前面的实施例，在此不再赘述。

相应的，本发明实施例还提供一种服务器，如图12所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图12中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、物品图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

服务器还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

获取音乐表演请求，该音乐表演请求携带主播用户待表演音乐的音乐标识、以及表情图像集合；

根据该音乐标识和表情图像集合生成表情动画；

根据该表情动画获取该主播用户当前上传的原视频流；

在该原视频流的获取过程中，根据该表情动画对该原视频流进行处理，得到直播视频流；

向该主播用户和观众用户提供该直播视频流，以使该主播用户根据该表情图像集合对该待表演音乐进行表演。

该服务器可以实现本发明实施例所提供的任一种图像处理装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种图像处理方法中的步骤。其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的图像处理方法、装置、存储介质、售货设备和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上该，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

根据所述音乐标识和表情图像集合生成表情动画；

根据所述表情动画获取所述主播用户当前上传的原视频流；

2.根据权利要求1所述的图像处理方法，其特征在于，在获取音乐表演请求之前，还包括：

从所述主播用户和观众用户中确定目标用户；

向所述目标用户提供选取界面，所述选取界面用于显示预设表情图像；

根据所述目标用户在选取界面上的选取操作确定表情图像集合。

3.根据权利要求1所述的图像处理方法，其特征在于，所述音乐表演请求还携带虚拟模型，所述根据所述表情动画对所述原视频流进行处理，包括：

以所述原视频流中的首帧图像为起始帧插入所述表情动画；

在所述原视频流中的每帧图像上投影所述虚拟模型。

4.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述音乐标识和表情图像集合生成表情动画，包括：

获取所述音乐标识对应的音乐信息，所述音乐信息包括音乐的停顿节点、以及相邻两个停顿节点间音乐的播放时长和播放节奏；

根据所述停顿节点的数量、播放时长和播放节奏对所述表情图像集合进行划分，得到多个表情图像组，每一表情图像组对应一个播放时长；

根据所述播放时长确定对应表情图像组中相邻两张表情图像的出现间隔时长；

根据所述出现间隔时长和表情图像组生成表情动画。

5.根据权利要求4所述的图像处理方法，其特征在于，所述根据所述停顿节点的数量、播放时长和播放节奏对所述表情图像集合进行划分，得到多个表情图像组，包括：

根据所述停顿节点的数量确定组数量，并获取所述表情图像集合中表情图像的总张数；

根据所述播放时长和播放节奏确定数量分配比值；

根据所述数量分配比值和总张数将所述表情图像集合划分成多个表情图像组，其中所述表情图像组的数量等于所述组数量，所述表情图像组彼此间图像张数的比值等于所述数量分配比值。

6.根据权利要求1所述的图像处理方法，其特征在于，在所述原视频流的获取过程中，还包括：

确定所述表情动画中每张表情图像的出现时间；

根据所述出现时间从所述原视频流中确定目标帧图像；

根据所述目标帧图像和对应表情图像确定对应相似度，每一表情图像对应一个相似度；

根据所述相似度确定所述主播用户的表演评分。

7.根据权利要求6所述的图像处理方法，其特征在于，所述根据所述目标帧图像和对应表情图像确定相似度，包括：

确定所述目标帧图像中的目标区域；

计算所述目标区域的图像部分与对应表情图像之间的相似度。

8.根据权利要求6所述的图像处理方法，其特征在于，在根据所述相似度确定所述主播用户的表演评分之后，还包括：

确定所述表情图像集合对应的奖励物品；

根据所述表演评分和奖励物品确定赠送物品；

向所述主播用户发放所述赠送物品。

9.根据权利要求8所述的图像处理方法，其特征在于，所述根据所述表演评分和奖励物品确定赠送物品，包括：

当所述表演评分超过预设阈值时，将所述奖励物品作为赠送物品；或者，

根据所述表演评分确定赠送比例；根据所述赠送比例和奖励物品确定赠送物品。

10.一种图像处理装置，其特征在于，包括：

11.根据权利要求10所述的图像处理装置，其特征在于，还包括确定模块，用于：

在所述第一获取模块获取音乐表演请求之前，从所述主播用户和观众用户中确定目标用户；

12.根据权利要求10所述的图像处理装置，其特征在于，所述音乐表演请求还携带虚拟模型，所述处理模块具体用于：

以所述原视频流中的首帧图像为起始帧插入所述表情动画；

在所述原视频流中的每帧图像上投影所述虚拟模型。

13.根据权利要求10所述的图像处理装置，其特征在于，还包括评分模块，所述评分模块用于：

在所述原视频流的获取过程中，确定所述表情动画中每张表情图像的出现时间；

根据所述出现时间从所述原视频流中确定目标帧图像；

根据所述相似度确定所述主播用户的表演评分。

14.根据权利要求13所述的图像处理装置，其特征在于，还包括发放模块，用于：

在所述评分模块根据所述相似度确定所述主播用户的表演评分之后，确定所述表情图像集合对应的奖励物品；

根据所述表演评分和奖励物品确定赠送物品；

向所述主播用户发放所述赠送物品。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1至9任一项所述的图像处理方法。