CN112637692A

CN112637692A - 互动方法、装置、设备

Info

Publication number: CN112637692A
Application number: CN201910954985.4A
Authority: CN
Inventors: 齐峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Youku Culture Technology Beijing Co ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2021-04-09
Anticipated expiration: 2039-10-09
Also published as: CN112637692B

Abstract

本发明实施例提供一种互动方法、装置、设备，该方法包括：响应于针对视频中的目标对象的互动指令，确定目标对象在视频中相应帧图像中的第一图像区域；提取目标对象的目标特征的第一特征信息，目标特征用于体现互动指令产生的互动效果；将目标特征的第一特征信息调整为与互动效果相适应的第二特征信息；根据第二特征信息生成包含目标特征的第二图像区域；将第二图像区域显示在第一图像区域之上。基于此，实现了视频的画面内容比如上述目标对象实时反馈用户的互动意图的目的。

Description

互动方法、装置、设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种互动方法、装置、设备。

背景技术

观看游戏视频、直播视频、电视剧、电影、综艺节目等视频数据已经成为人们日常生活中一种普遍的休闲娱乐方式。为增加趣味性，很多视频客户端中都提供了多种互动功能，以便于用户在观看视频的同时，参与互动。

目前，最为常见的互动功能有发弹幕、发评论消息、投票等。这些互动功能大多都是单向的，即用户有互动内容的输入，但是视频内容往往并没有互动反馈。

发明内容

本发明实施例提供一种互动方法、装置、设备，用以扩展视频的互动功能。

第一方面，本发明实施例提供一种互动方法，该方法包括：

响应于针对视频中的目标对象的互动指令，确定所述目标对象在所述视频中相应帧图像中的第一图像区域；

提取所述目标对象的目标特征的第一特征信息，所述目标特征用于体现所述互动指令产生的互动效果；

将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息；

根据所述第二特征信息，生成包含所述目标特征的第二图像区域；

将所述第二图像区域显示在所述第一图像区域之上。

第二方面，本发明实施例提供一种互动装置，该装置包括：

确定模块，用于响应于针对视频中的目标对象的互动指令，确定所述目标对象在所述视频中相应帧图像中的第一图像区域；

提取模块，用于提取所述目标对象的目标特征的第一特征信息，所述目标特征用于体现所述互动指令产生的互动效果；

生成模块，用于将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息；根据所述第二特征信息，生成包含所述目标特征的第二图像区域；

渲染模块，用于将所述第二图像区域显示在所述第一图像区域之上。

第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的互动方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的互动方法。

在本发明实施例中，当用户观看到视频中的某帧图像时，若想与该图像中的目标对象进行互动，则可以对该目标对象触发互动指令。为了实现用户的互动需求，首先，在该图像中进行该目标对象的检测，以检测出该目标对象在该图像中对应的图像区域(称为第一图像区域)，进而，从第一图像区域中提取出反映该目标对象的目标特征的第一特征信息，之后根据用户触发的互动指令调整第一特征信息以得到与该目标特征对应的第二特征信息，以调整后的第二特征信息生成包含该目标特征的第二图像区域，从而将第二图像区域显示在第一图像区域之上。基于此，实现了视频的画面内容比如上述目标对象实时反馈用户的互动意图的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种互动方法的流程图；

图2为本发明实施例提供的一种互动指令触发过程的示意图；

图3为本发明实施例提供的另一种互动指令触发过程的示意图；

图4为本发明实施例提供的互动方法的一种执行过程的示意图；

图5为本发明实施例提供的互动方法的另一种执行过程的示意图；

图6为本发明实施例提供的一种模型训练方法的流程图；

图7为本发明实施例提供的一种模型训练过程的示意图；

图8为本发明实施例提供的另一种互动方法的流程图；

图9为本发明实施例提供的一种互动装置的结构示意图；

图10为与图9所示实施例提供的互动装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的互动方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑、智能手机、电视机等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

本发明实施例提供的互动方法想要实现的互动效果为：视频画面中某对象响应于用户(即观看者)触发的互动行为而进行互动反馈。比如，某用户正在观看某视频，当前视频画面中出现了角色名称为XYZ的某人物，且在当前视频画面中该人物正在说笑着，若该用户对该人物触发了“丢砖”的互动行为，则响应于用户的互动行为，可以将该人物变为哭的表情，以作为对用户的“丢砖”行为的反馈。

下面结合以下实施例对本文提供的互动方法的执行过程进行说明。

图1为本发明实施例提供的一种互动方法的流程图，如图1所示，该方法包括如下步骤：

101、响应于针对视频中的目标对象的互动指令，确定目标对象在视频中相应帧图像中的第一图像区域。

102、提取目标对象的目标特征的第一特征信息，目标特征用于体现互动指令产生的互动效果。

103、将目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息。

104、根据第二特征信息，生成包含目标特征的第二图像区域。

105、将第二图像区域显示在第一图像区域之上。

实际应用中，假设用户X正在通过视频客户端播放某视频，当视频播放到某时刻时，视频画面中出现了用户X想要互动的目标对象，用户X触发了与该目标对象对应的互动指令，此时，将该视频画面即可以是上述相应帧图像。当然，该相应帧图像不限于该视频画面，可以是包含该目标对象的任一帧或多帧图像。为便于描述，以下将包含该目标对象的图像称为第一图像来进行描述。

下面结合图2和图3来示例性说明用户触发互动指令的几种可选的实现方案。

在图2中，假设用户X正在通过视频客户端播放某视频，假设当前播放到的视频画面对应于第一图像，在第一图像中包括对象A和对象B。另外，在视频的播放界面中设置有多个互动选项，比如图2中示意的：丢砖、点赞、比心、翻白眼，等等。从而，用户X可以通过选择这多个互动选项而触发上述互动指令，图2中假设用户X选择了丢砖这个互选选项。

当用户X选择了某个互动选项而触发了互动指令时，那么，在第一图像中究竟哪个对象是与该互动指令对应的目标对象呢？可以通过如下的方式确定：

在一可选实施例中，可以预先配置好用户可以交互的对象的类别，比如为：人、猫、狗、车等。基于此，当用户X在观看视频的过程中，如果某时刻选择了某个互动选项，则可以在该时刻对应的图像(即第一图像)中检测是否存在预先配置好的某种类别的对象，若存在，则以该对象作为目标对象，执行后续的互动处理过程。比如，假设预先配置好的可交互的对象类别为人，那么在图2中，假设对象A和对象B均为人，则当检测到第一图像中包括人(即对象A和对象B)时，可选地，可以以对象A和对象B分别作为目标对象，执行后续的互动处理过程。

在另一可选实施例中，用户X也可以在选择好某个互动选项比如丢砖后，将选择的互动选项所对应的图形(比如图2中示意的砖块的图形)放置在目标对象上，以此得知目标对象是哪个，比如图2中将砖块放置到对象A身上，从而确定目标对象为对象A。

图2所示意的是用户可以通过视频播放界面中已经提供的多种互动选项来实现对视频画面中目标对象触发互动指令的情形，除此之外，用户还可以通过比如语音输入的方式针对视频画面中的目标对象触发互动指令，如图3中所示。

在图3中，仍旧假设第一图像中包括前述对象A和对象B，用户X若想要向对象A丢砖，则可以说出诸如“用砖砸XYZ”这样的语音信息，其中，XYZ是对象A在视频中的角色名称。此时，接收到用户说出的语音信息后，识别该语音信息中包含的关键词(比如：砖、XYZ)，从而，可以基于该关键词识别结果得知用户X想要互动的目标对象是对象A，而且得知用户X的互动意图是向对象A丢砖，也就是说，可以基于关键词识别结果得知用户X触发的互动指令是：向对象A丢砖。

实际应用中，可选地，可以在视频播放界面中给出互动提示信息，以提示用户可以触发哪些互动行为，比如丢砖、翻白眼、比心，等等，该互动提示信息可以是以文字的形式呈现的界面中，以便用户可以结合该互动提示信息说出对目标对象想要触发哪种互动行为。

用户X在第一图像中触发针对目标对象的互动指令的实现方式，包括但不限于上述举例的两种实现方式。此外，用户还可以通过虚拟现实输入设备选取互动指令实现与视频中的目标对象的互动。

另外，可以理解的是，视频是由一帧帧的图像构成的，每帧图像可以关联有时间戳，从而，上述第一图像至少可以是用户X触发互动指令的时刻所对应的图像帧。

而且，结合上述图2和图3所示意的情况，可以认为本实施例中的互动指令中包括了互动行为和目标对象，即该互动指令指示出了用户X对哪个目标对象触发哪种互动行为。

从而，为了让目标对象能够响应用户X触发的互动行为，首先，确定目标对象在第一图像中的第一图像区域，亦即检测出目标对象在第一图像中所覆盖的区域。以在图2和图3中所示意的目标对象为人脸图像为例，此时，可以通过现有技术中已经提供的人脸检测方法在第一图像中检测出目标对象即对象A所对应的第一图像区域，该第一图像区域即为包围对象A的矩形框，如图2和图3中所示。

当然，如果目标对象是其他物体，比如猫、狗、车等，也可以基于与人脸检测方法类似的原理检测出目标对象对应的第一图像区域。

在得到目标对象在第一图像中的第一图像区域后，可以从第一图像区域中提取出目标对象的目标特征的第一特征信息，其中，该目标特征用于体现所述互动指令产生的互动效果。以目标对象是人为例来说，目标特征比如可以是表情、位姿等特征。

可选地，可以将第一图像区域输入到训练得到的模型中，以通过该模型提取出描述目标对象的目标特征的第一主成分参数向量(记为第一PCA参数向量)，该第一主成分参数向量作为目标对象的第一特征信息。

其中，该模型可以是神经网络模型，比如可以是卷积神经网络模型，也可以是MobileNet模型，等等。

由于实际应用中，不同目标对象所对应的图像区域的尺寸往往有所不同，为屏蔽该尺寸差异，可以预设一参考尺寸，从而，可以对上述第一图像区域进行缩放处理，以缩放至该参考尺寸，如100pix*100pix。

另外，为了降低计算量，本实施例中，上述模型输出的可以并非是描述目标对象的目标特征的特征向量，而是相当于对该特征向量进行主成分分析(Principal ComponentAnalysis，简称PCA)后得到的维数较低的PCA参数向量，即为第一PCA参数向量。

只是，值得说明的是，上述模型是直接输出第一PCA参数向量，并不包含先输出特征向量，再对特征向量进行PCA处理后得到第一PCA参数向量的过程，亦即该模型被训练为具有提取输入图像中特定对象的目标特征的主成分的能力。

本发明实施例中，目标对象的种类的不同，涉及到的目标特征将会不同。比如，如果目标对象是人，那么目标对象的目标特征可以包括如下特征中的任一种或多种：轮廓形状、位姿、表情。如果目标对象是车，那么目标对象的目标特征可以包括诸如车体大小、车辆的品牌图案等。

假设目标对象是人，当考虑轮廓形状、位姿和表情这三个维度的特征时，第一PCA参数向量中可以包括如下元素中的一种或多种：对应于轮廓形状的元素即参数、对应于位姿的元素以及对应于表情的元素。

可以理解的是，构成第一PCA参数向量的若干元素其实就是一些实数数值，这些实数数值的改变可以导致诸如位姿、表情等发生改变。

比如，假设第一PCA参数向量是100*1维的向量，其中，比如前60个元素为对应于轮廓形状的元素，接下来的30个元素为对应于位姿的元素，最后的10个元素为对应于表情的元素。

基于此，调整前60个元素中的全部或部分可以令目标对象的轮廓形状发生改变，调整上述30个元素中的全部或部分可以令目标对象的位姿发生改变，调整后10个元素中的全部或部分可以令目标对象的表情发生改变。

从而，将目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息，可以实现为：根据预设的互动指令与主成分参数向量中的元素之间的映射关系，调整第一主成分参数向量中的元素，以得到作为第二特征信息的第二主成分参数向量。

其中，互动指令与主成分参数向量中的元素之间的映射关系，其实是指互动行为与主成分参数向量中的元素之间的映射关系，因为某个互动指令是基于对某种互动行为的选择而触发的。

具体来说，实际应用中，可以预先设置一种或几种互动行为供用户使用，其中，每种互动行为其实是对应于一种或几种体征的呈现效果的，而这一种或几种体征的呈现效果是通过以特定方式调整主成分参数向量中与这一种或几种体征对应的元素来实现的。因此，可以预先设定每种互动行为与主成分参数向量中的元素之间的映射关系，以便基于该映射关系来响应用户触发的互动行为。

在一种可选实现方式中，互动行为与主成分参数向量中的元素之间的映射关系，可以定义为：预先定义与某种互动行为对应的参考元素值，该参考元素值是指在主成分参数向量中哪些元素是与该互动行为对应的，并且，当该互动行为发生时，与该互动行为对应的这些元素应该变为什么数值。

基于此，例如，对应于“丢砖”这一互动行为，与之对应的主成分参数向量的参考元素值为(a0,b0,c0,d0,e0,f0,g0,h0)，当用户触发“丢砖”的互动指令时，可以直接以该参考元素值替换上文中第一PCA参数向量中相应的元素，比如，第一PCA参数向量中与该互动行为对应的元素的取值为(a0’,b0’,c0’,d0’,e0’,f0’,g0’,h0’)，可以直接以(a0,b0,c0,d0,e0,f0,g0,h0)进行替换从而实现对第一PCA参数向量的调整，调整后得到的第二PCA参数向量中与“丢砖”这一互动行为所对应的元素为(a0,b0,c0,d0,e0,f0,g0,h0)。

在另一种可选实现方式中，互动行为与主成分参数向量中的元素之间的映射关系，可以定义为：互动行为与主成分参数向量中的某些元素的调整幅度之间的映射关系。举例来说，假设“丢砖”这一互动行为发生时需要调整主成分参数向量中的a、b、c这三个元素，而且定义这三个元素的调整幅度为：a+2,b+5。基于此，假设上文中的第一PCA参数向量的取值为：[23,41,15,22,6,57,36，···]，其中，前三个数值是对应于上述举例的a、b、c这三个元素的取值，从而，当“丢砖”互动行为发生时，可以将第一PCA参数向量的取值调整为[23+2,41+5,15,22,6,57,36，···]以得到第二PCA参数向量。

值得说明的是，上述互动指令与主成分参数向量中的元素之间的映射关系中的主成分参数向量是与某种对象的类别对应的。也就是说，不同对象类别在同一互动行为下所对应的主成分参数向量可能是不同的，该不同可以体现为是主成分参数向量中包含的元素的个数以及元素的种类是不同的，此时，该元素的种类可以理解为类似与key-value中的key。而导致该元素个数和元素种类的不同的原因是，用于描述不同对象类别的特征信息可能是不同的。比如描述人的，可以使用上述轮廓形状、位姿、表情这些特征，而描述猫的，可能就不是使用这些特征了，比如可能仅使用位姿信息。此时，人这个对象类别对应的主成分参数向量中包括与轮廓形状、位姿、表情分别对应的元素，而猫这个对象类别对应的主成分参数向量中仅包括与位姿对应的元素。那么，对应于同一互动行为，对于人这个类别的对象，可能需要调整人这个对象类别对应的主成分参数向量中与位姿和表情对应的元素，而对于猫这个类别的对象，可能需要调整猫这个对象类别对应的主成分参数向量中与位姿对应的元素。

下面以目标对象为图2或图3所示实施例中的对象A这个人为例，举例说明如何基于用户X触发的互动行为来对该对象A的体征进行调整。

如图4所示，将对象A对应的第一图像区域输入到上述模型中后，假设模型输出的第一PCA参数向量为：[a1,b1,c1,d1,e1,f1,g1,h1]，其中，a1,b1和c1是对应于轮廓形状的元素，d1和e1是对应于位姿的元素，f1,g1和h1是对应于表情的元素，对应于用户高兴的表情，如图4的第一图像区域所示。假设用户X触发的互动行为是图2和图3中假设的丢砖行为，假设预先设定的与丢砖行为对应的需要调整的元素是与表情对应的元素，即为f1,g1和h1，并且假设基于丢砖行为与表情对应的元素的映射关系确定f1,g1和h1这三个元素的调整结果为：f1+2,h1+5，由此得到的第二PCA参数向量为：[a1,b1,c1,d1,e1,f1+2,g1,h1+5]，表示用户为哭脸的表情，其中，2和5表示调整幅度，进而，可以根据第二PCA参数向量生成对象A对应的第二图像区域，进而可以将第二图像区域显示在原来的第一图像区域之上，比如以第二图像区域覆盖原来的第一图像区域，以实现对用户触发的丢砖行为的响应。

下面先结合图4直观地说明第二图像区域与第一图像区域的差异，再说明第二图像区域的生成过程。

在图4中，假设对象A原本在第一图像区域中呈现笑脸，假设预先定义丢砖行为的响应结果为哭脸，那么，上述第一PCA参数向量调整为第二PCA参数向量的目的即为让对象A由原来的笑脸变为哭脸，而该哭脸正是通过对上述f1和h1这两个元素的调整来实现的，从而，第二图像区域中对象A呈现哭脸。

其中，在生成第二图像区域的过程中，先根据第二PCA参数向量对目标对象进行三维建模，再将三维建模的结果转换为二维图像即得到了该第二图像区域。

其中，三维建模的过程中需要使用到模型训练过程中得到的一个变换矩阵，基于该变换矩阵，前文中提到的高维数的对应于特征信息的特征向量可以被降维成PCA参数向量，那么相反地，基于该变换矩阵，低维数的PCA参数向量也可以映射为高维数的特征向量，而被映射得到的特征向量即为三维建模所需的三维坐标点，而这些三维坐标点其实就是反应目标对象的体征的一些关键点的三维坐标。

为便于理解，假设对第一图像区域中的对象A进行三维建模，此时，得到的三维模型是与对象A在第一图像区域中呈现的笑脸这种体征相对应的，这个三维模型中比如嘴角、眉毛、眼睛上的一些关键点呈现的三维坐标称为第一坐标集，那么，通过上述PCA参数向量的调整后，新建模得到的与第二图像区域对应的三维模型将是与哭脸这种体征相对应的，这个三维模型中比如嘴角、眉毛、眼睛上的一些关键点呈现的三维坐标称为第二坐标集，显然，第一坐标集和第二坐标集中对应关键点的三维坐标是不同的。

另外，由于三维模型相对于二维图像来说能够获得更加逼真的效果，因此，对第二PCA参数向量先进行三维建模，以获得更加丰富的体征关键点的坐标，之后再将三维模型转换为二维的图像，即第二图像区域。之所以转换为二维的第二图像区域，是因为视频画面是二维的，需要将第二图像区域覆盖到第一图像区域上，以让用户感知到视频对其互动行为的响应结果。其中，三维变二维，通过去掉三维坐标中对应于深度这个维度(z轴)的坐标值即可实现。

图4中，以改变目标对象的表情为例，对如何调整目标对象的表情以响应用户X触发的互动行为进行了举例说明，但是，正如前文所说，可以描述目标对象的特征的，除了表情外，还可以包括位姿、轮廓形状等。下面，结合图5来示意性说明改变目标对象的位姿以响应用户X触发的互动行为的情况。

在图5中，仍旧假设目标对象为前文中的对象A，假设用户X触发的互动行为是：翻白眼。假设与该互动行为对应的响应效果为：令目标对象将头向左转(对用户X而言呈现向左转头的效果)。那么，如图5中所示，基于用户X触发的互动行为，将对象A对应的第一图像区域输入到模型中，模型输出的第一PCA参数向量仍旧为：[a1,b1,c1,d1,e1,f1,g1,h1]。假设基于翻白眼行为对应的元素调整方式调整第一PCA参数向量得到的第二PCA参数向量为：[a1,b1,c1,d1-3,e1-1,f1,g1,h1]。基于第二PCA参数向量对目标对象进行三维建模，再将三维建模的结果转换为二维图像即生成了第二图像区域，如图5中所示，在第二图像区域中，对象A的头部向左转。

综上，基于本发明实施例提供的互动方法，可以实现视频内容根据用户的互动行为进行实时反馈的互动目的，比如基于用户的互动行为，视频内容中的某人物以特定的表情、位姿、轮廓形状的改变来响应。另外，通过将用户想要互动的目标对象的诸如表情、位姿、轮廓形状等特征信息进行PCA参数化处理，通过修改少量的PCA参数即可达到修改视频内容中该目标对象的表情、位姿、轮廓形状等体征的目的，计算量较少，实现高效、快捷。

此外，尽管上述实施例中以PCA参数化处理为例描述目标对象的特征信息的提取，本领域技术人员可以理解的是，还可以采用其他已知或者未来发展获得的技术来提取目标对象的特征信息。基于此，若前述实施例中的第一特征信息是以其他方式得到的，那么在调整第一特征信息以得到第二特征信息后，可以根据该第二特征信息对目标对象进行三维建模，将三维建模的结果转换为二维的第二图像区域，进而以第二图像区域覆盖前文中的第一图像区域。

前述实施例中介绍了几种根据用户在第一图像中对目标对象触发的互动指令来调整目标对象的目标特征的第一特征信息的实现方式。实际应用中，可选地，调整第一特征信息的方式还可以包括如下方式：

获取所述相应帧图像对应的场景类型信息和/或目标对象的预设属性信息，从而，根据互动指令以及该场景类型信息和/或预设属性信息，将目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息，其中，目标特征用于体现互动指令产生的互动效果。

其中，仍以上述相应帧图像为第一图像为例，第一图像对应的场景类型信息，也可以理解为是目标对象所处的场景类型信息。实际应用中，可以将第一图像输入到预先训练得到的分类模型中，以通过该分类模型输出该第一图像对应的场景类型信息。可以根据实际需求预先训练该分类模型，该分类模型对应的场景类型比如可以包括家居场景、办公场景、餐厅场景、咖啡厅场景等等。

下面仍以第一特征信息具体表示为前文中的第一PCA参数向量为例，根据第一图像对应的场景类型信息和互动指令调整目标对象的目标特征的第一特征信息，可以实现为：根据预设的互动指令和场景类型与PCA参数向量中的元素之间的映射关系，调整第一PCA参数向量中的元素。也就是说，可以预先设定某种互动指令在某个场景类型下所对应的参考元素值，该参考元素值反映了在PCA参数向量中哪些元素是与该互动指令对应的。

例如，对应于“丢砖”这一互动行为，在家居场景下与之对应的PCA参数向量的参考元素值为(a2,b2,c2,d2,e2,f2,g2,h2)，当用户触发“丢砖”的互动指令时，如果确定目标对象当前所处的场景类型为家居场景，则可以直接以该参考元素值替换上文中第一PCA参数向量中相应的元素。

综上，结合目标对象所处的场景类型来与目标对象进行互动，可以实现即使是触发相同的互动指令，但是，当同一目标对象在不同类型的场景中时，该目标对象所呈现出的视觉效果也是不同的。

上述目标对象的预设属性信息，可以是预先为目标对象关联上某个属性标签，比如目标对象为影视剧中的人物时，可以为该目标对象关联上性格、角色类型的属性标签，比如：小萝莉、御姐；警察、反派。

下面仍以第一特征信息具体表示为前文中的第一PCA参数向量为例，根据目标对象的预设属性信息和互动指令调整目标对象的第一特征信息，可以实现为：根据预设的互动指令和属性信息与PCA参数向量中的元素之间的映射关系，调整第一PCA参数向量中的元素。也就是说，可以预先设定某种互动指令在某种属性信息下所对应的参考元素值，该参考元素值反映了在PCA参数向量中哪些元素是与该互动指令对应的。

结合目标对象的属性信息来与目标对象进行互动，可以实现针对具有不同属性信息的不同目标对象触发相同的互动指令时，不同的目标对象所呈现出的反应效果是不同的。

另外，在实际应用中，同一时间观看同一视频的用户可能会非常多，那么，就非常有可能会存在多个用户都针对同一目标对象触发了某种互动指令的情况，针对该情况，本发明实施例还提供了如下的互动方案：

获取对上述目标对象触发某互动指令的次数；

与第二图像区域关联地显示与该次数对应的界面元素。

简单来说，上述互动方案能够实现的效果是：如果有很多用户或者同一用户对该目标对象触发了多次的某种互动行为，那么除了可以如前文中所述的改变目标对象的特征信息外，还可以附加一些额外的界面元素在包含目标对象的视频画面中。

实际应用中，可选地，针对某种互动指令，可以预先设定不同的互动次数范围所对应的界面元素，以据此确定出当前需要与第二图像区域关联地显示的界面元素。其中，该界面元素比如可以是：显示互动次数，设定的表情图像，等等。比如，某人物被多次施加“丢砖”这种互动指令，则可以在该人物的旁边显示一张哭脸的图片。

另外，可选地，本发明实施例还提供了如下的互动方案：

在第一图像中确定与目标对象关联的其他对象；

与该其他对象关联地显示与互动指令对应的界面元素。

其中，该其他对象与该目标对象的关联关系比如可以体现为：双方具有语言交流，双方距离符合设定条件且该其他对象属于设定类型。

举例来说，假设目标对象为人，那么与其关联的其他对象可以是与该目标对象进行交流的另一人。再假设目标对象为车，那么与其关联的其他对象可以是坐在车里或站在车旁边的人。

与目标对象为人物A来举例说明，比如用户对人物A触发了“丢砖”这种互动指令，那么一方面，该人物A可以呈现哭的表情，另一方面，与其交流的人物B可以呈现无奈的表情，或者在人物B的周围渲染出其他一些表情图片，而这些无奈的表情以及表情图片都是与“丢砖”这种互动指令对应的。

以上示例性的介绍了一些与目标对象进行互动的实现方案，当然，实际应用中，不仅局限于此。

下面结合图6所示实施例对前文提到的模型的训练过程进行说明。

图6为本发明实施例提供的一种模型训练方法的流程图，如图6所示，该方法包括如下步骤：

601、获取作为训练样本的多张图像以及与每张图像对应的多个关键点的三维坐标，该多个关键点用于描述对应图像中包含的对象的特征，多张图像各自包含的对象与目标对象为相同类别。

602、对每张图像对应的多个关键点的三维坐标进行主成分分析，得到每张图像对应的主成分参数向量。

603、以上述多张图像和多张图像分别对应的主成分参数向量训练模型。

本实施例中的目标对象是指视频中用户能够互动的某种对象，比如是人。以目标对象是对应于人这个类别的为例，此时，作为模型的训练样本的上述多张图像可以是收集到的大量人脸图像，假设为N张人脸图像。

以N张人脸图像中的任一张图像i为例，首先，为方便理解，先假设不考虑图像i中包含的人脸的特征信息，此时，通过预先对图像i中包含的人脸进行三维建模，可以得到多个关键点的三维坐标，这多个关键点即为人脸关键点。实际上，这个过程即为将图像i中包含的人脸中的眼睛、嘴、鼻子和下颌线等检测出来，用点标记出来，标记出的点即为人脸关键点。如此，便得到了图像i及其对应的多个关键点的三维坐标。可以理解的是，为了更加逼真地表示图像i中包含的人脸，上述多个关键点的数量将会是非常大的，为了降低计算量，可以对该大量的关键点的三维坐标进行PCA处理，以得到图像i对应的主成分参数向量即PCA参数向量。

上面介绍的是获取该人脸对应的多个关键点的三维坐标，进而通过PCA处理得到图像i对应的PCA参数向量的过程。

但是，正如前文所述的，在本发明实施例提供的互动方法中，需要对视频画面中的目标对象的诸如表情、位姿、轮廓形状等体征进行调整以响应用户的互动行为，而调整的前提便是模型能够输出反映目标对象在当前图像中所呈现的表情、位姿、轮廓形状等体征的PCA参数向量，因此，在模型训练过程中，需要考虑各人脸图像中人脸的特征信息。

仍以需要考虑表情、位姿和轮廓形状这三种特征信息为例，对于作为训练样本的N张人脸图像，这N张人脸图像是无表情的、朝向为正向的、轮廓正常的图像，首先，可以由这N张人脸图像得到一个对应于轮廓形状的标准人脸三维模型。该过程简单来说就是，对这N张人脸图像对应的人脸进行三维建模得到N个人脸三维模型，对这N个三维人脸模型中对应坐标点进行均值处理，可以得到对应于轮廓形状的标准人脸三维模型。由N个人脸三维人脸模型与该标准人脸三维模型进行对应坐标点的求差处理，便可以得到N个人脸在轮廓形状方面与标准人脸的差异，亦即得到这N个人脸在轮廓形状这个体征方面分别对应的特征向量(该特征向量即对应于描述轮廓形状体征的多个关键点的三维坐标)，对这些特征向量进行PCA处理，便可以得到N个人脸图像在轮廓形状这个体征方面分别对应的PCA参数向量。

针对表情这个体征来说，可以让N个人脸分别作出一些表情，从而，与上述得到对应于轮廓形状的标准人脸三维模型相似地，此时，可以对具有表情的这些人脸进行三维建模，进而得到对应于表情的标准人脸三维模型。将作为训练样本的N张人脸图像与该对应于表情的标准人脸三维模型进行对应坐标点的求差处理，便可以得到N个人脸在表情方面分别对应的特征向量，对这些特征向量进行PCA处理，便可以得到N个人脸图像在表情这个体征方面分别对应的PCA参数向量。

针对位姿这个体征来说，可以让N个人脸分别作出一些转动等动作，从而，与上述得到对应于表情的标准人脸三维模型相似地，此时，可以对具有不同位姿的这些人脸进行三维建模，进而得到对应于位姿的标准人脸三维模型。将作为训练样本的N张人脸图像与该对应于位姿的标准人脸三维模型进行对应坐标点的求差处理，便可以得到N个人脸在位姿方面分别对应的特征向量，对这些特征向量进行PCA处理，便可以得到N个人脸图像在位姿这个体征方面分别对应的PCA参数向量。

之后，以N个人脸图像中的任一人脸图像：图像i为例，如图7所示，该图像i的监督信息为PCA_轮廓形状、PCA_表情和PCA_位姿，其中，PCA_轮廓形状是图像i在轮廓形状这个体征方面对应的PCA参数向量，PCA_表情和PCA_位姿同理。

将该图像i及其监督信息输入到模型中，对模型进行有监督训练，假设模型输出的为PCA’_轮廓形状、PCA’_表情和PCA’_位姿，其中，PCA’_轮廓形状表示模型实际输出的该图像i在轮廓形状这个体征方面对应的PCA参数向量，PCA’_表情和PCA’_位姿同理。进而，可以基于模型的监督信息和实际输出信息进行损失函数的计算，基于计算得到的损失函数进行模型的参数调整，以最终将模型训练至收敛。

通过上述模型训练过程，可以让模型直接学习到输入图像中对象的特征信息的主成分，有助于提高后续基于该模型进行互动处理的效率。

由于在视频应用场景中，可能连续多帧图像中都包含有同一目标对象，那么，当用户在该多帧图像中的某一帧图像中针对目标对象触发了某种互动指令时，该多帧图像中剩余的图像中该目标对象的处理过程，可以参考图8所示实施例执行。

图8为本发明实施例提供的另一种互动方法的流程图，如图8所示，该互动方法包括如下步骤：

801、响应于针对视频中的目标对象的互动指令，确定目标对象在视频中第一图像中的第一图像区域，提取目标对象的目标特征的第一特征信息，目标特征用于体现互动指令产生的互动效果，将目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息，根据第二特征信息生成包含目标特征的第二图像区域，将第二图像区域显示在第一图像区域之上。

上述步骤的执行过程可以参见前述实施例中的相关描述，在此不赘述。

802、若确定所述互动指令在第二图像中有效，则确定所述目标对象在第二图像中对应的第三图像区域，从第三图像区域中提取目标对象的目标特征的第三特征信息。

可选地，若第二图像是与第一图像相邻的图像，且第二图像中包含上述目标对象，则确定该互动指令在第二图像中有效。此时对应的实际场景即为：连续多帧图像中都包含用户想要互动的目标对象。

可选地，也可以根据用户设置的互动指令的生命周期，确定该互动指令在第二图像中是否有效。比如，当用户在第一图像中针对目标对象触发互动指令时，可以弹出一个对话框，让用户设置该互动指令的生命周期，用户可以设置该互动指令的生命周围为：M秒、M分钟等具体的时长，也可设置该生命周围为整个视频播放期间。当用户设置该互动指令的生命周期为整个视频播放期间时，意味着该视频中包含目标对象的所有图像都执行该互动指令。

803、根据第一特征信息调整为第二特征信息所对应的调整幅度，调整第三特征信息以得到第四特征信息。

804、根据第四特征信息生成包含目标特征的第四图像区域，将第四图像区域显示在第三图像区域之上。

可选地，在第二图像中执行上述互动指令的过程与在第一图像中执行该互动指令的过程可以是一致的，当然，也可以略微有所差异，该差异主要体现在上述步骤803中。

先假设作为第一特征信息的第一PCA参数向量为[a1,b1,c1,d1,e1,f1,g1,h1]，假设调整后得到的作为第二特征信息的第二PCA参数向量为：[a1,b1,c1,d1,e1,f1+2,g1,h1+5]。假设作为第三特征信息的第三PCA参数向量为[a3,b3,c3,d3,e3,f3,g3,h3]，那么此时可以理解的是，作为第四特征信息的第四PCA参数向量为[a3,b3,c3,d3,e3,f3+2,g3,h3+5]。

其中，可选地，调整第三特征信息以得到第四特征信息的过程可以如前述实施例中调整第一特征信息以得到第二特征信息的过程一样。也就是说，基于用户触发的互动行为，查询包含互动行为与PCA参数向量中元素之间的映射关系的数据库以确定需要将f3+2,h3+5，从而得到作为第四特征信息的第四PCA参数向量。此时，在用户触发的互动指令的生命周期内的每帧图像，都需要执行一次该查询操作。

可选地，也可以在首次执行该互动指令时，便可以记录下第一PCA参数向量调整为第二PCA参数向量时所对应的调整幅度：f1+2,h1+5，基于此，后续再需要调整第三PCA参数向量时，在与f1对应的元素f3上加2，在与h1对应的元素h3上加5即可。

以下将详细描述本发明的一个或多个实施例的互动装置。本领域技术人员可以理解，这些互动装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种互动装置的结构示意图，如图9所示，该互动装置包括：确定模块11、提取模块12、生成模块13、渲染模块14。

确定模块11，用于响应于针对视频中的目标对象的互动指令，确定所述目标对象在所述视频中相应帧图像中的第一图像区域。

提取模块12，用于提取所述目标对象的目标特征的第一特征信息，所述目标特征用于体现所述互动指令产生的互动效果。

生成模块13，用于将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息；根据所述第二特征信息，生成包含所述目标特征的第二图像区域。

渲染模块14，用于将所述第二图像区域显示在所述第一图像区域之上

可选地，所述生成模块13具体可以用于：根据所述第二特征信息对所述目标对象进行三维建模；将所述三维建模的结果转换为二维的所述第二图像区域。

其中，可选地，所述目标对象为人，所述目标特征包括如下特征中的任一种或多种：轮廓形状、位姿、表情。

可选地，所述渲染模块14还可以用于：在播放所述视频的界面中显示多个互动选项，以供所述用户通过选择所述多个互动选项而触发所述互动指令。

可选地，所述装置还包括：语音处理模块，用于接收所述用户发出的语音信息；识别所述语音信息中包含的关键词；根据所述关键词确定所述互动指令。

可选地，所述提取模块12具体可以用于：将所述第一图像区域输入到训练得到的模型中，以通过所述模型提取出描述所述目标对象的所述目标特征的第一主成分参数向量，所述第一主成分参数向量作为所述第一特征信息。

基于此，可选地，所述生成模块13具体可以用于：根据预设的所述互动指令与主成分参数向量中的元素之间的映射关系，调整所述第一主成分参数向量中的元素，以得到作为所述第二特征信息的第二主成分参数向量，以及，根据所述第二主成分参数向量对所述目标对象进行三维建模，将所述三维建模的结果转换为二维的所述第二图像区域。

可选地，所述装置还包括：模型训练模块，用于获取作为训练样本的多张图像以及与每张图像对应的多个关键点的三维坐标，所述多个关键点用于描述对应图像中包含的对象的特征，所述多张图像各自包含的对象与所述目标对象为相同类别；对每张图像对应的多个关键点的三维坐标进行主成分分析，得到每张图像对应的主成分参数向量；以所述多张图像和所述多张图像分别对应的主成分参数向量训练所述模型。

可选地，所述相应帧图像为包含所述目标对象的第一图像，所述确定模块11还用于：若确定所述互动指令在第二图像中有效，则确定所述目标对象在所述第二图像中对应的第三图像区域。所述提取模块12还用于：从所述第三图像区域中提取所述目标对象的目标特征的第三特征信息。所述生成模块13还用于：根据所述第一特征信息调整为所述第二特征信息所对应的调整幅度，调整所述第三特征信息以得到第四特征信息，根据所述第四特征信息生成包含所述目标特征的第四图像区域。所述渲染模块14还用于：将所述第四图像区域显示在所述第三图像区域之上。

其中，所述确定模块11还用于：若所述第二图像是与所述第一图像相邻的图像，且所述第二图像中包含所述目标对象，则确定所述互动指令在第二图像中有效。

所述确定模块11还用于：根据所述用户设置的所述互动指令的生命周期，确定所述互动指令在第二图像中有效。

可选地，所述生成模块13，具体用于：获取所述相应帧图像对应的场景类型信息和/或所述目标对象的预设属性信息；根据所述场景类型信息和/或所述预设属性信息，将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息。

可选地，所述装置还包括：获取模块，用于获取对所述目标对象触发所述互动指令的次数。从而，所述渲染模块14还用于：与所述第二图像区域关联地显示与所述次数对应的界面元素。

可选地，所述装置还包括：确定模块，用于在所述第一图像中确定与所述目标对象关联的其他对象。从而，所述渲染模块14还用于：与所述其他对象关联地显示与所述互动指令对应的界面元素。

图9所示互动装置可以执行前述各实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图9所示的互动装置的结构可实现为一电子设备。如图10所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，至少使所述处理器21可以实现如前述实施例中提供的互动方法。

其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行前述各实施例中提供的互动方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种互动方法，其特征在于，包括：

将所述第二图像区域显示在所述第一图像区域之上。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在播放所述视频的界面中显示多个互动选项，以供所述用户通过选择所述多个互动选项而触发所述互动指令。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述用户发出的语音信息；

识别所述语音信息中包含的关键词；

根据所述关键词确定所述互动指令。

4.根据权利要求1所述的方法，其特征在于，所述提取所述目标对象的目标特征的第一特征信息，包括：

将所述第一图像区域输入到训练得到的模型中，以通过所述模型提取出描述所述目标对象的所述目标特征的第一主成分参数向量，所述第一主成分参数向量作为所述第一特征信息。

5.根据权利要求4所述的方法，其特征在于，所述将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息，包括：

根据预设的所述互动指令与主成分参数向量中的元素之间的映射关系，调整所述第一主成分参数向量中的元素，以得到作为所述第二特征信息的第二主成分参数向量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二特征信息，生成包含所述目标特征的第二图像区域，包括：

根据所述第二主成分参数向量对所述目标对象进行三维建模；

将所述三维建模的结果转换为二维的所述第二图像区域。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取作为训练样本的多张图像以及与每张图像对应的多个关键点的三维坐标，所述多个关键点用于描述对应图像中包含的对象的特征，所述多张图像各自包含的对象与所述目标对象为相同类别；

对每张图像对应的多个关键点的三维坐标进行主成分分析，得到每张图像对应的主成分参数向量；

以所述多张图像和所述多张图像分别对应的主成分参数向量训练所述模型。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述目标对象为人，所述目标特征包括如下特征中的任一种或多种：轮廓形状、位姿、表情。

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述相应帧图像为包含所述目标对象的第一图像，所述方法还包括：

若确定所述互动指令在第二图像中有效，则确定所述目标对象在所述第二图像中对应的第三图像区域；

从所述第三图像区域中提取所述目标对象的目标特征的第三特征信息；

根据所述第一特征信息调整为所述第二特征信息所对应的调整幅度，调整所述第三特征信息，以得到第四特征信息；

根据所述第四特征信息生成包含所述目标特征的第四图像区域；

将所述第四图像区域显示在所述第三图像区域之上。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若所述第二图像是与所述第一图像相邻的图像，且所述第二图像中包含所述目标对象，则确定所述互动指令在第二图像中有效。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据所述用户设置的所述互动指令的生命周期，确定所述互动指令在第二图像中有效。

12.根据权利要求1所述的方法，其特征在于，所述根据所述第二特征信息，生成包含所述目标特征的第二图像区域，包括：

根据所述第二特征信息对所述目标对象进行三维建模；

将所述三维建模的结果转换为二维的所述第二图像区域。

13.根据权利要求1所述的方法，其特征在于，所述将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息，包括：

获取所述相应帧图像对应的场景类型信息和/或所述目标对象的预设属性信息；

根据所述场景类型信息和/或所述预设属性信息，将所述目标特征的第一特征信息调整为与所述互动效果相适应的第二特征信息。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取对所述目标对象触发所述互动指令的次数；

与所述第二图像区域关联地显示与所述次数对应的界面元素。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一图像中确定与所述目标对象关联的其他对象；

与所述其他对象关联地显示与所述互动指令对应的界面元素。

16.一种互动装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至15中任一项所述的互动方法。

18.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至15中任一项所述的互动方法。