CN114900738B

CN114900738B - 一种观影互动方法、装置及计算机可读存储介质

Info

Publication number: CN114900738B
Application number: CN202210624394.2A
Authority: CN
Inventors: 邱玉华; 周效军
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2024-07-16
Anticipated expiration: 2042-06-02
Also published as: CN114900738A; WO2023232103A1

Abstract

本申请公开了一种观影互动方法、装置及计算机可读存储介质，涉及信息技术领域，以解决现有观影互动方式较为单一，趣味性较差的问题。该方法包括：在用户观看目标视频的过程中，获取用户图像；识别所述用户图像中的目标对象的姿态；基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。这样，用户可以与视频中角色进行互动，使得互动方式不限于弹幕，增加了互动的趣味性。

Description

一种观影互动方法、装置及计算机可读存储介质

技术领域

本申请涉及信息技术领域，尤其涉及一种观影互动方法、装置及计算机可读存储介质。

背景技术

现有技术中，用户在观影过程中通常只能观看当前播放的视频资源，或者发布弹幕进行互动，且目前的观影设计主要是针对全体观众，互动方式较为单一，趣味性较差。

发明内容

本申请实施例提供一种观影互动方法、装置及计算机可读存储介质，以解决现有观影互动方式较为单一，趣味性较差的问题。

第一方面，本申请实施例提供了一种观影互动方法，包括：

在用户观看目标视频的过程中，获取用户图像；

识别所述用户图像中的目标对象的姿态；

基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；

基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；

基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。

第二方面，本申请实施例还提供一种观影互动装置，包括：

第一获取模块，用于在用户观看目标视频的过程中，获取用户图像；

识别模块，用于识别所述用户图像中的目标对象的姿态；

第一确定模块，用于基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；

第一调整模块，用于基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；

第一显示模块，用于基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。

第三方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的观影互动方法中的步骤。

在本申请实施例中，在用户观看目标视频的过程中，获取用户图像；识别所述用户图像中的目标对象的姿态；基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。这样，用户可以与视频中角色进行互动，使得互动方式不限于弹幕，增加了互动的趣味性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的观影互动方法的流程图；

图2是本申请实施例提供的观影小室内用户交流的示意图；

图3是本申请实施例提供的显著性目标检测示意图；

图4是本申请实施例提供的骨骼检测示意图；

图5是本申请实施例提供的连续性动作检测示意图；

图6是本申请实施例提供的骨骼关键点匹配的示意图；

图7是本申请实施例提供的手势三维建模示意图；

图8是本申请实施例提供的最小外接球投影示意图；

图9是本申请实施例提供的手部空间坐标示意图；

图10是本申请实施例提供的空间夹角示意图；

图11是本申请实施例提供的手势互动效果示意图；

图12是本申请实施例提供的辅助频谱图的示意图；

图13是本申请实施例提供的观影互动装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的观影互动方方法的流程图，如图1所示，包括以下步骤：

步骤101、在用户观看目标视频的过程中，获取用户图像。

上述目标视频可以是用户当前观看的任意视频。

本申请实施例中，可以支持观影用户与视频中角色的肢体或表情互动，即观影用户可以摆出某种动作或作出某种表情，视频中角色则可以相应地作出回应动作或表情。例如，观影用户作出拥抱动作时，视频中角色给予拥抱呼应，观影用户举起右手握手，视频中角色举起右手回应等。

该步骤中，可以在用户观看目标视频的过程中，获取用户图像，例如，当用户进入肢体互动时，可通过摄像头实时采集和上传用户图像。

可选地，所述步骤101之前，所述方法还包括：

接收第一用户在观看所述目标视频中针对第一弹幕的输入，其中，所述输入用于指示对第二用户发起观影小室创建邀请，所述第二用户为发布所述第一弹幕的用户；

在所述第二用户接受所述观影小室创建邀请的情况下，创建所述第一用户与所述第二用户的观影小室，并在所述观影小室中播放所述目标视频；

所述步骤101包括：

在用户在所述观影小室中观看所述目标视频的过程中，获取用户图像。

即一种实施方式中，可以支持用户在观看视频的过程中创建观影小室，观影小室内成员可以在观影小室内进行互动。

具体地，用户可在登录视频应用后设置是否开启观影小室功能。如果开启，代表用户有创建观影小室的权限，否则和普通观众一样，不能创建观影小室。其次可以设置是否接受其他观影小室邀请，如果开启，则允许系统推送的其他用户的观影小室邀请，否则屏蔽其他用户的观影小室邀请。

当用户A点击任意视频进入观看，弹幕飘屏，这时用户A可以点击某个有趣弹幕，发起创建观影小室邀请，邀请消息直接通过视频应用发送到对方账户，即发布该弹幕的用户账户。如果受邀用户B该时段不在线，系统可直接发送提示给用户A；如果用户B在线，用户B可以选择接受和拒绝用户A的邀请。如果用户B接受邀请则观影小室构建成功，此时观影小室中存在用户A和用户B，其他未收到邀请的用户不能进入该小室。

其中，创建观影小室的用户为管理员，其他用户发送的邀请需得到管理员同意，发送的邀请信息直接由视频平台推送给被邀请用户。用户来到观影小室中观看视频，实现小室内同步观影需求。室内成员可发起互动，所有消息仅室内成员可见，当观影小室解散后，所有消息被清空，提高了观影话题的私密性。观影小室内用户交流示意图如图2所示，即客户端用户将消息提交到服务器端，服务器端完成消息交互，从而展示在视频播放界面上。

观影小室内成员在观看视频的过程中可以进行肢体互动，情景带入互动和基于弹幕的视频渲染。

这样，通过该实施方式，用户可以通过创建观影小室的方式来进行群体观影，并可在观影小室内进行私密互动，提高了观影互动的趣味性和群体观影的私密性。

步骤102、识别所述用户图像中的目标对象的姿态。

该步骤中，可以基于获取的用户图像，识别所述用户图像中的目标对象，通常为观影用户，并可通过图像识别和姿态检测，确定所述目标对象的姿态，即识别所述目标对象的肢体动作或表情。

可选地，所述步骤102包括：

通过目标检测算法识别所述用户图像中的目标对象；

构建所述目标对象的骨骼模型；

基于所述目标对象的骨骼模型，确定所述目标对象的姿态。

一种实施方式中，为识别所述用户图像中的目标对象的姿态，可以先通过目标检测算法识别所述用户图像中的目标对象，例如，可通过显著性检测算法等描绘目标轮廓，并返回目标位置结果{x,y,w,h}，其中，x和y是目标矩形框中心点的横坐标和纵坐标，w为目标矩形框的宽，h为目标矩形框的高。

如图3中的(a)图所示，图像背景中包含了多个人物和建筑，识别的显著目标如图3中的(b)图所示，矩形框内即为显著性目标。

接下来可根据显著性目标检测结果，对矩形框中的目标人物轮廓来构建骨骼模型。具体地，可根据矩形框内目标对象的关键部位的关键点，构建所述目标对象的骨骼模型。

例如，在原图像上的检测结果如图4中的(a)图所示，从原图像中抽象出来的骨骼模型如图4中的(b)图所示，模型中一共包含15个关键点，分别对应人体的15个关键部位，如p1点对应头部，p2点对应右手，p15点是左脚。

这样，可基于所述目标对象的骨骼模型，确定所述目标对象的姿态，如根据图4中的(b)图所示的骨骼模型，可以确定人物姿态是四肢伸展的站立姿态。

进一步地，由于单张图像很难检测出目标对象的主要动作，因此可结合镜头转换和连续性行为来确定所述目标对象的具体动作。例如，某个用户视频片段的连续性检测图像结果的骨骼模型如图5所示，则算法返回的姿态结果为跳舞，结果封装{result:‘dance’}。

这样，通过该实施方式，可以准确识别用户图像中目标对象的姿态。

步骤103、基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态。

在确定所述目标对象的姿态后，可以根据所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态，具体地，可以采用类似方法如显著性检测算法确定所述目标视频中的目标角色，通常为视频画面中面积占比最大的角色，然后确定所述目标角色的回应姿态，所述目标角色的回应姿态可以是与所述目标对象的姿态基本相同的姿态，例如，检测到的用户姿态是握手，则视频中角色也应该要做出握手姿态，以回应用户与用户肢体互动，又如检测到用户作出拥抱姿势，则视频中角色也需要作出拥抱姿势，以回应用户的拥抱。

可选地，所述步骤103之后，所述方法还包括：

获取所述目标视频中的目标角色的骨骼模型；

对所述目标对象的骨骼模型与所述目标角色的骨骼模型进行骨骼关键点匹配，以调整所述目标角色的回应姿态。

即一种实施方式中，可以进一步对所述目标角色的回应姿态进行调整，以使观影用户和视频中角色的互动更加细致化。

具体地，可以获取所述目标视频中的目标角色的骨骼模型，如可以调用所述目标视频中的目标角色的骨骼模型使其摆出合适的肢体动作，然后可通过骨骼关键点匹配来保证互动姿态的合理性，即对所述目标对象的骨骼模型与所述目标角色的骨骼模型进行骨骼关键点匹配，使各对应的骨骼关节点位于相类似的空间位置，从而保证所述目标角色摆出与所述目标对象基本相同的姿态。例如，用户伸出右手握手，视频中角色也需要伸出右手，而非左手。如图6所示，在骨骼关键点匹配中，左边观影用户的骨骼模型中的p1对应是右边视频中角色的骨骼模型中B1，以此类推，p2对应B2等。

这样，通过骨骼关键点匹配能够让用户和视频中的人物互动更加一步细致化。

步骤104、基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整。

本申请实施例中，还可对于观影用户与视频中角色的细致部位，比如手势、脸部表情，进行姿态调整，以确定相应的互动姿态。

该步骤中，可基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整，以使所述目标角色作出与所述目标对象相呼应的手势，从而可基于调整后的所述目标对象的目标部位的姿态，在所述视频画面中显示所述目标角色的回应姿态，并可突出显示所述目标角色的目标部位的回应姿态。

步骤105、基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。

该步骤中，可以在所述目标视频的视频画面中显示所述目标角色的回应姿态，即在所述视频画面中生成所述目标角色作出回应姿态的显示效果，实现观影用户与视频中角色的互动。在显示所述目标角色的回应姿态时，可以突出显示所述目标角色的目标部位的回应姿态，以生成生动的观影互动效果。

可选地，所述步骤105包括：

基于所述目标对象的目标部位的姿态和调整后的所述目标角色的目标部位的回应姿态，在所述视频画面中显示所述目标对象的目标部位与所述目标角色的目标部位的互动效果。

一种实施方式中，还可对于观影用户与视频中角色的细致部位，比如手势、脸部表情，确定相应的互动姿态。

即可基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整，以使所述目标角色作出与所述目标对象相呼应的手势，并在所述视频画面中显示所述目标对象的目标部位与所述目标角色的目标部位的互动效果，即可将所述目标对象的目标部位的姿态投射到视频画面中显示，以及显示所述目标角色的目标部位的回应姿态，形成二者的目标部位的互动姿态。例如，当用户抬起右手时，也可对视频中角色抬起右手，并在视频画面中显示用户抬手与视频中角色抬手触摸，形成用户与视频中角色隔屏触摸的互动效果；当用户作出鬼脸表情时，也可对视频中角色作出鬼脸表情，形成用户与视频中角色作出鬼脸互动的效果。

这样，通过该实施方式，观影用户可与视频中角色进行更为细致的特定部位的互动，提高互动体验。

可选地，所述步骤104包括：

确定包围所述目标对象的目标部位的三维模型的第一最小外接球；

确定包围所述目标角色的目标部位的三维模型的第二最小外接球；

根据所述第一最小外接球的球心位置，将所述第一最小外接球投影到所述目标视频的视频画面中；

根据所述第一最小外接球投影在所述视频画面中的位置，对所述第二最小外接球的位置进行调整；

根据调整后的所述第二最小外接球的位置，调整所述目标角色的目标部位的回应姿态。

一种具体地实施方式中，可以先计算所述目标对象的目标部位的三维模型的最小外接球和所述目标角色的目标部位的三维模型的最小外接球，即能完全包围所述目标部位的三维模型的最小球体。如图7所示，可对目标部位如手势进行三维建模，然后计算包围目标部位的三维模型的最小外接球，如图8所示，假设视频中角色目标部位模型的最小外接球为V1，用户目标部位模型的最小外接球为V2，两个球体的球心分别为M1和M2。

接下来可根据最小外接球V2的球心坐标M2，将最小外接球V2投影到所述目标视频的视频画面中，也即可将所述目标对象的目标部位的三维模型投影到所述视频画面中显示，然后可根据最小外接球V2投影在所述视频画面中的位置，对最小外接球V1的坐标位置进行调整，以使最小外接球V1的位置与最小外接球V2的位置达到空间对齐，进而可根据调整后的最小外接球V1的位置，适应调整所述目标角色的目标部位的回应姿态。

这样，通过该实施方式中的调整，可使所述目标对象的目标部位的姿态映射至视频画面显示，并通过调整所述目标角色的目标部位的回应姿态，使二者在视频画面中形成互动姿态。

进一步地，所述根据所述第一最小外接球投影在所述视频画面中的位置，对所述第二最小外接球的位置进行调整，包括：

根据所述第一最小外接球投影在所述视频画面中的球心位置，调整所述第二最小外接球的球心位置；

根据所述目标角色的目标部位的三维模型中任两点间的夹角关系，确定所述目标角色的目标部位中各点的位置；

所述根据调整后的所述第二最小外接球的位置，调整所述目标角色的目标部位的回应姿态，包括：

根据调整后的所述第二最小外接球的球心位置，以及所述目标角色的目标部位中各点的位置，调整所述目标角色的目标部位的回应姿态。

更具体地，可以根据最小外接球V2投影在所述视频画面中的球心坐标位置M2′，调整最小外接球V1的球心坐标位置，如使二者的球心坐标位置对齐。

例如，W₁是＝{(x₁,y₁,z₁),(x₂,y₂,z₂)…(x_n,y_n,z_n)}是所述目标角色的目标部位的三维模型中的所有点的集合。对于任意点A到三维坐标原点形成的向量与任一点Q到三维坐标原点形成的向量之间的夹角关系为θ，则模型中任意两点的夹角关系集合S＝{θ₁,θ₂,θ₃…θ_m}。假设集合W₁是视频中角色的目标部位模型点的集合，集合W₂是用户目标部位模型点的集合，则可根据所述目标角色的目标部位的三维模型中任两点间的夹角关系S＝{θ₁,θ₂,θ₃…θ_m}，计算视频中角色的目标部位中其他点的坐标，计算的结果集合为W₃，这样，可根据计算得出的新集合点坐标W₃，对视频中角色的目标部位的回应姿态进行调整。

这样，通过该实施方式，可实现对所述目标角色的目标部位的回应姿态进行准确细致地调整。

可选地，所述目标部位为手部；

所述步骤104包括：

以所述目标对象的手部的第一手掌根节点为原点建立三维坐标系，其中，所述目标对象的手部包括大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点；

计算第一空间角、第二空间角、第三空间角和第四空间角；其中，所述第一空间角是以所述第一手掌根节点为顶点且以第一线段和第二线段为边的空间夹角，所述第二空间角是以所述第一手掌根节点为顶点且以所述第二线段和第三线段为边的空间夹角，所述第三空间角是以所述第一手掌根节点为顶点且以所述第三线段和第四线段为边的空间夹角，所述第四空间角是以所述第一手掌根节点为顶点且以所述第四线段和第五线段为边的空间夹角；所述第一线段为所述第一手掌根节点与相邻的大拇指关节点的线段，所述第二线段为所述第一手掌根节点与相邻的食指关节点的线段，所述第三线段为所述第一手掌根节点与相邻的中指关节点的线段，所述第四线段为所述第一手掌根节点与相邻的无名指关节点的线段，所述第五线段为所述第一手掌根节点与相邻的小指关节点的线段；

计算第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角；其中，所述第一线面空间角是以所述目标对象的手部的大拇指关节点所在线段与第一面的空间夹角，所述第二线面空间角是以所述目标对象的手部的食指关节点所在线段与所述第一面的空间夹角，所述第三线面空间角是以所述目标对象的手部的中指关节点所在线段与所述第一面的空间夹角，所述第四线面空间角是以所述目标对象的手部的无名指关节点所在线段与所述第一面的空间夹角，所述第五线面空间角是以所述目标对象的手部的小指关节点所在线段与所述第一面的空间夹角；所述第一面为所述三维坐标系中z轴和y轴所构成的平面；

根据所述第一空间角、第二空间角、第三空间角和第四空间角，以及所述第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角，调整所述目标角色的手部的大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点的位置。

一种实施方式中，所述目标部位可以手部，且可以对基于所述目标对象的手部动作，对所述目标角色的手部动作进行细致调整。

如图9所示，可以以所述目标对象的手部的手掌根节点q1为原点建立三维坐标系，集合点{q1，q2,q3…q20}模拟了用户手部的20个主要关节点。其中，q1对应为手掌根节点，q6、q7和q20对应为大拇指关节点，q5、q8、q18和q19对应为食指关节点，q4、q9、q16和q17对应的是中指关节点，q3、q10、q14和q15对应的是无名指关节点，q2、q11、q12和p13对应的是小指关节点。

如图10所示，ω₁是以q1为顶点，线段q1q6和线段q1q5为边的空间夹角；ω₂是以q1为顶点，线段q1q5和线段q1q4为边的空间夹角；ω₃是以q1为顶点，线段q1q4和线段q1q3为边的空间夹角；ω₄是以q1为顶点，线段q1q3和线段q1q2为边的空间夹角。

则可计算空间角ω₁，ω₂，ω₃和ω₄。以计算ω₁为例，将线段q1q6记为向量线段q1q5记为向量则ω₁计算公示如下：

其他ω₂，ω₃和ω₄的计算同理可得。

这样，可根据计算得到的空间角ω₁，ω₂，ω₃和ω₄，对所述目标角色的手部距离其手掌根节点最近的大拇指关节点Q6、食指关节点Q5、中指关节点Q4、无名指关节点Q3和小指关节点Q2的位置进行调整，使所述目标角色的手部各关节点位置与所述目标对象的手部各关节点位置对应。

接下来，还可调整所述目标角色的手部剩余关节点的位置，具体地，可分别计算线段q6q7，q5q8，q4q9，q3q10，q2q11与面zq1y的夹角，分别记为γ₁，γ₂，γ₃，γ₄，γ₅。然后可根据计算得到的线面空间角γ₁，γ₂，γ₃，γ₄和γ₅，对所述目标角色的手部剩余大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点，即{Q7，Q8，Q9…Q20}的位置进行调整，使所述目标角色的手部各关节点位置与所述目标对象的手部各关节点位置对应，从而使所述目标角色的手势与所述目标对象的手势保持基本对称。调整之后的手部互动效果可如图11所示，用户手势可以和视频中角色手势形成隔屏幕触碰的互动体验。

进一步地，所述根据所述第一空间角、第二空间角、第三空间角和第四空间角，以及所述第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角，调整所述目标角色的手部的大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点的位置，包括：

令第五空间角等于所述第一空间角，第六空间角等于所述第二空间角，第七空间角等于所述第三空间角，第八空间角等于所述第四空间角，调整所述目标角色的手部的第一大拇指关节点、第一食指关节点、第一中指关节点、第一无名指关节点和第一小指关节点的位置；

令第六线面空间角等于所述第一线面空间角，第七线面空间角等于所述第二线面空间角，第八线面空间角等于所述第三线面空间角，第九线面空间角等于所述第四线面空间角，第十线面空间角等于所述第五线面空间角，调整所述目标角色的手部的除所述第一大拇指关节点外的其他大拇指关节点、除所述第一食指关节点外的其他食指关节点、除所述第一中指关节点外的其他中指关节点、除所述第一无名指关节点外的其他无名指关节点和除所述第一小指关节点外的其他小指关节点的位置；

其中，所述第五空间角是以所述目标角色的手部的第二手掌根节点为顶点且以第六线段和第七线段为边的空间夹角，所述第六空间角是以所述第二手掌根节点为顶点且以所述第七线段和第八线段为边的空间夹角，所述第七空间角是以所述第二手掌根节点为顶点且以第八线段和第九线段为边的空间夹角，所述第八空间角是以所述第二手掌根节点为顶点且以第九线段和第十线段为边的空间夹角；所述第六线段为所述第二手掌根节点与相邻的所述第一大拇指关节点的线段，所述第七线段为所述第二手掌根节点与相邻的所述第一食指关节点的线段，所述第八线段为所述第二手掌根节点与相邻的所述第一中指关节点的线段，所述第九线段为所述第二手掌根节点与相邻的所述第一无名指关节点的线段，所述第十线段为所述第二手掌根节点与相邻的所述第一小指关节点的线段；

所述第六线面空间角以所述目标角色的手部的大拇指关节点所在线段与第二面的空间夹角，所述第七线面空间角是以所述目标角色的手部的食指关节点所在线段与所述第二面的空间夹角，所述第八线面空间角是以所述目标角色的手部的中指关节点所在线段与所述第二面的空间夹角，所述第九线面空间角是以所述目标角色的手部的无名指关节点所在线段与所述第二面的空间夹角，所述第十线面空间角是以所述目标角色的手部的小指关节点所在线段与所述第二面的空间夹角；所述第二面为以所述第二手掌根节点为原点建立的三维坐标系中z轴和y轴所构成的平面。

即对于视频中角色手部模型集合点{Q1，Q2,Q3…Q20}，相应的空间角为和其中Q1对应目标对象手部模型中的对应点q1，Q2对应目标对象手部模型中的对应点q2，Q3对应目标对象手部模型中的对应点q3，依此类推。对应ω₁，对应ω₂，对应ω₃，对应ω₄。

这样，可首先调整视频中角色手部Q2、Q3、Q4、Q5、Q6点的坐标，已知当前Q5，Q6坐标值即调整前的坐标，可令线段Q1Q6为向量线段Q1Q5为向量固定点Q6坐标，利用夹角公示和ω₁值可以求出n个向量解的集合固定点Q5坐标，利用夹角公示和ω₁值可以求出m个向量解的集合集合D和集合E中的解向量分别是以原点为起点的向量，通过将当前集合D中的向量坐标减去原点坐标，由此可以计算出所有可能的Q5坐标点的集合，这样的坐标集合记为M。同理，也可以计算所有可能的Q6坐标点的集合记为集合G。

然后，可依次计算当前点Q6与集合G中的所有点的空间距离，记为L₁。假设原Q6＝(x_q,y_q,z_q)，集合G中任一点为K＝(x′,y′,z′)，则点Q6与点K的空间距离的计算公示如下所示：

同理，依次计算Q5与集合M中所有坐标点空间距离值L₂，然后可确定满足L₁+L₂的值最小，且保证空间夹角为ω₁的两个坐标点，分别记为Q6′和Q5′，其中Q6′是Q6调整之后的坐标，Q5′是Q5调整之后的坐标。

已知Q5′坐标，再令求出一系列满足条件的坐标点集合，记为集合J，然后计算原Q4点与集合J中所有坐标点的空间距离，取最小的空间距离值所对应的坐标值，该坐标值即为调整后的Q4坐标值，记为Q4′。同理可以依次求得调整后的Q3和Q2值。

接下来，可调整剩下其他点的位置，包括{Q7，Q8，Q9…Q20}。具体地，可令Q6′Q7与面zQ1y的夹角等于γ₁，求解得到Q6′Q7的一组向量解。将向量中的坐标减去Q6′的坐标得到所有可能的Q7点的坐标值，该集合记为R。计算原Q7点的坐标与R中所有值的空间距离，得到最小的空间距离值对应的坐标点，即为调整后的Q7的坐标点，记为Q7′。同理利用已知的上一个节点的坐标值，比如Q7的上一个节点是Q6，Q8的上一个节点是Q5，以及线面空间角，通过求得最小空间距离来确定最终的调整坐标值，依次调整剩下的所有坐标点的值。

调整之后的手部互动效果如图11所示，用户手势可以和视频中角色手势形成隔屏幕触碰的互动体验。

这样，通过该实施方式，可依次对视频中角色手部各关节点的位置进行调整，最终形成用户手势与视频中角色手势形成隔屏幕触碰的互动体验，增加互动趣味性。

可选地，所述方法还包括：

在用户选择进入演绎模式的情况下，显示视频配音界面，并在所述视频配音界面中显示辅助频谱图，其中，所述辅助频谱图是根据所述目标视频中的原声生成的频谱图；

获取用户根据所述辅助频谱图录入的配音音频；

将所述配音音频融入所述目标视频中进行播放。

一种实施方式中，当用户在创建的观影小室内观看视频时，小室内成员可以发起角色配音，由小室内成员完成视频中角色台词，将自己带入到剧情角色中。且可以引入了声纹匹配规则，可用于辅助角色台词配音，使得用户在声音演绎时有声纹参考。

在成功创建观影小室后，可自动将视频中的音频提取并且生成声纹示意图也即辅助频谱图，如图12中的实线所示。

用户可启动情景带入，选择喜欢的角色和视频片段。此时可以选择多人合作演绎也可以选择单人独自演绎。多人合作时，每个人可选择各自的角色完成各自的声音部分即可。单人演绎时候，除自己挑选的角色，其他角色声音可以选择视频原音，也可以选择其他用户上传的配音。

此时视频画面从观影中切换出来，进入视频配音界面，原生辅助声纹即辅助频谱图在界面中弹出。用户在配音过程中可以参考辅助的配音声纹来调整自己的语调、语速，从而更好地完成声音演绎。

在多人合作模式下分别获取多人声音整合成完整视频，单人演绎模式下，将单人与用户选择的其他角色原音或者其他用户声音合成，得到用户配音的视频。这样，实现了观影小室内用户之间，用户和视频直接的互动，增加观影的趣味性。

进一步地，所述获取用户根据所述辅助频谱图录入的配音音频之后，所述方法还包括：

对所述配音音频进行调整，使调整后的所述配音音频与所述辅助频谱图匹配；

所述将所述配音音频融入所述目标视频中进行播放，包括：

将调整后的所述配音音频融入所述目标视频中进行播放。

该实施方式中，还可引入声纹匹配规则用于修饰用户声音，对已经录入系统的用户声音，通过声纹自动匹配来改善声纹，使得用户的声音更加贴合角色。

具体地，在用户结束配音后，系统可根据录入的声纹和原声声纹匹配。如图12所示，用户录入的声纹即频谱如虚线所示，原声声纹如实线所示。用户声纹和原视频声纹必然存在偏差，该实施方式中，可通过计算声域内方差来匹配原视频声纹声域值，提高用户声音贴合度。

根据所述配音音频与所述辅助频谱图中各频点的差值，计算所述配音音频的得分；

所述将所述配音音频融入所述目标视频中进行播放，包括：

将所述配音音频融入所述目标视频中进行播放，并显示所述得分。

一种实施方式中，还可引入声纹匹配规则用于用户评分机制，对同一个角色的所有用户配音进行打分，得分靠前的将被收录在榜单集合中。

具体地，用户在完成演绎后，可计算用户配音音频中每个声纹点与原声纹的差值。假设原声纹共有n个声纹点，当用户声纹与原声声纹的差值占原声纹值为0％时，可得一个单位分，当差值占原声纹值在50％以上时，得0个单位分，当差值占原声纹值介于0～50％时，每升高10个百分点，降低0.2个单位分。每个声纹点的单位分在集合λ中，用户录入的声纹集合为X，原声纹集合为N。用户声纹集合中的某个用户声纹值为x_i，对应的原声纹值为n_i，则该用户的总得分R的计算公式如下所示：

R＝∑_i|x_i-n_i|·λ_i

这样，在对用户配音音频进行打分后，可在用户配音视频中显示其得分，在多人合作模式下，可在合成的配音视频中显示各用户的配音得分，并按得分高低进行排序。

这样，通过这种情景带入模式，能够很好地促进小室内视频和用户之间，以及用户与用户之间的互动。

可选地，所述方法还包括：

获取用户在所述观影小室中观看所述目标视频时于第一时段内发布的弹幕和弹幕数量；

确定所述第一时段内发布的各弹幕对应的情感词，并统计各情感词的数量；

在第一情感词的数量占所述弹幕数量的比值大于预设阈值的情况下，在所述观影小室中添加与所述第一情感词相关的特效挂件，或者，播放与所述第一情感词相关的音效，其中，所述第一情感词为任一情感词。

一种实施方式中，还可基于观影小室内的弹幕对视频情景做渲染，通过对弹幕语义分析提取相应的情感词，根据不同的情感词配备特效挂件、音效等。

具体实现方式为，观影小室内用户可在观看视频时发布弹幕；统计某个时间段内的弹幕数量M，如统计10分钟内的弹幕数量；对该时段内的每一个弹幕抽取现有情感词，比如恐怖，欢快，悲伤等，抽取方式可以是关键词匹配和自然语言处理算法中的语义理解；统计情感词数量N，当N/M大于某个阈值时触发情景渲染，其中，由于不同观众对于同一个剧情有不同观感从而产生不同情感，这里先对情感词做相似性分析，计算一个或几个具有代表性的情感词，然后统计各情感词的数量；结合计算出的情感词，在观影小室内播放的视频画面中自动添加相关的特效挂件，还可以情感词为搜索匹配词来获取并播放相应的音效。例如，对于欢乐的情感词，可以在视频画面中添加小星星掉落的特效，还可调取欢快的音效进行播放。

这样，通过该实施方式中的情景渲染，可以让剧情更加灵动，进一步增加互动趣味性。

现有的大众观影技术缺乏针对某些用户群体的个性化定制。本申请提出了一种基于弹幕的观影小室互动方法。用户可以选择志趣相同的用户群体构建观影小室，比如某个明星追随者群体同步观影，小室内的观影私密性更好。在观影小室内还可以进行各种互动，比如肢体互动，情景带入以及弹幕渲染等，大大增加了视频观看的趣味性，将观众从观看者转变成了视频演绎的参与者。

本申请实施例的观影互动方法，在用户观看目标视频的过程中，获取用户图像；识别所述用户图像中的目标对象的姿态；基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。这样，用户可以与视频中角色进行互动，使得互动方式不限于弹幕，增加了互动的趣味性。

本申请实施例还提供了一种观影互动装置。参见图13，图13是本申请实施例提供的观影互动装置的结构图。由于观影互动装置解决问题的原理与本申请实施例中观影互动方法相似，因此该观影互动装置的实施可以参见方法的实施，重复之处不再赘述。

如图13所示，观影互动装置1300包括：

第一获取模块1301，用于在用户观看目标视频的过程中，获取用户图像；

识别模块1302，用于识别所述用户图像中的目标对象的姿态；

第一确定模块1303，用于基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；

第一调整模块1304，用于基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；

第一显示模块1305，用于基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。

可选地，识别模块1302包括：

识别单元，用于通过目标检测算法识别所述用户图像中的目标对象；

构建单元，用于构建所述目标对象的骨骼模型；

第一确定单元，用于基于所述目标对象的骨骼模型，确定所述目标对象的姿态。

可选地，观影互动装置1300还包括：

第二获取模块，用于获取所述目标视频中的目标角色的骨骼模型；

匹配模块，用于对所述目标对象的骨骼模型与所述目标角色的骨骼模型进行骨骼关键点匹配，以调整所述目标角色的回应姿态。

可选地，第一显示模块1305还用于基于所述目标对象的目标部位的姿态和调整后的所述目标角色的目标部位的回应姿态，在所述视频画面中显示所述目标对象的目标部位与所述目标角色的目标部位的互动效果。

可选地，第一调整模块1304包括：

第二确定单元，用于确定包围所述目标对象的目标部位的三维模型的第一最小外接球；

第三确定单元，用于确定包围所述目标角色的目标部位的三维模型的第二最小外接球；

投影单元，用于根据所述第一最小外接球的球心位置，将所述第一最小外接球投影到所述目标视频的视频画面中；

第一调整单元，用于根据所述第一最小外接球投影在所述视频画面中的位置，对所述第二最小外接球的位置进行调整；

第二调整单元，用于根据调整后的所述第二最小外接球的位置，调整所述目标角色的目标部位的回应姿态。

可选地，所述第一调整单元包括：

第一调整子单元，用于根据所述第一最小外接球投影在所述视频画面中的球心位置，调整所述第二最小外接球的球心位置；

确定子单元，用于根据所述目标角色的目标部位的三维模型中任两点间的夹角关系，确定所述目标角色的目标部位中各点的位置；

所述第二调整单元用于根据调整后的所述第二最小外接球的球心位置，以及所述目标角色的目标部位中各点的位置，调整所述目标角色的目标部位的回应姿态。

可选地，所述目标部位为手部；

第一调整模块1304包括：

建立单元，用于以所述目标对象的手部的第一手掌根节点为原点建立三维坐标系，其中，所述目标对象的手部包括大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点；

第一计算单元，用于计算第一空间角、第二空间角、第三空间角和第四空间角；其中，所述第一空间角是以所述第一手掌根节点为顶点且以第一线段和第二线段为边的空间夹角，所述第二空间角是以所述第一手掌根节点为顶点且以所述第二线段和第三线段为边的空间夹角，所述第三空间角是以所述第一手掌根节点为顶点且以所述第三线段和第四线段为边的空间夹角，所述第四空间角是以所述第一手掌根节点为顶点且以所述第四线段和第五线段为边的空间夹角；所述第一线段为所述第一手掌根节点与相邻的大拇指关节点的线段，所述第二线段为所述第一手掌根节点与相邻的食指关节点的线段，所述第三线段为所述第一手掌根节点与相邻的中指关节点的线段，所述第四线段为所述第一手掌根节点与相邻的无名指关节点的线段，所述第五线段为所述第一手掌根节点与相邻的小指关节点的线段；

第二计算单元，用于计算第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角；其中，所述第一线面空间角是以所述目标对象的手部的大拇指关节点所在线段与第一面的空间夹角，所述第二线面空间角是以所述目标对象的手部的食指关节点所在线段与所述第一面的空间夹角，所述第三线面空间角是以所述目标对象的手部的中指关节点所在线段与所述第一面的空间夹角，所述第四线面空间角是以所述目标对象的手部的无名指关节点所在线段与所述第一面的空间夹角，所述第五线面空间角是以所述目标对象的手部的小指关节点所在线段与所述第一面的空间夹角；所述第一面为所述三维坐标系中z轴和y轴所构成的平面；

第三调整单元，用于根据所述第一空间角、第二空间角、第三空间角和第四空间角，以及所述第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角，调整所述目标角色的手部的大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点的位置。

可选地，所述第三调整单元包括：

第二调整子单元，用于令第五空间角等于所述第一空间角，第六空间角等于所述第二空间角，第七空间角等于所述第三空间角，第八空间角等于所述第四空间角，调整所述目标角色的手部的第一大拇指关节点、第一食指关节点、第一中指关节点、第一无名指关节点和第一小指关节点的位置；

第三调整子单元，用于令第六线面空间角等于所述第一线面空间角，第七线面空间角等于所述第二线面空间角，第八线面空间角等于所述第三线面空间角，第九线面空间角等于所述第四线面空间角，第十线面空间角等于所述第五线面空间角，调整所述目标角色的手部的除所述第一大拇指关节点外的其他大拇指关节点、除所述第一食指关节点外的其他食指关节点、除所述第一中指关节点外的其他中指关节点、除所述第一无名指关节点外的其他无名指关节点和除所述第一小指关节点外的其他小指关节点的位置；

可选地，观影互动装置1300还包括：

接收模块，用于接收第一用户在观看所述目标视频中针对第一弹幕的输入，其中，所述输入用于指示对第二用户发起观影小室创建邀请，所述第二用户为发布所述第一弹幕的用户；

创建模块，用于在所述第二用户接受所述观影小室创建邀请的情况下，创建所述第一用户与所述第二用户的观影小室，并在所述观影小室中播放所述目标视频；

第一获取模块1301用于在用户在所述观影小室中观看所述目标视频的过程中，获取用户图像。

可选地，观影互动装置1300还包括：

第二显示模块，用于在用户选择进入演绎模式的情况下，显示视频配音界面，并在所述视频配音界面中显示辅助频谱图，其中，所述辅助频谱图是根据所述目标视频中的原声生成的频谱图；

第三获取模块，用于获取用户根据所述辅助频谱图录入的配音音频；

播放模块，用于将所述配音音频融入所述目标视频中进行播放。

可选地，观影互动装置1300还包括：

第二调整模块，用于对所述配音音频进行调整，使调整后的所述配音音频与所述辅助频谱图匹配；

所述播放模块用于将调整后的所述配音音频融入所述目标视频中进行播放。

可选地，观影互动装置1300还包括：

计算模块，用于根据所述配音音频与所述辅助频谱图中各频点的差值，计算所述配音音频的得分；

所述播放模块用于将所述配音音频融入所述目标视频中进行播放，并显示所述得分。

可选地，观影互动装置1300还包括：

第四获取模块，用于获取用户在所述观影小室中观看所述目标视频时于第一时段内发布的弹幕和弹幕数量；

第二确定模块，用于确定所述第一时段内发布的各弹幕对应的情感词，并统计各情感词的数量；

处理模块，用于在第一情感词的数量占所述弹幕数量的比值大于预设阈值的情况下，在所述观影小室中添加与所述第一情感词相关的特效挂件，或者，播放与所述第一情感词相关的音效，其中，所述第一情感词为任一情感词。

本申请实施例提供的观影互动装置1300，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例的观影互动装置1300，在用户观看目标视频的过程中，获取用户图像；识别所述用户图像中的目标对象的姿态；基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态；基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整；基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态。这样，用户可以与视频中角色进行互动，使得互动方式不限于弹幕，增加了互动的趣味性。

此外，本申请实施例的计算机可读存储介质，用于存储计算机程序，所述计算机程序可被处理器执行实现图1所示方法实施例中各个步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种观影互动方法，其特征在于，包括：

在用户观看目标视频的过程中，获取用户图像；

识别所述用户图像中的目标对象的姿态；

基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态；

所述在用户观看目标视频的过程中，获取用户图像之前，所述方法还包括：

所述在用户观看目标视频的过程中，获取用户图像，包括：

2.根据权利要求1所述的方法，其特征在于，所述识别所述用户图像中的目标对象的姿态，包括：

通过目标检测算法识别所述用户图像中的目标对象；

构建所述目标对象的骨骼模型；

基于所述目标对象的骨骼模型，确定所述目标对象的姿态；

所述基于所述目标对象的姿态，确定所述目标视频中的目标角色的回应姿态之后，所述方法还包括：

获取所述目标视频中的目标角色的骨骼模型；

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一最小外接球投影在所述视频画面中的位置，对所述第二最小外接球的位置进行调整，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标部位为手部；

所述基于所述目标对象的目标部位的姿态，对所述目标角色的目标部位的回应姿态进行调整，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一空间角、第二空间角、第三空间角和第四空间角，以及所述第一线面空间角、第二线面空间角、第三线面空间角、第四线面空间角和第五线面空间角，调整所述目标角色的手部的大拇指关节点、食指关节点、中指关节点、无名指关节点和小指关节点的位置，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在用户选择进入演绎模式的情况下，显示视频配音界面，并在所述视频配音界面中显示辅助频谱图，其中，所述辅助频谱图是根据所述目标视频中的原声生成的频谱图；获取用户根据所述辅助频谱图录入的配音音频；将所述配音音频融入所述目标视频中进行播放；

和/或，

获取用户在所述观影小室中观看所述目标视频时于第一时段内发布的弹幕和弹幕数量；确定所述第一时段内发布的各弹幕对应的情感词，并统计各情感词的数量；在第一情感词的数量占所述弹幕数量的比值大于预设阈值的情况下，在所述观影小室中添加与所述第一情感词相关的特效挂件，或者，播放与所述第一情感词相关的音效，其中，所述第一情感词为任一情感词。

8.一种观影互动装置，其特征在于，包括：

识别模块，用于识别所述用户图像中的目标对象的姿态；

第一显示模块，用于基于调整后的所述目标角色的目标部位的回应姿态，在所述目标视频的视频画面中显示所述目标角色的回应姿态；

所述观影互动装置还包括：

所述第一获取模块用于在用户在所述观影小室中观看所述目标视频的过程中，获取用户图像。

9.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的观影互动方法中的步骤。