CN116841436A

CN116841436A - 基于视频的交互方法、装置、设备、存储介质和程序产品

Info

Publication number: CN116841436A
Application number: CN202210296803.0A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-10-03

Abstract

本申请涉及一种基于视频的交互方法、装置、计算机设备、存储介质和计算机程序产品。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，所述目标视频的视频画面未对所述虚拟陪伴对象形成遮挡；在播放所述目标视频的过程中，响应于所述目标视频播放至可互动视频画面，显示关于所述虚拟陪伴对象的与所述可互动视频画面匹配的互动内容。采用本方法能够实现虚拟陪伴对象智能地与目标视频中的可互动场景有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

Description

基于视频的交互方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于视频的交互方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术与智能终端的快速发展，智能终端能够为用户提供各式各样的人机交互场景，为人们的生活带来了极大便利。目前，已有的基于语音交互的虚拟助手，仅能够与用户进行语音交互；还有一些语音虚拟助手配备了形象化的3D人物，但也仅仅是单调、静态地与用户进行语音交互，无法给用户提供拟人化的人机交互体验。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升人机交互体验的基于视频的交互方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于视频的交互方法。所述方法包括：

同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，所述目标视频的视频画面未对所述虚拟陪伴对象形成遮挡；

在播放所述目标视频的过程中，响应于所述目标视频播放至可互动视频画面，显示关于所述虚拟陪伴对象的互动内容，所述互动内容与所述可互动视频画面相匹配。

第二方面，本申请还提供了一种基于视频的交互装置。所述装置包括：

显示模块，用于同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，所述目标视频的视频画面未对所述虚拟陪伴对象形成遮挡；

互动模块，用于在播放所述目标视频的过程中，响应于所述目标视频播放至可互动视频画面，显示关于所述虚拟陪伴对象的互动内容，所述互动内容与所述可互动视频画面相匹配。

在一个实施例中，所述互动模块，还用于响应于所述目标视频播放至可互动视频画面，显示通过所述虚拟陪伴对象示出与所述可互动视频画面匹配的互动形态，所述互动形态包括互动动作和互动表情中的至少一种。

在一个实施例中，所述互动模块，还用于与显示的所述互动形态，同步播放与所述互动形态相符的音频内容，和/或，在所述虚拟陪伴对象处，同步显示与所述互动形态相符的互动文字。

在一个实施例中，所述显示模块，具体用于在视频客户端的用户界面中，显示处于唤醒状态的虚拟陪伴对象；响应于播放目标视频的触发操作，播放所述目标视频并显示所述目标视频的视频画面；其中，显示的所述虚拟陪伴对象位于所述视频画面的上层；或者，显示的所述虚拟陪伴对象位于未被所述视频画面遮挡的区域。

在一个实施例中，所述互动模块，还用于在播放所述目标视频的过程中，响应于所述目标视频播放至非互动视频画面，显示所述虚拟陪伴对象处于虚拟陪看状态。

在一个实施例中，所述装置还包括：

互动动画获取模块，用于确定所述目标视频中可互动视频画面所对应的播放时间点；获取与相应的播放时间点对应的互动内容，所述互动内容是通过所述虚拟陪伴对象示出的与所述可互动视频画面匹配的动画；

所述互动模块，还用于在播放所述目标视频的过程中，响应于播放时间点达到所述目标视频的可互动视频画面所在的播放时间点，在所述虚拟陪伴对象处，播放所述播放时间点对应的互动动画，以通过所述虚拟陪伴对象示出与所述可互动视频画面匹配的互动内容。

在一个实施例中，所述互动动画获取模块，还用于生成关于所述虚拟陪伴对象的互动内容以及相应的互动标签；确定所述可互动视频画面的视频语义；将所述视频语义与各所述互动内容的互动标签匹配，将匹配成功的互动标签所对应的互动内容，作为所述可互动视频画面所在的播放时间点对应的互动内容。

在一个实施例中，所述互动动画获取模块，还用于确定所述目标视频中对应可互动情节的视频画面；当确定的所述视频画面中包括主要角色时，提取所述主要角色的人脸区域，对所述人脸区域进行表情识别，获得所述视频画面的情感语义标签；和/或，识别所述主要角色的动作，获得所述视频画面的动作语义标签；和/或，对所述视频画面进行语义分割，获得所述视频画面的背景语义标签；和/或，对所述视频画面进行目标检测，获得所述视频画面中的物品语义标签。

在一个实施例中，所述互动模块，还用于在显示所述虚拟陪伴对象之后，响应于目标对象与所述虚拟陪伴对象进行交互时所述目标对象的情感类别为目标情感类别，显示关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容。

在一个实施例中，所述互动模块，还用于显示通过所述虚拟陪伴对象示出与所述目标情感类别匹配的互动形态，所述互动形态包括互动动作和互动表情中的至少一种。

在一个实施例中，所述互动模块，还用于显示所述虚拟陪伴对象执行与所述目标情感类别匹配的互动动作，同步示出与所述目标情感类别匹配的互动表情，以及同步播放与所述目标情感类别匹配的音频内容，在所述虚拟陪伴对象处同步显示所述音频内容对应的互动文字。

在一个实施例中，所述装置还包括：

情绪识别模块，用于采集所述目标对象与所述虚拟陪伴对象进行交互时所述目标对象的互动语音以及与所述互动语音同步采集的互动画面；对所述互动语音进行语音识别，获得所述目标对象的说话内容；对所述互动画面进行表情识别，获得所述目标对象的表情类别；根据所述说话内容和所述表情类别，确定所述目标对象的情感类别为目标情感类别，获取关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容。

在一个实施例中，所述情绪识别模块，还用于生成关于所述虚拟陪伴对象的互动动画以及相应的互动标签；根据所述目标情感类别与各所述互动动画的互动标签之间的匹配度，确定与所述目标情感类别匹配的互动动画。

在一个实施例中，所述装置还包括：

表情识别模型训练模块，用于获取样本人脸图像，使用所述样本人脸图像对基于神经网络的表情识别模型进行模型训练，得到训练好的表情识别模型；

所述情绪识别模块，还用于从所述互动画面中提取出所述目标对象的人脸区域；通过所述训练好的表情识别模型，对所述人脸区域进行表情识别，得到所述目标对象的表情类别。

在一个实施例中，所述装置还包括虚拟形象推荐模块，用于在显示所述虚拟陪伴对象之后，响应于切换所述虚拟陪伴对象的虚拟形象的触发操作，显示虚拟形象推荐列表；响应于选中所述虚拟形象推荐列表中目标虚拟形象的触发操作，以所述目标虚拟形象显示所述虚拟陪伴对象。

在一个实施例中，所述虚拟形象推荐模块，还用于获取与所述虚拟陪伴对象进行交互的目标对象的历史视频播放数据；根据所述历史视频播放数据提取所述目标对象的观影特征；将所述目标对象的画像特征与所述观影特征，与所述虚拟陪伴对象的各个虚拟形象的形象特征进行匹配，根据匹配度大于预设阈值的虚拟形象生成虚拟形象推荐列表。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述基于视频的交互方法、装置、计算机设备、存储介质和计算机程序产品，将目标视频的视频画面与虚拟陪伴对象进行同屏显示，并且视频画面未对该虚拟陪伴对象形成遮挡，在播放该目标视频的过程中，当目标视频播放到可互动视频画面时，显示通过该虚拟陪伴对象输出与该可互动视频画面匹配的互动内容，实现虚拟陪伴对象智能地与目标视频中的可互动场景有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

附图说明

图1为一个实施例中基于视频的交互方法的应用环境图；

图2为一个实施例中可互动视频画面中显示虚拟陪伴对象互动的示意图；

图3为一个实施例中基于视频的交互方法的流程示意图；

图4为一个实施例中唤醒虚拟陪伴对象上屏显示的界面示意图；

图5为一个实施例中生成相应的播放时间点对应的互动动画的流程示意图；

图6为一个实施例中确定可互动视频画面的视频语义的流程示意图；

图7为一个实施例中通过虚拟陪伴对象示出互动内容的时序图；

图8为一个实施例中基于情绪互动的流程示意图；

图9为一个实施例中为推荐虚拟陪伴对象的虚拟形象的流程示意图；

图10为一个实施例中虚拟形象推荐的流程示意图；

图11为一个具体的实施例中基于视频的交互方法的流程示意图；

图12为另一个实施例中基于视频的交互方法的流程示意图；

图13为一个实施例中基于视频的交互装置的结构框图；

图14为另一个实施例中基于视频的交互装置的结构框图；

图15为又一个实施例中基于视频的交互装置的结构框图；

图16为一个实施例中计算机设备的内部结构图；

图17为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于视频的人机交互方法，涉及人工智能(ArtificialIntelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例提供的基于视频的人机交互方法，主要涉及计算机视觉技术的图像识别、图像语义理解等。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例提供的基于视频的人机交互方法，主要涉及自然语言处理的语音识别、语义理解等。

本申请实施例提供的基于视频的交互方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。优选地，终端102为智能电视。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102和服务器104通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器104用于为终端102提供视频播放服务，还用于为终端102提供显示虚拟陪伴对象所需要的虚拟形象、关于虚拟陪伴对象的互动内容等。

在一个实施例中，终端102上安装有目标客户端，终端102能够通过该目标客户端实现视频播放等功能。可选地，目标客户端为终端102的操作系统中的目标客户端。可选地，该目标客户端可以为视频播放客户端、浏览器客户端、即时通信客户端等。服务器104为该目标客户端的后台服务器或者为提供云计算以及云存储等服务的云服务器。

可选地，服务器104对视频和虚拟陪伴对象进行管理，提供了一种基于视频进行交互的平台，终端102可以通过安装服务器提供的目标客户端接入到该平台中。用户可以使用终端在该目标客户端中观看视频，并与在该目标客户端的用户交互界面中显示的虚拟陪伴对象一同互动，获得虚拟陪伴对象陪同观影的用户体验。目标客户端可以是视频客户端。

在一个实施例中，终端102同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，该目标视频的视频画面未对虚拟陪伴对象形成遮挡；在播放该目标视频的过程中，响应于该目标视频播放至可互动视频画面，显示关于该虚拟陪伴对象的与该可互动视频画面匹配的互动内容。

由于将目标视频的视频画面与虚拟陪伴对象进行同屏显示，并且视频画面未对该虚拟陪伴对象形成遮挡，在播放该目标视频的过程中，当目标视频播放到可互动视频画面时，显示通过该虚拟陪伴对象输出与该可互动视频画面匹配的互动内容，实现虚拟陪伴对象基于剧情理解、智能地与目标视频中的可互动场景进行有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

本申请实施例可应用于播放视频的场景下，提供一种新颖的基于视频的交互方式。例如，在播放客户端视频的场景下，目标客户端中可显示有虚拟陪伴对象，虚拟陪伴对象具有拟人化的虚拟形象，如拟人化的3D形象。在用户观看客户端视频的过程中，该虚拟陪伴对象可位于视频画面的角落，陪同用户一同观看目标视频，并且会根据目标视频当前播放视频画面的剧情与用户进行一些互动，比如播放至搞笑视频画面时虚拟陪伴对象开始大笑，发出大笑的声音，又比如播放至恐怖的视频画面时虚拟陪伴对象开始抖动表示害怕。此外，还可以通过摄像头采集用户与虚拟陪伴对象互动时的画面与语音，识别用户情绪，根据用户情绪实现互动。

如图2所示，为一个实施例中播放至可互动视频画面时显示关于虚拟陪伴对象的互动内容的示意图。参照图2，图2所示的视频画面是恐怖情节场景，此时，位于视频画面左下角的虚拟陪伴对象同步作出“害怕”的表情与“抖动”的动作，与用户互动，营造一种陪同用户观看视频的氛围。

在一个实施例中，如图3所示，提供了一种基于视频的交互方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤302，同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，目标视频的视频画面未对虚拟陪伴对象形成遮挡。

其中，虚拟陪伴对象是具有虚拟形象的虚拟互动角色，虚拟形象可以是虚拟人物的形象，也可以是虚拟动物的形象。可选地，虚拟陪伴对象具有相应的人物特征：性别、身高、体重、年龄、身型、发型、性格、声音、风格、服饰、配饰等。在一个实施例中，用户可以使用终端在目标客户端中注册用户标识，登录了该目标客户端之后，在大量预设的或推荐的虚拟形象中选取一种，作为自己的虚拟陪伴对象的虚拟形象。例如，终端可以展示虚拟陪伴对象设置界面，在该设置界面中按自己的偏好设置虚拟陪伴对象的虚拟形象。在一个实施例中，还可以由服务器向用户推荐虚拟形象，以供用户选择。

同屏显示是指虚拟陪伴对象与当前播放的目标视频的视频画面同时显示在屏幕中，但目标视频的视频画面未对虚拟陪伴对象形成遮挡。可选地，虚拟陪伴对象可以位于目标视频的视频画面中。例如，如图2所示，终端在该视频画面中显示虚拟交互区域200，该虚拟交互区域200中显示该虚拟陪伴对象。其中，该虚拟交互区域200可以位于视频画面的某个角落，例如左下角，可以看出，虚拟交互区域对目标视频的视频画面形成了遮挡。在实际应用中，为减少虚拟交互区域对目标视频的视频画面造成的影响，可以将虚拟交互区域设置为透明，使得虚拟陪伴对象悬浮在目标视频的视频画面中。可选地，虚拟陪伴对象与视频画面也可以分开显示，以使虚拟陪伴对象不会对目标视频的视频画面形成遮挡。本申请实施例主要以虚拟陪伴对象位于视频画面的上层为例进行说明。

此外，无论是在终端播放目标视频的过程中，还是在目标客户端的其它用户界面中，虚拟陪伴对象所显示的位置可以按用户需求进行设置。例如，终端可以展示虚拟陪伴对象设置界面，用户在该设置界面中按自己的偏好设置虚拟陪伴对象显示的位置。又例如，用户还可以通过语音指令调整虚拟陪伴对象的显示位置。再例如，用户还可以触发对终端展示的虚拟陪伴对象的拖动操作与缩放操作，调整虚拟陪伴对象在屏幕上的显示位置与显示尺寸。

在一个实施例中，同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，包括：在视频客户端的用户界面中，显示处于唤醒状态的虚拟陪伴对象；响应于播放目标视频的触发操作，播放目标视频并显示目标视频的视频画面；其中，显示的虚拟陪伴对象位于视频画面的上层；或者，显示的虚拟陪伴对象位于未被视频画面遮挡的区域。

可选地，在虚拟陪伴对象处于未唤醒状态时，也就是当虚拟陪伴对象未上屏展示时，终端可以响应于唤醒虚拟陪伴对象的触发操作，在用户界面的一处位置，显示虚拟陪伴对象。在显示了该虚拟陪伴对象之后，再响应于播放目标视频的触发操作，播放目标视频，并将事先显示的虚拟陪伴对象与该目标视频的视频画面同屏显示。

可选地，终端可以先播放目标视频，显示目标视频的视频画面，在播放目标视频之后，响应于唤醒虚拟陪伴对象的触发操作，将事先显示的视频画面与唤醒的虚拟陪伴对象同屏显示。

在一种可能的实现方式中，终端可以依据唤醒该虚拟陪伴对象的触发操作，在显示屏上显示该虚拟陪伴对象。唤醒该虚拟陪伴对象的触发操作，可以是在虚拟陪伴对象的设置界面中触发唤醒虚拟陪伴对象上屏的操作，也可以是语音唤醒操作，即用户可以通过语音指令召唤虚拟陪伴对象上屏显示，与用户互动。在虚拟陪伴对象的设置界面中触发唤醒虚拟陪伴对象上屏的操作，例如可以是在设置界面中显示虚拟陪伴对象的激活开关，将该开关置为激活状态，使虚拟陪伴对象上屏显示，将该开关置为关闭状态，取消虚拟陪伴对象上屏显示。如图4所示，为一个实施例中唤醒虚拟陪伴对象上屏显示的界面示意图。参照图4，终端显示视频客户端的主界面，在虚拟陪伴对象未上屏的情况下，通过语音指令唤醒虚拟陪伴对象，虚拟陪伴对象显示在该主界面中。

步骤304，在播放目标视频的过程中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的互动内容，该互动内容与可互动视频画面相匹配。

其中，可互动视频画面是具有可互动情节的视频画面。此处的可互动情节指的是可让虚拟陪伴对象输出相应的互动内容的剧情。可互动情节可以是涉及目标视频中主要角色的情节，可以是包括指定背景、指定物品、指定动作或指定场景等等的情节，例如恐怖场景、搞笑场景、哀伤场景等等。可互动情节可以根据实际需要确定。

关于虚拟陪伴对象的互动内容与可互动视频画面相匹配，能够在播放目标视频的过程中，与可互动视频画面同步输出，从而让用户感受到虚拟陪伴对象一同观影的陪伴体验。该互动内容，可以采用互动动画的形式，也可以采用静态的互动图片的形式呈现。例如，终端可以在播放到可互动视频画面时，显示与该可互动视频画面匹配的互动动画或互动图片。可选地，为不影响用户观看视频，终端可以在当前播放的视频画面的角落处显示关于虚拟陪伴对象的互动内容。此外，虚拟陪伴对象的互动内容，可以包括虚拟陪伴对象的互动形态、互动语音、互动文字等，互动形态可以包括互动表情、互动动作等。

本实施例中，在用户观看目标视频的过程中，目标视频的视频画面与虚拟陪伴对象同屏显示，在目标视频播放至可互动视频画面时，通过虚拟陪伴对象输出与该可互动视频画面匹配的互动内容。也即是，虚拟陪伴对象将拟人化地对当前播放的视频画面作出相应的反应，使得用户与虚拟陪伴对象之间的交互过程更具有真实感，给用户营造一种虚拟陪伴对象陪同观看的氛围，同时还丰富了视频的播放形式。

上述基于视频的交互方法，将目标视频的视频画面与虚拟陪伴对象进行同屏显示，并且视频画面未对该虚拟陪伴对象形成遮挡。在播放该目标视频的过程中，当目标视频播放到可互动视频画面时，显示通过该虚拟陪伴对象输出与该可互动视频画面匹配的互动内容，实现虚拟陪伴对象智能地与目标视频中的可互动场景有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

在一个实施例中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的互动内容，包括：响应于目标视频播放至可互动视频画面，通过虚拟陪伴对象显示与可互动视频画面相匹配的互动形态，互动形态包括互动动作和互动表情中的至少一种。

本实施例中，通过虚拟陪伴对象输出的关于可互动视频画面的互动内容，可以采用可视化的互动形态的方式呈现。可选地，终端可以显示虚拟陪伴对象执行与当前的可互动视频画面匹配的互动动作，还可以显示虚拟陪伴对象做出与当前的可互动视频画面匹配的互动表情。

在一个实施例中，通过虚拟陪伴对象输出的关于可互动视频画面的互动内容，还可以采用语音的方式呈现。可选地，终端可以与显示的互动形态，同步播放与互动形态相符的音频内容，和/或，在虚拟陪伴对象处，同步显示与互动形态相符的互动文字。也就是说，在虚拟陪伴对象对当前播放的视频画面表现出反应时，还可以通过虚拟陪伴对象同步播放相应的音频内容以及显示该音频内容对应的互动文字，这样能够从视觉、听觉给观看视频的用户一种全方位沉浸式的陪伴体验，真实感更强烈。

在目标视频当前播放的视频画面为非互动视频画面时，虚拟陪伴对象还可以模仿真实陪伴对象，安静地陪伴用户观看视频。在一种可能的实现方式中，在播放目标视频的过程中，终端响应于目标视频播放至非互动视频画面，显示虚拟陪伴对象处于虚拟陪看状态。具体地，在播放目标视频的过程中，若目标视频未播放到可互动视频画面，则显示虚拟陪伴对象处于虚拟陪看状态。

为终端上的目标客户端提供服务的服务器，可以确定目标视频中可互动视频画面的播放时间点，该可互动视频画面的播放时间点，可以是该可互动视频画面所播放至的时间点，也就是该可互动视频画面的开始播放时间点。在确定与该可互动视频画面匹配的互动内容后，将该可互动视频画面的播放时间点与相应的互动内容对应存储。在终端启动播放目标视频时，终端可以从服务器获取该播放时间点与相应的互动内容，例如，终端可以在启动播放目标视频时，根据该目标视频的视频标识，从服务器获取该目标视频的可互动视频画面所在的播放时间点对应的互动内容。

在一种可能的实现方式中，上述方法还包括：确定目标视频中可互动视频画面所对应的播放时间点；获取与相应的播放时间点对应的互动内容，互动内容可以是通过虚拟陪伴对象示出的与可互动视频画面匹配的动画；步骤304包括：在播放目标视频的过程中，响应于播放时间点达到目标视频的可互动视频画面所在的播放时间点，在虚拟陪伴对象处，播放播放时间点对应的互动内容，以通过虚拟陪伴对象示出与可互动视频画面匹配的互动内容。

具体地，终端检测当前播放时间点是否为存在对应的互动内容的时间点，若是，则根据当前播放时间点获取相应的互动内容，与当前播放视频画面同屏显示。可选地，若当前播放时间点不是存在互动内容的时间点，则终端可以显示虚拟陪伴对象处于静态的虚拟陪伴状态。

举例来说，目标视频的播放时间点00:20:05、00:23:10、00:25:20均是可互动情节对应的可互动视频画面开始播放的时间点。

播放时间点00:20:05处为目标视频中主要角色在悲伤哭泣的场景，那么服务器可以事先生成关于虚拟陪伴对象的感到悲伤流泪的互动动画，并将该目标视频在此时播放时间点00:20:05与生成的该互动动画对应存储。那么，在目标视频播放至00:20:05时，可以开始显示对应的互动动画，若该互动动画持续时长为6秒，则该互动动画将会在00:20:11时结束播放。

播放时间点00:23:10为目标视频的背景是滑雪的场景，服务器可以事先生成关于虚拟陪伴对象在快乐地滑雪的互动动画，并将该目标视频在此时播放时间点00:23:10与生成的该互动动画对应存储。

类似地，第25分钟为目标视频中的人物在喝水的场景，服务器可以事先生成关于虚拟陪伴对象在畅快地喝水的互动动画，并将该目标视频在此时播放时间点00:25:20与生成的该互动动画对应存储。

终端播放目标视频时，每播放到相应的播放时间点，则获取关于虚拟陪伴对象的、与这些可互动视频画面匹配的互动内容，与当前播放至的可互动视频画面同步播放。

本实施例中，通过事先生成并获取可互动视频画面对应的互动内容，在播放到可互动视频画面所在的时间点时，显示关于虚拟陪伴对象的与相应的可互动视频画面匹配的互动内容，无需实时检测可互动视频画面并实时查找与之匹配的互动内容，能够避免互动内容显示的延迟，并且提升互动内容的准确性，让匹配的互动内容能够精准地与可互动视频画面同步显示。

进一步地，与相应的播放时间点对应的互动内容可以由服务器生成，也可以由终端生成。例如，在终端播放目标视频的过程中，可以由终端提前对后续的视频画面进行分析，当确定后续播放的视频画面为可互动视频画面时，确定可互动视频画面的视频语义，从预设的互动内容库中获取与该视频语义匹配的互动内容，实现实时显示互动内容。

在一种可能的实现方式中，如图5所示，与相应的播放时间点对应的互动内容的生成方式可以是：

步骤502，生成关于虚拟陪伴对象的互动内容以及相应的互动标签；

步骤504，确定可互动视频画面的视频语义；

步骤506，将可互动视频画面的视频语义与各互动内容的互动标签匹配，将匹配成功的互动标签所对应的互动内容，作为可互动视频画面所在的播放时间点对应的互动内容。

具体地，互动内容的互动标签用于表征互动内容的内容特征。互动标签可以体现该互动内容的主题，能够反映其中虚拟陪伴对象所执行的动作、所显示的表情、所显示的文字、所同步播放的音频内容等等。例如，虚拟陪伴角色的情感标签“大笑”、“难过”、“悲伤”等，又例如，虚拟陪伴角色的动作标签“滑雪”、“喝水”、“睡觉”等。可互动视频画面的视频语义用于表征可互动视频画面的内容特征，能够反映可互动视频画面描述的内容。例如，可互动视频画面中主要角色正在悲伤哭泣，可互动视频画面的背景是碧海蓝天的风景区，等等。

本实施例中，通过事先将可互动视频画面的视频语义与互动内容的互动标签匹配，将匹配成功的互动标签所对应的互动内容，作为可互动视频画面所在的播放时间点对应的互动内容，能够在播放到该可互动视频画面所在的播放时间点时，直接获取该播放时间点对应的互动内容，能够让匹配的互动内容能够精准地与可互动视频画面同步显示。

在另一种可能的实现方式中，为终端上的目标客户端提供服务的服务器，可以事先生成关于虚拟陪伴对象的互动内容，例如互动动画，并为这些互动动画，打上相应的互动标签，包括该互动动画的主题、互动中虚拟陪伴对象所执行的动作、所显示的表情、所显示的文字、所同步播放的音频内容等等。对于目标视频，服务器可以确定目标视频中可互动视频画面的视频语义以及相应的播放时间点，将该播放时间点与相应的视频语义对应存储。在终端播放目标视频的过程中，在播放到可互动视频画面的播放时间点时，终端获取该播放时间点对应的视频语义，将获取的视频语义与事先生成的关于虚拟陪伴对象的互动内容的标签进行匹配，将匹配成功的标签所对应的互动内容，与当前播放到的可互动视频画面同步播放。

需要说明的是，与当前可互动视频画面同步播放的互动内容，可以是多个互动内容。也就是说，与当前可互动视频画面的视频语义匹配的互动内容，可能有多个，终端可以与当前可互动视频画面，依次同步播放该多个互动内容。

此外，可互动视频画面的视频语义，可以由服务器确定，也可以由终端确定。在一种可能的实现方式中，如图6所示，确定可互动视频画面的视频语义，包括：

步骤602，确定目标视频中对应可互动情节的视频画面；

步骤604，当确定的视频画面中包括主要角色时，提取主要角色的人脸区域，对人脸区域进行表情识别，获得视频画面的情感语义标签；

步骤606，识别主要角色的动作，获得视频画面的动作语义标签；

步骤608，对视频画面进行语义分割，获得视频画面的背景语义标签；

步骤610，对视频画面进行目标检测，获得视频画面中的物品语义标签。

可以理解的是，可互动视频画面的视频语义，可以由上述的情感语义标签、动作语义标签、背景语义标签和物品语义标签中的至少一种构成。可互动视频画面是对应可互动情节的视频画面。对于上传到服务器的视频，可以采用人工方式确定可互动视频画面所在的视频片段，也可以通过服务器自动识别。例如，识别视频中主要角色所在的视频片段，作为可互动视频画面，又例如，识别关键剧情所在的视频片段，作为可互动视频画面。对于确定的可互动视频画面，若其中包括主要角色，可以通过人脸识别的方式，提取该可互动视频画面中主要角色的人脸区域，对该人脸区域进行表情识别，获得主要角色的情绪类别，作为视频画面的情感语义标签，如开心、难过、冷漠、生气等。此外，还可以通过图像处理的方式，对主要角色的动作进行特征提取，例如跳舞、跳伞、滑雪、比心等动作等。此外，还可以对视频画面进行目标检测，获得其中的关键物品，从而根据这些物品确定对应的物品语义标签，例如检测到视频画面中存在蛋糕、烟花等，可以确定相应的物品语义标签可以是“庆祝生日”，又例如检测到视频画面中存在玫瑰花、精美食物等，可以确定相应的物品语义标签可以是“浪漫氛围”。此外，还可以对视频画面进行语义分割，获得视频画面的背景语义标签，例如滑雪地、海滩、乡村田野等。需要说明的是，上述的表情识别、语义分割、目标检测、动作识别等都可以通过调用相应的接口实现，这些接口可以是基于神经网络的训练好的图像处理模型。

如图7所示，为一个实施例中通过虚拟陪伴对象示出互动内容的时序图。参照图7，该时序图涉及使用终端的用户、终端上的视频客户端，为视频客户端提供服务的服务器，以及视频运营人员。本实施例以由服务器识别视频语义进行说明。首先，对于上传到服务器存储的视频，可以由运营人员在提交视频时，选择需要识别的视频片段，也就是可互动视频画面所在的视频片段，还可以选择该视频片段需要识别的视频语义特征，包括情感语义、动作语义、背景语义和物品语义中的至少一种。将该需要识别的视频片段以及需要识别的视频语义特征类型提交到服务器，由服务器依次识别对应的视频语义特征以及该视频语义特征出现的播放时间点，将该播放时间点与相应的视频语义特征对应存储。在用户通过终端上的视频客户端观看视频时，从服务器请求视频数据，服务器返回视频数据以及对应可互动视频画面播放时间点的视频语义特征。在终端播放至这些时间点时，将相应的视频语义特征与各个互动动画的标签特征进行匹配，并与当前视频画面同步展示匹配成功的互动动画。

除了上述基于剧情理解的互动方式，本申请实施例还提供了基于情绪识别的互动方式。

在一个实施例中，上述方法还包括：在显示虚拟陪伴对象之后，响应于目标对象与虚拟陪伴对象进行交互时目标对象的情感类别为目标情感类别，显示关于虚拟陪伴对象的与目标情感类别匹配的互动内容。

具体地，在虚拟陪伴对象上屏显示后，在目标对象与虚拟陪伴对象进行交互的过程中，若目标对象的情感类别为目标情感类别，则终端可以显示虚拟陪伴对象的与该目标情感类别匹配的互动内容，这样可以模拟虚拟陪伴对象基于目标对象的情绪与目标对象实现互动。在目标对象与虚拟陪伴对象的交互过程，可以是基于语音的交互过程，还可以是基于图像的交互过程，还可以是结合语音与图像的交互过程。关于虚拟陪伴对象输出的与目标情感类别匹配的互动内容，可以让用户感受到虚拟陪伴对象时刻陪护的体验。该互动内容，可以采用互动动画的形式，也可以采用静态的互动图片的形式呈现。例如，终端可以在检测到目标对象的情感类别为目标情感类别时，播放与该目标情感类别匹配的互动动画或互动图片。可选地，为不影响用户使用视频客户端的其他功能，终端可以在视频客户端的用户界面的角落处播放关于虚拟陪伴对象的互动内容。此外，虚拟陪伴对象的互动内容，可以包括互动形态、互动语音、互动文字等，互动形态可以包括互动表情、互动动作等。

本实施例中，在用户与虚拟陪伴对象交互的过程中，通过虚拟陪伴对象输出与该目标对象的情感类别匹配的互动内容，也即是，虚拟陪伴对象将拟人化地对当前用户的情绪作出相应的反应，使得用户与虚拟陪伴对象之间的交互过程更具有真实感，给用户营造一种有虚拟陪伴对象时刻陪伴的氛围。

在一个实施例中，显示关于虚拟陪伴对象的与目标情感类别匹配的互动内容，包括：通过虚拟陪伴对象示出与目标情感类别匹配的互动形态，互动形态包括互动动作和互动表情中的至少一种。

本实施例中，通过虚拟陪伴对象输出的关于目标情感类别的互动内容，可以采用可视化的互动形态的方式呈现。可选地，终端可以显示虚拟陪伴对象执行与目标情感类别匹配的互动动作，还可以显示虚拟陪伴对象做出与目标情感类别匹配的互动表情。

在一个实施例中，通过虚拟陪伴对象示出与目标情感类别匹配的互动形态，包括：显示虚拟陪伴对象执行与目标情感类别匹配的互动动作，同步示出与目标情感类别匹配的互动表情，以及同步播放与目标情感类别匹配的音频内容，在虚拟陪伴对象处同步显示音频内容对应的互动文字。

本实施例中，在虚拟陪伴对象对目标对象的情绪表现出反应时，还可以同步播放相应的音频内容以及显示该音频内容对应的互动文字，这样能够从视觉、听觉给目标对象一种全方位沉浸式的陪伴体验，真实感更强烈。

在一个应用场景中，当目标对象未主动与虚拟陪伴对象交互的情况下，终端可以通过采集的目标对象的画面，识别目标对象的情感类别，通过虚拟陪伴对象显示与该识别出的情感类别匹配的互动内容。例如识别到目标对象情绪失落时，可以通过虚拟陪伴对象主动讲个笑话、主动安慰，如“您遇到什么事情了吗”，识别到目标对象高兴时，可以通过虚拟陪伴对象主动问候，如“可以和我分享下快乐吗？”。当目标对象答复虚拟陪伴对象后，终端基于目标对象的答复内容与通过采集的目标对象的画面所识别到的情绪，共同进行语义理解，同样地识别目标对象的情感类别，继续显示关于虚拟陪伴对象的与该情感类别匹配的互动内容。

也就是说，为更准确、全面地理解目标对象的情绪，终端可以采用语音与图像结合的方式，识别目标对象的情感。在一个实施例中，上述方法还包括：采集目标对象与虚拟陪伴对象进行交互时目标对象的互动语音以及与互动语音同步采集的互动画面；对互动语音进行语音识别，获得目标对象的说话内容；对互动画面进行表情识别，获得目标对象的表情类别；根据目标对象的说话内容和表情类别，确定目标对象的情感类别为目标情感类别，获取关于虚拟陪伴对象的与目标情感类别匹配的互动内容。

具体地，终端上可以设置有图像采集装置，例如摄像头，该摄像头实时采集与虚拟陪伴对象进行交互的目标对象的互动画面，根据互动画面中目标对象的人脸，进行表情识别，获得目标对象此时的表情类别。此外，若目标对象与虚拟陪伴对象进行语音交互，终端还实时采集目标对象的互动语音，获得目标对象的说话内容。在此基础上，结合目标对象的情绪与说话内容进行语义理解，确定目标对象的情感类别，从而获取应用应答目标对象的互动内容，包括回复文字与回复动画等等，完成与目标对象的互动。

在一个实施例中，获取关于虚拟陪伴对象的与目标情感类别匹配的互动内容，包括：生成关于虚拟陪伴对象的互动动画以及相应的互动标签；根据目标情感类别与各互动动画的互动标签之间的匹配度，确定与目标情感类别匹配的互动动画。

具体地，关于虚拟陪伴对象的互动动画是事先生成的，还可以事先生成这些互动动画的互动标签，包括该互动动画的主题、虚拟陪伴对象所执行的动作、所显示的表情、所显示的文字、所同步播放的音频内容等等。在与目标对象基于情绪交互的过程中，终端确定了目标对象的情感类别为目标情感类别时，将确定的目标情感类别与事先生成的关于虚拟陪伴对象的互动动画的标签进行匹配，按匹配度确定匹配成功的标签所对应的互动动画，采用匹配成功的标签所对应的互动动画，对目标对象进行答复，以实现基于情绪的互动过程。

本实施例中，结合互动画面与互动语音两者共同识别目标对象的情绪，相比于单独基于目标对象的语音进行互动的方式，互动感更强、陪伴感更友好。

在一个实施例中，上述方法还包括：获取样本人脸图像，使用样本人脸图像对基于神经网络的表情识别模型进行模型训练，得到训练好的表情识别模型；对互动画面进行表情识别，获得目标对象的表情类别，包括：从互动画面中提取出目标对象的人脸区域；通过训练好的表情识别模型，对人脸区域进行表情识别，得到目标对象的表情类别。

具体地，对于表情识别模型，可以事先通过样本人脸图像进行训练。终端或服务器从开放的人脸表情图像库中获得人脸图像进行预处理，例如裁剪或缩放处理，获得样本人脸图像，根据样本人脸图像以及相应的表情标签训练搭建的表情识别模型。例如，样本人脸图像包括10个人物不同表情的图像，表情包括愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶等一共m种，每个人物每种表情可以有n张图像，那么一共可以生成10*m*n张样本人脸图像。

如图8所示，为一个实施例中基于情绪互动的流程示意图。参照图8，具体表情识别的流程如下：(1)对开放的人脸表情图像库中的人脸表情图像依次进行预处理、特征提取后输入至搭建好的表情识别模型，进行模型训练，得到训练好的表情识别模型；(2)目标对象与客户端提供的虚拟陪伴对象进行互动；(3)客户端将互动过程中采集到的互动画面、互动语音发送到服务器；(4)服务器对于互动语音，进行语音识别，获得目标对象的说话内容；(5)服务器对于互动画面，获取视频帧后进行图像预处理、特征提取后，输入到训练好的表情识别模型，输出对应各类表情的概率，根据该概率获得目标对象的表情类别；(6)服务器根据表情类别与说话内容进行语义理解，确定目标对象的目标情感类别；(7)服务器向客户端返回与目标情感类别匹配的互动内容，包括互动动画与答复语音、文字等；(8)客户端播放答复语音、文字以及匹配的互动动画，完成互动。

除了上述基于剧情理解与情绪识别的互动方式，本申请实施例还提供了智能推荐虚拟陪伴对象的虚拟形象的方式。

在一个实施例中，在显示虚拟陪伴对象之后，响应于切换虚拟陪伴对象的虚拟形象的触发操作，显示虚拟形象推荐列表；响应于选中虚拟形象推荐列表中目标虚拟形象的触发操作，以目标虚拟形象显示虚拟陪伴对象。

其中，切换虚拟陪伴对象的虚拟形象的触发操作，可以是快捷键操作，例如可以通过遥控器上的功能按键，切换虚拟陪伴对象的虚拟形象。还可以通过语音指令控制切换虚拟形象，如“换一个新的衣服”。还可以通过展示的虚拟形象设置界面，对虚拟陪伴对象的虚拟形象进行调整。终端可以在检测到切换虚拟陪伴对象的虚拟形象的触发操作时，显示虚拟形象推荐列表。当然终端也可以在检测到切换虚拟陪伴对象的虚拟形象的触发操作时，直接显示为虚拟陪伴对象更换的虚拟形象。对于显示出的虚拟形象推荐列表，终端进一步响应于选中虚拟形象推荐列表中目标虚拟形象的触发操作，以目标虚拟形象显示虚拟陪伴对象。虚拟形象推荐列表中可以包括多个默认的虚拟形象，还可以包括为当前用户推荐的多个虚拟形象。

为了向用户智能推荐虚拟陪伴对象的虚拟形象，终端或服务器可以结合用户的观影特征与画像特征，确定包括多个虚拟形象的虚拟形象推荐列表。本实施例以终端为例进行说明：

在一个实施例中，如图9所示，本申请实施例提供的方法还可以包括为目标对象推荐虚拟陪伴对象的虚拟形象的步骤，具体包括：

步骤902，获取与虚拟陪伴对象进行交互的目标对象的历史视频播放数据；

步骤904，根据历史视频播放数据提取目标对象的观影特征；

步骤906，将目标对象的画像特征与观影特征，与虚拟陪伴对象的各个虚拟形象的形象特征进行匹配，根据匹配度大于预设阈值的虚拟形象生成虚拟形象推荐列表。

具体地，终端可以根据当前登录的用户标识，获取与该用户标识对应的历史视频播放数据，该用户标识代表了与虚拟陪伴对象交互的目标对象。该用户标识对应的历史视频播放数据，反映了该目标对象对于视频的偏好。当然，终端也可以直接从本地获取历史视频播放数据。该历史视频播放数据，是历史视频播放记录，根据该历史视频播放记录可以获得关于该目标对象的历史播放视频的类型、风格，例如动画片、可爱风格、喜剧片、现代都市剧、偶像剧等，还可以获得目标对象喜欢的演员、导演等，还可以获得过去一段时间目标对象播放视频的具体时间范围、播放视频的频次等信息，这些信息构成了目标对象的观影特征。

此外，终端还可以获取目标对象的画像特征，例如性别、年龄、是否独居等。事先生成的虚拟陪伴对象的虚拟形象，都具有相应的形象特征，例如人物特征：性别、身高、体重、年龄、身型、发型、性格、声音、风格、服饰、配饰等，终端将目标对象的观影特征与画像特征，共同作为目标对象的特征，与各个虚拟形象的形象特征进行匹配，获得匹配度大于预设阈值的虚拟形象，生成虚拟形象推荐列表。进一步地，对于匹配度大于预设阈值的虚拟形象，还可以进一步按照匹配度从高至低的顺序排序，按排序结果挑选若干个虚拟形象，生成虚拟形象推荐列表。

如图10所示，为一个实施例中虚拟形象推荐的流程示意图。参照图10，该流程包括以下步骤：(1)搜集行为日志，搜集用户过去一段时间选择观看视频的历史数据，以及用户的年龄、性别等画像信息。(2)特征工程，通过第一步的数据提取用户的观影特征，如爱看的视频类型、喜欢的人物风格等。(3)召回候选集，根据用户的观影特征与画像特征，与虚拟陪伴对象的虚拟形象的特征进行匹配，完成对推荐列表的初步筛选。(4)候选排序，针对上一步的候选集合，按匹配度从高至低的顺序排序，获得最终的推荐列表。(5)推荐结果展示，用于展示最终推荐的虚拟形象列表。

如图11所示，在一个具体的实施例中，本申请实施例提供的基于视频的交互方法，包括以下步骤：

步骤1102，获取唤醒虚拟陪伴对象的语音指令；

步骤1104，在接收到该语音指令之后，获取与虚拟陪伴对象进行交互的目标对象的历史视频播放数据，根据历史视频播放数据提取目标对象的观影特征；

步骤1106，将目标对象的画像特征与观影特征，与虚拟陪伴对象的各个虚拟形象的形象特征进行匹配，根据匹配度大于预设阈值的虚拟形象在视频客户端的用户界面中，显示处于唤醒状态的虚拟陪伴对象；

步骤1108，在目标对象未与虚拟陪伴对象交互的情况下，采集目标对象的互动画面，对互动画面进行表情识别，获得目标对象的表情类别，根据互动动画的互动标签，获取并显示关于虚拟陪伴对象的与表情类别匹配的互动动画；

步骤1110，在目标对象与虚拟陪伴对象交互的情况下，采集目标对象与虚拟陪伴对象进行交互时目标对象的互动语音以及与互动语音同步采集的互动画面；对互动语音进行语音识别，获得目标对象的说话内容；对互动画面进行表情识别，获得目标对象的表情类别；根据说话内容和表情类别，确定目标对象的情感类别为目标情感类别，根据互动动画的互动标签，获取并显示关于虚拟陪伴对象的与目标情感类别匹配的互动动画；

步骤1112，生成关于虚拟陪伴对象的互动动画以及相应的互动标签；

步骤1114，确定目标视频中对应可互动情节的可互动视频画面，根据可互动视频画面的情感语义标签、背景语义标签、物品语义标签、动作语义标签，获得可互动视频画面的视频语义；

步骤1116，将视频语义与各互动动画的互动标签匹配，将匹配成功的互动标签所对应的互动动画，作为可互动视频画面所在的播放时间点对应的互动动画；

步骤1118，播放目标视频，在目标视频的视频画面中显示处于唤醒状态的虚拟陪伴对象。

步骤1120，在播放目标视频的过程中，响应于目标视频播放至非互动视频画面，显示虚拟陪伴对象处于虚拟陪看状态。

步骤1122，在播放目标视频的过程中，响应于目标视频播放至可互动视频画面所对应的播放时间点，在虚拟陪伴对象处，播放播放时间点对应的互动动画。

上述实施例中，将目标视频的视频画面与虚拟陪伴对象进行同屏显示，并且视频画面未对该虚拟陪伴对象形成遮挡，在播放该目标视频的过程中，当目标视频播放到可互动视频画面时，显示通过该虚拟陪伴对象输出与该可互动视频画面匹配的互动内容，实现虚拟陪伴对象智能地与目标视频中的可互动场景有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

如图12所示，为一个实施例中基于视频的交互方法的流程示意图。参照图12，包括以下步骤：步骤1202，用户使用语音指令控制虚拟陪伴对象上屏显示；步骤1204，终端根据用户的画像特征、观影特征进行分析，为虚拟陪伴对象推荐虚拟形象；步骤1206，采集用户的互动画面，结合表情识别与语音识别进行用户情绪分析，根据情绪进行互动；步骤1208，用户启动视频播放；步骤1210，在观影模式下，启动虚拟陪伴对象的虚拟陪伴功能，基于剧情理解进行互动。

基于上述各个实施例，本申请实施例提供的方法提供了以下几种交互场景：

(1)在终端未开启摄像头的情况下，基于语音识别与虚拟陪伴对象进行互动；(2)在终端开启摄像头未播放视频的情况下，在用户未主动互动时，基于实时采集的互动画面，进行用户情绪分析，虚拟陪伴对象主动发起互动，显示关于虚拟陪伴对象的互动动画；(3)在用户答复了虚拟陪伴对象时，基于实时采集的互动画面与互动语音，结合二者共同进行用户情绪分析，实现与虚拟陪伴对象的互动；(4)在用户播放视频的过程中，基于对当前播放至的视频画面的剧情理解，实现陪同观影模式下与虚拟陪伴对象的互动。

需要说明的是，虚拟陪伴对象与用户的互动，均是通过终端显示关于虚拟陪伴对象的互动内容、播放互动语音、显示互动文字、互动表情等可视化、可感知的方式呈现的，从而营造一种较为真实的陪伴体验。

此外，互动场景(4)也可以与互动场景(1)至(3)结合，例如，在用户播放视频的过程中，虚拟陪伴对象不仅可以基于剧情理解与当前用户互动，还可以基于采集的互动画面与互动语音，进行用户情绪分析，基于情绪与当前观看视频的用户进行互动。

目前，语音助手基本上都是基于语音的，没有具体的形象，是一种“黑屏”互动，陪伴感欠缺，通过本申请实施例提供的上述互动场景，可以解决儿童和老人这部分群体缺少陪伴感的问题，还能够智能推荐虚拟陪伴对象的虚拟形象。此外，除了一般的语音对话互动，还可以通过摄像头识别用户的表情进行情绪分析，从而实现虚拟陪伴对象与用户的主动互动，例如可以进行安慰、主动讲个笑话等。此外，在观看视频或电视的过程中，也可以进行陪看，基于剧情理解，在观看到一些时间点时可以进行一些互动，比如播放到恐怖画面的时间点时，虚拟陪伴对象可以表现“这里有点害怕”，播放到搞笑画面的时间点时，虚拟陪伴对象可以表现出“大笑”等等。虚拟陪伴对象将拟人化地对当前播放的视频画面作出相应的反应，使得用户与虚拟陪伴对象之间的交互过程更具有真实感，给用户营造一种虚拟陪伴对象陪同观看的氛围，同时还丰富了视频的播放形式。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于视频的交互方法的基于视频的交互装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于视频的交互装置实施例中的具体限定可以参见上文中对于基于视频的交互方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种基于视频的交互装置1300，包括：显示模块1302和互动模块1304，其中：

显示模块1302，用于同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，目标视频的视频画面未对虚拟陪伴对象形成遮挡；

互动模块1304，用于在播放目标视频的过程中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的互动内容，互动内容与可互动视频画面相匹配。

在一个实施例中，互动模块1304，还用于响应于目标视频播放至可互动视频画面，显示通过虚拟陪伴对象示出与可互动视频画面匹配的互动形态，互动形态包括互动动作和互动表情中的至少一种。

在一个实施例中，互动模块1304，还用于与显示的互动形态，同步播放与互动形态相符的音频内容，和/或，在虚拟陪伴对象处，同步显示与互动形态相符的互动文字。

在一个实施例中，显示模块1302，具体用于在视频客户端的用户界面中，显示处于唤醒状态的虚拟陪伴对象；响应于播放目标视频的触发操作，播放目标视频并显示目标视频的视频画面；其中，显示的虚拟陪伴对象位于视频画面的上层；或者，显示的虚拟陪伴对象位于未被视频画面遮挡的区域。

在一个实施例中，互动模块1304，还用于在播放目标视频的过程中，响应于目标视频播放至非互动视频画面，显示虚拟陪伴对象处于虚拟陪看状态。

在一个实施例中，基于视频的交互装置1300还包括：

互动动画获取模块，用于确定目标视频中可互动视频画面所对应的播放时间点；获取与相应的播放时间点对应的互动内容，互动内容是通过虚拟陪伴对象示出与可互动视频画面匹配的动画；

互动模块，还用于在播放目标视频的过程中，响应于播放时间点达到目标视频的可互动视频画面所在的播放时间点，在虚拟陪伴对象处，播放播放时间点对应的互动内容，以通过虚拟陪伴对象示出与可互动视频画面匹配的互动内容。

在一个实施例中，互动动画获取模块，还用于生成关于虚拟陪伴对象的互动动画以及相应的互动标签；确定可互动视频画面的视频语义；将视频语义与各互动动画的互动标签匹配，将匹配成功的互动标签所对应的互动动画，作为可互动视频画面所在的播放时间点对应的互动动画。

在一个实施例中，互动动画获取模块，还用于确定目标视频中对应可互动情节的视频画面；当确定的视频画面中包括主要角色时，提取主要角色的人脸区域，对人脸区域进行表情识别，获得视频画面的情感语义标签；和/或，识别主要角色的动作，获得视频画面的动作语义标签；和/或，对视频画面进行语义分割，获得视频画面的背景语义标签；和/或，对视频画面进行目标检测，获得视频画面中的物品语义标签。

在一个实施例中，互动模块1304，还用于在显示虚拟陪伴对象之后，响应于目标对象与虚拟陪伴对象进行交互时目标对象的情感类别为目标情感类别，显示关于虚拟陪伴对象的与目标情感类别匹配的互动内容。

在一个实施例中，互动模块1304，还用于显示通过虚拟陪伴对象示出与目标情感类别匹配的互动形态，互动形态包括互动动作和互动表情中的至少一种。

在一个实施例中，互动模块1304，还用于显示虚拟陪伴对象执行与目标情感类别匹配的互动动作，同步示出与目标情感类别匹配的互动表情，以及同步播放与目标情感类别匹配的音频内容，在虚拟陪伴对象处同步显示音频内容对应的互动文字。

在一个实施例中，如图14所示，装置1300还包括：

情绪识别模块1306，用于采集目标对象与虚拟陪伴对象进行交互时目标对象的互动语音以及与互动语音同步采集的互动画面；对互动语音进行语音识别，获得目标对象的说话内容；对互动画面进行表情识别，获得目标对象的表情类别；根据说话内容和表情类别，确定目标对象的情感类别为目标情感类别，获取关于虚拟陪伴对象的与目标情感类别匹配的互动内容。

在一个实施例中，情绪识别模块1306，还用于生成关于虚拟陪伴对象的互动动画以及相应的互动标签；根据目标情感类别与各互动动画的互动标签之间的匹配度，确定与目标情感类别匹配的互动动画。

在一个实施例中，装置1300还包括：

表情识别模型训练模块，用于获取样本人脸图像，使用样本人脸图像对基于神经网络的表情识别模型进行模型训练，得到训练好的表情识别模型；

情绪识别模块，还用于从互动画面中提取出目标对象的人脸区域；通过训练好的表情识别模型，对人脸区域进行表情识别，得到目标对象的表情类别。

在一个实施例中，如图15所示，装置1300还包括虚拟形象推荐模块1308，用于在显示虚拟陪伴对象之后，响应于切换虚拟陪伴对象的虚拟形象的触发操作，显示虚拟形象推荐列表；响应于选中虚拟形象推荐列表中目标虚拟形象的触发操作，以目标虚拟形象显示虚拟陪伴对象。

在一个实施例中，虚拟形象推荐模块1308，还用于获取与虚拟陪伴对象进行交互的目标对象的历史视频播放数据；根据历史视频播放数据提取目标对象的观影特征；将目标对象的画像特征与观影特征，与虚拟陪伴对象的各个虚拟形象的形象特征进行匹配，根据匹配度大于预设阈值的虚拟形象生成虚拟形象推荐列表。

上述基于视频的交互装置1300，将目标视频的视频画面与虚拟陪伴对象进行同屏显示，并且视频画面未对该虚拟陪伴对象形成遮挡，在播放该目标视频的过程中，当目标视频播放到可互动视频画面时，显示通过该虚拟陪伴对象输出与该可互动视频画面匹配的互动内容，实现虚拟陪伴对象智能地与目标视频中的可互动场景有效互动，体现虚拟陪伴对象陪同观看目标视频的用户体验，提升了人机交互体验。

上述基于视频的交互装置1300中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1所示的服务器104，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关于虚拟陪伴对象的互动动画的相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频的交互方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1所示的终端，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于视频的交互方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16、17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，目标视频的视频画面未对虚拟陪伴对象形成遮挡；在播放目标视频的过程中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的与可互动视频画面匹配的互动内容。

在一个实施例中，处理器执行计算机程序时还实现上述任意一个或多个实施例的基于视频的交互方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，目标视频的视频画面未对虚拟陪伴对象形成遮挡；在播放目标视频的过程中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的互动内容，互动内容与可互动视频画面相匹配。

在一个实施例中，计算机程序被处理器执行时还实现上述任意一个或多个实施例的基于视频的交互方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，目标视频的视频画面未对虚拟陪伴对象形成遮挡；在播放目标视频的过程中，响应于目标视频播放至可互动视频画面，显示关于虚拟陪伴对象的互动内容，互动内容与可互动视频画面相匹配。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于视频的交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于所述目标视频播放至可互动视频画面，显示关于所述虚拟陪伴对象的互动内容，包括：

响应于所述目标视频播放至可互动视频画面，通过所述虚拟陪伴对象示出与所述可互动视频画面匹配的互动形态，所述互动形态包括互动动作和互动表情中的至少一种。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

与显示的所述互动形态，同步播放与所述互动形态相符的音频内容，和/或，在所述虚拟陪伴对象处，同步显示与所述互动形态相符的互动文字。

4.根据权利要求1所述的方法，其特征在于，所述同屏显示虚拟陪伴对象与当前播放的目标视频的视频画面，包括：

在视频客户端的用户界面中，显示处于唤醒状态的虚拟陪伴对象；

响应于播放目标视频的触发操作，播放所述目标视频并显示所述目标视频的视频画面；其中，显示的所述虚拟陪伴对象位于所述视频画面的上层；或者，显示的所述虚拟陪伴对象位于未被所述视频画面遮挡的区域。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在播放所述目标视频的过程中，响应于所述目标视频播放至非互动视频画面，显示所述虚拟陪伴对象处于虚拟陪看状态。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述目标视频中可互动视频画面所对应的播放时间点；

获取与相应的播放时间点对应的互动内容，所述互动内容是通过所述虚拟陪伴对象示出的与所述可互动视频画面匹配的动画；

所述在播放所述目标视频的过程中，响应于所述目标视频播放至可互动视频画面，显示关于所述虚拟陪伴对象的互动内容，包括：

在播放所述目标视频的过程中，响应于播放时间点达到所述目标视频的可互动视频画面所在的播放时间点，在所述虚拟陪伴对象处，播放所述播放时间点对应的互动内容，以通过所述虚拟陪伴对象示出与所述可互动视频画面匹配的互动内容。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

生成关于所述虚拟陪伴对象的互动内容以及相应的互动标签；

确定所述可互动视频画面的视频语义；

将所述可互动视频画面的视频语义与各所述互动内容的互动标签匹配，将匹配成功的互动标签所对应的互动内容，作为所述可互动视频画面所在的播放时间点对应的互动内容。

8.根据权利要求7所述的方法，其特征在于，所述确定所述可互动视频画面的视频语义，包括：

确定所述目标视频中对应可互动情节的视频画面；

当确定的所述视频画面中包括主要角色时，提取所述主要角色的人脸区域，对所述人脸区域进行表情识别，获得所述视频画面的情感语义标签；和/或

识别所述主要角色的动作，获得所述视频画面的动作语义标签；和/或

对所述视频画面进行语义分割，获得所述视频画面的背景语义标签；和/或

对所述视频画面进行目标检测，获得所述视频画面中的物品语义标签。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在显示所述虚拟陪伴对象之后，响应于目标对象与所述虚拟陪伴对象进行交互时所述目标对象的情感类别为目标情感类别，显示关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容。

10.根据权利要求9所述的方法，其特征在于，所述显示关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容，包括：

显示通过所述虚拟陪伴对象示出与所述目标情感类别匹配的互动形态，所述互动形态包括互动动作和互动表情中的至少一种。

11.根据权利要求10所述的方法，其特征在于，所述显示通过所述虚拟陪伴对象示出与所述目标情感类别匹配的互动形态，包括：

显示所述虚拟陪伴对象执行与所述目标情感类别匹配的互动动作，同步示出与所述目标情感类别匹配的互动表情，以及同步播放与所述目标情感类别匹配的音频内容，在所述虚拟陪伴对象处同步显示所述音频内容对应的互动文字。

12.根据权利要求9所述的方法，其特征在于，所述方法还包括：

采集所述目标对象与所述虚拟陪伴对象进行交互时所述目标对象的互动语音以及与所述互动语音同步采集的互动画面；

对所述互动语音进行语音识别，获得所述目标对象的说话内容；

对所述互动画面进行表情识别，获得所述目标对象的表情类别；

根据所述说话内容和所述表情类别，确定所述目标对象的情感类别为目标情感类别，获取关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容。

13.根据权利要求12所述的方法，其特征在于，所述获取关于所述虚拟陪伴对象的与所述目标情感类别匹配的互动内容，包括：

生成关于所述虚拟陪伴对象的互动动画以及相应的互动标签；

根据所述目标情感类别与各所述互动动画的互动标签之间的匹配度，确定与所述目标情感类别匹配的互动动画。

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

获取样本人脸图像，使用所述样本人脸图像对基于神经网络的表情识别模型进行模型训练，得到训练好的表情识别模型；

所述对所述互动画面进行表情识别，获得所述目标对象的表情类别，包括：

从所述互动画面中提取出所述目标对象的人脸区域；

通过所述训练好的表情识别模型，对所述人脸区域进行表情识别，得到所述目标对象的表情类别。

15.根据权利要求1至14任一项所述的方法，其特征在于，所述方法还包括：

在显示所述虚拟陪伴对象之后，响应于切换所述虚拟陪伴对象的虚拟形象的触发操作，显示虚拟形象推荐列表；

响应于选中所述虚拟形象推荐列表中目标虚拟形象的触发操作，以所述目标虚拟形象显示所述虚拟陪伴对象。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

获取与所述虚拟陪伴对象进行交互的目标对象的历史视频播放数据；

根据所述历史视频播放数据提取所述目标对象的观影特征；

将所述目标对象的画像特征与所述观影特征，与所述虚拟陪伴对象的各个虚拟形象的形象特征进行匹配，根据匹配度大于预设阈值的虚拟形象生成虚拟形象推荐列表。

17.一种基于视频的交互装置，其特征在于，所述装置包括：

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。

20.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。