CN111954087B

CN111954087B - 视频中图像的截取方法和装置、存储介质和电子设备

Info

Publication number: CN111954087B
Application number: CN202010844933.4A
Authority: CN
Inventors: 王志峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2021-05-11
Anticipated expiration: 2040-08-20
Also published as: CN111954087A

Abstract

本发明公开了一种视频中图像的截取方法和装置、存储介质和电子设备，包括：显示目标视频和图像截取交互对象；在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；显示上述被截取的目标图像。采用上述技术方案，解决了相关技术中，用户对感兴趣视频进行截图、制作动图时，如果用户感兴趣的图片、需要生成的动图比较多时，会给用户带来比较大的操作成本，导致用户体验差的技术问题。

Description

视频中图像的截取方法和装置、存储介质和电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频中图像的截取方法和装置、存储介质和电子设备。

背景技术

目前，用户在看完一个非常喜欢的视频后，往往会对其中某些情节印象深刻感触颇深，有时候会想要在社交平台上就某热门情景和有趣部分发帖参与讨论等，此时就需要视频中的截图和动图；但一部电影、一集电视剧、一集综艺等的播放时长较长，让用户自己通过回看截图或制作动图，这种处理方式比较耗时，且操作相对复杂，无法满足用户需求，使得用户的体验较差。现有技术更多的需要用户去人为操作，当看的视频很长，想要截的图或生成的gif比较多时，会给用户带来额外较大的操作成本，用户体验不好。

针对相关技术中，用户对感兴趣视频进行截图、制作动图时，如果用户感兴趣的图片、需要生成的动图比较多时，会给用户带来比较大的操作成本，导致用户体验差的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频中图像的截取方法和装置、存储介质和电子设备，以至少解决相关技术中，用户对感兴趣视频进行截图、制作动图时，如果用户感兴趣的图片、需要生成的动图比较多时，会给用户带来比较大的操作成本，导致用户体验差的技术问题。

根据本发明实施例的一个方面，提供了一种视频中图像的截取方法，包括：显示目标视频和图像截取交互对象；在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；显示上述被截取的目标图像。

根据本发明实施例的另一方面，还提供了一种视频中图像的截取装置，包括：第一显示单元，用于显示目标视频和图像截取交互对象；第一获取单元，用于在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；第二显示单元，用于显示上述被截取的目标图像。

根据本发明实施例的又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频中图像的截取方法的各种可选实现方式中提供的方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述视频中图像的截取方法。

通过本发明，显示要播放的目标视频，以及显示用于和用户交互的图像截取交互对象，当用户需要截取目标图像时，对图像截取交互对象执行目标交互操作，此时，获取根据上述目标视频的历史播放信息确定的在上述目标视频中的目标图像，并显示上述被截取的目标图像。通过上述方式，当获取到目标交互操作时，即可根据目标视频的历史播放信息确定出目标图像，避免了用户通过回放视频的方式，来截取感兴趣的图像，减少了用户的操作成本，解决了相关技术中，用户对感兴趣视频进行截图、制作动图时，如果用户感兴趣的图片、需要生成的动图比较多时，会给用户带来比较大的操作成本，导致用户体验差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频中图像的截取方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频中图像的截取方法的流程示意图；

图3是根据本发明实施例的一种可选的图像截取交互对象的示意图；

图4是根据本发明实施例的一种可选的目标静态图像的示意图；

图5是根据本发明实施例的一种可选的第一界面的示意图；

图6是根据本发明实施例的一种可选的第二界面的示意图；

图7是根据本发明实施例的一种可选的生成目标静态图像的流程示意图；

图8是根据本发明实施例的一种可选的训练神经网络的流程示意图；

图9是根据本发明实施例的一种可选的第三界面的示意图；

图10是根据本发明实施例的一种可选的第四界面的示意图；

图11是根据本发明实施例的一种可选的生成目标动态图像的流程示意图；

图12是根据本发明实施例的一种可选的对视频片段中的每一帧图像进行处理的流程示意图；

图13是根据本发明实施例的一种可选的目标动态图像的示意图；

图14是根据本发明实施例的一种可选的视频中图像的截取装置的结构示意图；

图15是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频中图像的截取方法。可选地，上述视频中图像的截取方法可以但不限于应用于如图1所示的应用环境中。如图1所示，终端设备102显示目标视频和图像截取交互对象，在获取到对上述图像截取交互对象执行的目标交互操作的情况下，服务器104获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；终端设备102显示上述被截取的目标图像。以上仅为一种示例，本申请实施例在此不作限定。

需要说明的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、台式计算机、台式电脑、智能音箱、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过网络进行直接或间接地连接，本申请在此不做限制。其中，对于上述终端设备和上述服务器的数量不做限制。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述只是一种示例，本实施例对此不做任何限定。

需要说明的是，本发明实施例中的方法会涉及到人工智能技术，例如，在以下描述中涉及到的对热图神经网络模型、热词神经网络模型、对象关注度神经网络模型的训练过程中、确定每一帧图像的帧图像取值等场景。

需要说明的是，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可选地，在本实施例中，作为一种可选的实施方式，该方法可以由服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行，本实施例中，以由终端设备(例如，上述终端设备102)执行为例进行说明。如图2所示，上述视频中图像的截取方法的流程可以包括步骤：

步骤S202，显示目标视频和图像截取交互对象。

步骤S204，在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像。

步骤S206，显示上述被截取的目标图像。

可选地，上述图像截取交互对象可以理解为用户截取目标图像的一个入口，该图像截取交互对象可以为触控按钮或者组件。上述目标交互操作可以为触控操作或点击操作等。上述目标图像可以是一张或者多张静态图像，或者，上述目标图像还可以为一个或多个动态图像(如gif图)。

如图3所示，在视频播放客户端的显示界面显示正在播放的目标视频的信息，以及显示上述图像截取交互对象。当用户点击或者触摸该图像截取交互对象时，根据目标视频的历史播放信息，确定要截取的目标图像，同时，如图4所示，在视频播放客户端直接弹出被截取的目标图像，其中，弹出的目标图像可以不与当前播放的画面相同或相似，且该目标对象可以为静态图像，也可以为动态图像。

需要说明的是，图3所示的图像截取交互对象30的位置以及表现形式仅为一种示例，本实施例在此不作任何限定。其中，图像截取交互对象30可以包括第一交互对象302和第二交互对象304。

还需要说明的是，图3以视频播放客户端为例进行说明，但是本实施例并不仅仅限定于视频播放客户端，还可以为视频播放网站、新闻客户端、短视频应用程序、能够播放视频的社交软件等，在此不作任何限定。

通过本实施例，显示要播放的目标视频，以及显示用于和用户交互的图像截取交互对象，当用户需要截取目标图像时，对图像截取交互对象执行目标交互操作，此时，获取根据上述目标视频的历史播放信息确定的在上述目标视频中的目标图像，并显示上述被截取的目标图像。通过上述方式，当获取到目标交互操作时，即可根据目标视频的历史播放信息确定出目标图像，避免了用户通过回放视频的方式，来截取感兴趣的图像，减少了用户的操作成本，解决了相关技术中，用户对感兴趣视频进行截图、制作动图时，如果用户感兴趣的图片、需要生成的动图比较多时，会给用户带来比较大的操作成本，导致用户体验差的技术问题。

可选地，在本实施例中，上述显示目标视频和图像截取交互对象，包括：显示上述目标视频和第一交互对象，其中，上述第一交互对象用于指示截取静态图像，上述图像截取交互对象包括上述第一交互对象；在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，包括：在获取到对上述第一交互对象执行的第一交互操作的情况下，获取上述目标视频中被截取的目标静态图像，其中，上述目标交互操作包括上述第一交互操作，上述目标图像包括上述目标静态图像，上述目标静态图像是根据上述目标视频的第一播放信息和/或上述目标视频的第一视频信息在上述目标视频中确定的图像，上述第一播放信息包括：上述目标视频中每一帧图像的弹幕信息，上述第一视频信息包括：上述目标视频中的每一帧图像，和/或，上述每一帧图像中识别到的对象的信息。

可选地，上述第一交互对象可以理解为一种智能截图按钮。上述目标图像包括目标静态图像。

如图3所示，在视频播放客户端的显示界面显示正在播放的目标视频的信息，以及显示第一交互对象，该第一交互对象用于当用户点击或者触摸该第一交互对象时，可以根据目标视频中每一帧图像的弹幕信息，目标视频中的每一帧图像，和/或，目标视频中每一帧图像中识别到的对象的信息(如演员关注度信息)，确定出要截取的目标静态图像。

通过上述第一播放信息和/或上述第一视频信息截取的目标静态图像，可以理解为时下比较热门的，讨论度、热度比较高的图像。

在一种可能的实施例中，如图5所示，获取对上述第一交互对象的第一操作，在上述视频播放客户端显示第一界面，并在上述第一界面显示数量设置组件，和/或权重设置组件，其中，上述数量设置组件用于设置上述目标静态图像的数量，上述权重设置用于设置生成上述目标静态图像的不同影响因素的权重，该影响因素包括上述第一播放信息和/或上述目标视频的第一视频信息。

在一种可能的实施例中，如图6所示，当用户点击或触摸上述第一交互对象时，弹出第二界面，使用户在该第二界面中可以自由的选择使用智能截图功能，或者，使用实时截图功能。如果用户选择的是实时截图，则按照常规方式将当前播放的画面截取出来，如果用户选择的是智能截图，则按照上述方式将上述目标静态图像截取出来。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，用户可以按照需求选择多种截图模式，当用户选择智能截图时，可以根据弹幕信息，视频中的演员关注度信息，每一帧图像，来确定出要截取的目标静态图像，可以使用户获取当下比较热门的图像，提高了用户体验。

可选地，在本实施例中，上述方法还包括：获取对上述第一交互对象执行的上述第一交互操作，其中，上述第一交互操作用于指示在上述目标视频中截取N个静态图像。

可选地，获取对第一交互对象执行的第一交互操作，其中，上述第一交互操作用于指示在上述目标视频中截取N个静态图像。

可选地，在本实施例中，上述方法还包括：上述获取上述目标视频中被截取的目标静态图像，包括：根据以下至少之一确定上述每一帧图像的帧图像取值：上述每一帧图像的热图参数的取值，其中，上述热图参数的取值是根据上述每一帧图像确定出的取值；上述每一帧图像的热词参数的取值，其中，上述热词参数的取值是根据上述每一帧图像的弹幕信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的评论信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的搜索热词确定出的取值；上述每一帧图像的对象关注度参数的取值，其中，上述对象关注度参数的取值是根据上述每一帧图像中识别到的对象的信息确定出的取值；按照上述每一帧图像的帧图像取值，对上述目标视频中的每一帧图像进行排序，将对上述目标视频中的每一帧图像进行排序之后的前N个帧图像确定为上述目标静态图像，其中，N为正整数。

可选地，根据以下以下至少之一确定出每一帧图像的帧图像取值：

上述每一帧图像的热图参数的取值，其中，上述热图参数的取值是根据上述每一帧图像确定出的取值；例如，将每一帧图像在当前热门网站出现次数和浏览讨论人数、视频播放客户端或者视频网站的评论区的出现的热图来衡量，确定出目标静态图像。

上述每一帧图像的热词参数的取值，其中，上述热词参数的取值是根据上述每一帧图像的弹幕信息确定出的取值；例如，根据播放该目标视频的视频播放客户端、视频网站等的弹幕信息出现的频次和讨论人数来衡量热词参数的取值，和/或，可以根据社交软件，例如，视频播放客户端或者视频网站的评论区的出现的热门评论，以及论坛、微博、贴吧、博客、短视频等应用对目标视频的中的每一帧图像的评论信息，来确定热词参数的取值，和/或，还可以根据各种搜索类应用，如浏览器搜索词条、微博热搜等对目标视频的中的每一帧图像的搜索热词来确定热词参数的取值。

上述每一帧图像的对象关注度参数的取值，其中，上述对象关注度参数的取值是根据上述每一帧图像中识别到的对象的信息确定出的取值；该每一帧图像中识别到的对象可以为演员，对象关注度参数的取值可以通过相关网站对该演员的讨论热度、演员的微博粉丝数，以及视频播放客户端或者视频网站的评论区的出现的演员热门话题，演员近几个发帖的评论人数等等；

然后，按照每一帧图像的帧图像取值，按照由大到小的顺序对目标视频中的每一帧图像进行排序，截取对目标视频中的每一帧图像进行排序之后的前N个帧图像作为目标静态图像，其中，N为正整数。

或者，按照每一帧图像的帧图像取值，按照由小到大的顺序对目标视频中的每一帧图像进行排序，截取对目标视频中的每一帧图像进行排序之后的后N个帧图像作为目标静态图像。

通过本实施例，通过热图参数的取值、热词参数的取值、对象关注度参数的取值，来确定目标静态图像，使得获取到的目标静态图像为当前比较热门的图像，使用户紧跟当前潮流，提高用户体验。

可选地，在本实施例中，上述根据以下至少确定上述每一帧图像的帧图像取值，包括：将上述每一帧图像的热图参数的取值，或者，上述每一帧图像的热词参数的取值，或者，上述每一帧图像的对象关注度参数的取值，确定为上述每一帧图像的帧图像取值；或者，将上述每一帧图像的热图参数的取值、上述每一帧图像的热词参数的取值、以及上述每一帧图像的对象关注度参数的取值中的两个取值进行加权求和，得到上述每一帧图像的帧图像取值；或者，将上述每一帧图像的热图参数的取值、上述每一帧图像的热词参数的取值、以及上述每一帧图像的对象关注度参数的取值三者进行加权求和，得到上述每一帧图像的帧图像取值。

可选地，每一帧图像的帧图像取值可以为每一帧图像的热图参数的取值、每一帧图像的热词参数的取值、每一帧图像的对象关注度参数的取值中的任意一个的取值。或者

每一帧图像的帧图像取值可以为每一帧图像的热图参数的取值、每一帧图像的热词参数的取值、每一帧图像的对象关注度参数的取值中的任意两个取值加权求和之后的取值。或者

每一帧图像的帧图像取值可以为每一帧图像的热图参数的取值、每一帧图像的热词参数的取值、每一帧图像的对象关注度参数的取值这三个取值进行加权求和之后的取值。

通过本实施例，可以通过不同的方式确定出每一帧图像的帧图像取值，提高了每一帧图像的帧图像取值的灵活性。

可选地，在本实施例中，将上述每一帧图像输入到热图神经网络模型中，得到上述热图神经网络模型输出的上述每一帧图像的热图参数的取值；和/或，将上述每一帧图像的弹幕信息输入到热词神经网络模型中，得到上述热词神经网络模型输出的上述每一帧图像的热词参数的取值；和/或，将上述每一帧图像中识别到的对象的信息输入到对象关注度神经网络模型中，得到上述对象关注度神经网络模型输出的上述每一帧图像的对象关注度参数的取值。

可选地，将视频的每一帧图像输入到预先训练好的热图神经网络模型中，得到由热图神经网络模型输出的上述每一帧图像的热图参数的取值；和/或

将上述每一帧图像的弹幕信息输入到热词神经网络模型中，得到由上述热词神经网络模型输出的上述每一帧图像的热词参数的取值；和/或

将上述每一帧图像中识别到的对象的信息输入到对象关注度神经网络模型中，得到由上述对象关注度神经网络模型输出的上述每一帧图像的对象关注度参数的取值。

可选地，如图7所示，可以将热图神经网络模型输出的上述每一帧图像的热图参数的取值、热词神经网络模型输出的上述每一帧图像的热词参数的取值，以及对象关注度神经网络模型输出的上述每一帧图像的对象关注度参数的取值，这三类取值按照权重计算得到每一帧图像的帧图像取值，最后根据该每一帧图像的帧图像取值进行排名，得到目标静态图像。

例如，在截取目标静态图像时，需要处理视频的每一帧图像，将每一帧图像输入热图神经网络模型得到一个得分，对相应时间段上的多条弹幕输入热词神经网络模型获取一个平均分，对当前图像中出现的演员名字输入演员关注度神经网络(对应于上述对象关注度神经网络模型)获取一个得分，最后综合三者按一定权重得到视频的其中一帧图像的最终得分，取得分最高的几张图像作为最终目标静态图像的结果。

通过本实施例，可以通过预先训练好的神经网络得到上述不同的取值，结合多种因素，一键生成当前热度和讨论度高符合用户需求的截图和动图，降低了用户的操作成本，增加了用户粘度。

可选地，在本实施例中，上述方法还包括：从多个社交应用中获取热图样本集，通过上述热图样本集训练上述热图神经网络模型；和/或，从多个社交应用中获取热词样本集，通过上述热词样本集训练上述热词神经网络模型；和/或，从多个社交应用中获取对象关注度样本集，通过上述对象关注度样本集训练上述对象关注度神经网络模型。

可选地，可以从多个社交应用中获取热图样本集，然后将热图样本集输入至热图神经网络模型，通过该热图样本集来训练该热图神经网络模型。

和/或

可以从多个社交应用中获取热词样本集，然后将热词样本集输入至热词神经网络模型，通过该热词样本集来训练该热词神经网络模型。和/或

可以从多个社交应用中获取对象关注度样本集，然后将对象关注度样本集输入至对象关注度神经网络模型，通过该对象关注度样本集来训练该对象关注度神经网络模型。

需要说明的是，上述训练神经网络的过程中可以通过机器学习技术来实现，其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地，可以使用机器学习技术来处理视频，静态图像的生成的流程如图8所示，静态图像的截取主要考虑热图、热词(如搜索热词、评论信息和弹幕信息等)、演员关注度三个维度的因素，分别爬取当前热门网站视频相关的热图，热词，以及演员关注度，生成三类训练集，训练对应的神经网络。这里的视频热图结果集采用该图出现次数和浏览讨论人数来衡量，视频热词的热度采用出现频次、讨论人数、搜索该视频的相关热词(如微博热搜、搜索软件出现的词条数量等)等来衡量，演员关注度通过演员微博粉丝数，近几个发帖评论人数等来衡量。热图训练是图像采用残差网络模型(Residual Network，简称ResNet)进行训练，热词和演员采用长短时记忆网络(Long Short Term Memory，简称LSTM)进行训练。爬虫会不断的实时爬取最新数据供给神经网络训练。

可理解，热图，热词，演员关注度等三类神经网络并不局限于ResNet和LSTM，也可以是其它神经网络模型，对每一帧图像的处理过程中人脸识别有多种方案可以选择。上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，可以根据实时获取的热图、热词、演员关注度信息来训练神经网络，使得神经网络的准确度提升，提高了准确率。

可选地，在本实施例中，上述显示目标视频的信息和图像截取交互对象，包括：在上述视频播放客户端上显示上述目标视频的信息和第二交互对象，其中，上述第二交互对象用于指示截取动态图像，上述图像截取交互对象包括上述第二交互对象；在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，包括：在获取到对上述第二交互对象执行的第二交互操作的情况下，获取上述目标视频中被截取的目标动态图像，其中，上述目标交互操作包括上述第二交互操作，上述目标图像包括上述目标动态图像，上述目标静态图像是根据上述目标视频的视频片段的第二播放信息在上述目标视频中确定的图像。

可选地，上述第二交互对象可以理解为一种智能动图按钮。上述目标图像包括目标动态图像。

如图3所示，在视频播放客户端的显示界面显示正在播放的目标视频的信息，以及显示第二交互对象，该第二交互对象用于当用户点击或者触摸该第二交互对象时，可以根据目标视频的视频片段的第二播放信息，确定出要截取的目标动态图像。

通过上述第二播放信息可以理解为播放量比较高的图像。

在一种可能的实施例中，如图9所示，获取对上述第二交互对象的第二操作，在上述视频播放客户端显示第三界面，并在上述第三界面显示时长设置组件，其中，上述时长设置组件用于设置上述目标动态图像的播放时长，如果用户不输入数值，则使用默认时长生成目标动态图像。

在一种可能的实施例中，如图10所示，当用户点击或触摸上述第二交互对象时，弹出第四界面，使用户在该第四界面中可以自由的选择使用智能动图功能，或者，使用实时动图功能。如果用户选择的是实时动图，则按照常规方式将当前播放的画面截取一小段视频，生成动图，如果用户选择的是智能动图，则按照上述方式将上述目标动态图像截取出来。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，用户可以按照需求选择多种动图截取模式，当用户选择智能动图时，可以根据第二播放信息，来确定出要截取的目标动态图像，避免了用户通过不断的拉取进度条来选取要截取的动图，减少了用户的操作，提高了用户体验。

可选地，在本实施例中，获取上述目标视频中播放量超过预设阈值的视频片段；获取上述视频片段中的音频数据，将上述音频数据转换为第一文本，根据上述第一文本确定上述目标动态图像中的第二文本，其中，上述第二文本用于描述上述目标动态图像；获取上述视频片段包含的M帧图像的M个特征信息，根据上述M个特征信息确定上述M帧图像的M个评分，以及上述M帧图像任意两帧图像之间的相似度，根据上述M个评分和上述相似度截取上述M帧图像，得到上述目标动态图像，其中，上述M为正整数。

可选地，获取目标视频中播放量超过预设阈值的视频片段。

对于生成的目标动态图像中的文字，可以通过获取视频片段中的音频数据，然后将上述音频数据转换为第一文本，进而根据第一文本确定上述目标动态图像中的第二文本(目标动态图像中的文字)，其中，第二文本用于描述上述目标动态图像。

对于生成的目标动态图像中的图像，获取上述视频片段包含的全部的M帧图像，提取该M帧图像的特征信息，得到M个特征信息，根据上述M个特征信息确定上述M帧图像的M个评分，以及上述M帧图像任意两帧图像之间的相似度，最后，根据上述M个评分和上述相似度截取上述M帧图像，得到上述目标动态图像，其中，上述M为正整数。

在一种可能的实施例中，目标视频的播放会有对每段时间观看人数的统计，首先截取整目标段视频中观看人数相对较多的视频片段进行处理，这里分为两个部分，一个是对目标视频的音频进行处理，另一个是对目标视频的图像进行处理，最后综合两者得到最终的目标动态图像。

例如，如图11所示，对于视频片段中的音频数据，按照以下方式处理：

首先，提取相应视频片段的音频，通过语音转文本的技术将音频转成文本(第二文本)，这里如果视频片段中有对应的字幕文本(第一文本)可以获取，则可以直接利用该字幕文本。还可以通过爬虫实时爬取视频相关的热词，形成一个热词库，然后基于该热词库的词频-逆向文件频率(Term Frequency-Inverse Document Frequency，简称TF-IDF)进行关键词的提取，得到关键词对应的相关片段，由于演员的台词经常也是讨论的一个热点，因此基于演员热门台词对应的片段也可以作为生成最后目标动态图像的一个考量因素。

如图12所示，对于视频片段中的视频数据，按照以下方式处理：

获取对应播放量较高的视频片段，然后利用GoogleNet网络对视频的每帧特征信息进行提取，提取的结果为x1，x2……xn，将每帧的特征信息作为双层LSTM网络的输入值，然后将结果连同每帧的特征信息都输入到两个多层感知器(multilayer preceptron，简称MLP)中，得到的y即为每帧的结果值，S为任意两帧之间的相似性。然后利用帧间相似性对输入的播放热度较高的片段再进行时间分割，最后对每个视频段根据每帧分值大小以及所需时间长短和帧数目等进行聚类组合得到最终的目标动态图像。

需要说明的是，音频处理过程中语音转文本也有多种方案可以选择，在关键词提取中可以有其它方案，并不仅限于TF-IDF；在视频处理过程中对每一帧图像的特征信息的提取也不仅限于GoogleNet，可以是其它网络模型，后面的每一帧分值和相似性的计算也不仅限于双层LSTM网络这一种方案。

例如，可以按照上述方式生成如图13所示的目标动态图像，可理解，图13中的图像是以动态播放的形式展示在视频播放客户端。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，可以根据播放量高的视频片段生成目标动态图像，不仅使目标动态图像为当下比较热门的动图，而且避免了用户需要手动拖动进度条找到对应时间点，再点击截图按钮或者gif生成按钮，来生成截图和动图，还可以让用户了解到哪些图片或者片段在网络上热度会比较高，省去了去上网搜索了解的过程，提高了用户体验。

可选地，在本实施例中，上述根据上述M个评分和上述相似度截取上述M帧图像，得到上述目标动态图像，包括：根据上述相似度将上述视频片段分割成多个子视频片段；根据上述N个评分一一截取上述多个子视频片段中评分最高的图像，得到上述目标动态图像。

可选地，可以根据相似度将视频片段分割成多个子视频片段，然后从每个视频片段中截取评分最高的一帧图像，来生成最终的目标动态图像。

可选地，在本实施例中，上述方法还包括：在播放上述目标视频之前，获取对上述图像截取交互对象执行的上述目标交互操作；或者，在播放上述目标视频的过程中，获取对上述图像截取交互对象执行的上述目标交互操作；或者，在播放上述目标视频结束之后，获取对上述图像截取交互对象执行的上述目标交互操作。

可选地，如果在上述播放上述目标视频之前，获取到了对上述图像截取交互对象执行的上述目标交互操作，可以在播放该目标视频之前就显示目标图像；或者

如果在上述播放上述目标视频的过程中，获取到了对上述图像截取交互对象执行的上述目标交互操作，可以在播放该目标视频的过程中显示目标图像；或者

如果在上述视播放上述目标视频结束之后，获取到了对上述图像截取交互对象执行的上述目标交互操作，可以在播放该目标视频结束之后显示目标图像。

通过本实施例，用户可以在播放目标视频的任意时刻，执行目标交互操作，并显示目标图像，在视频播放之前显示目标图像，可以使用户提前知道播放视频的精彩片段，在视频播放过程中显示目标图像，可以使用户随时分享目标图像，在视频播放结束后显示目标图像，可以避免用户回看视频，减少用户的额外操作，提高了用户体验。

需要说明的是，通过上述一键生成当前热度和讨论度高的目标静态图像(截图)和目标动态图像(动图)，能够有效减少用户人为去获取视频中的截图或动图的成本，特别是当视频时长很长的时候，一方面节省了人力操作成本，提升了用户体验，另一方面让用户了解到哪些图片或者片段在网络上热度会比较高，省去了用户去上网搜索了解的过程。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种视频中图像的截取装置，如图14所示，该装置包括：

第一显示单元1402，用于显示目标视频和图像截取交互对象；

第一获取单元1404，用于在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；

第二显示单元1406，用于显示上述被截取的目标图像。

作为一种可选的技术方案，上述第一显示单元，还用于显示上述目标视频和第一交互对象，其中，上述第一交互对象用于指示截取静态图像，上述图像截取交互对象包括上述第一交互对象；上述第一获取单元，还用于在获取到对上述第一交互对象执行的第一交互操作的情况下，获取上述目标视频中被截取的目标静态图像，其中，上述目标交互操作包括上述第一交互操作，上述目标图像包括上述目标静态图像，上述目标静态图像是根据上述目标视频的第一播放信息和/或上述目标视频的第一视频信息在上述目标视频中确定的图像，上述第一播放信息包括：上述目标视频中每一帧图像的弹幕信息，上述第一视频信息包括：上述目标视频中的每一帧图像，和/或，上述每一帧图像中识别到的对象的信息。

作为一种可选的技术方案，上述第一获取单元，还用于获取上述目标视频中被截取的目标静态图像，其中，上述目标静态图像是上述目标视频中的每一帧图像按照预设条件进行排序之后的前N个帧图像，N为正整数；其中，上述预设条件包括根据以下至少之一确定的帧图像取值：上述每一帧图像的热图参数的取值，其中，上述热图参数的取值是根据上述每一帧图像确定出的取值；上述每一帧图像的热词参数的取值，其中，上述热词参数的取值是根据上述每一帧图像的弹幕信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的评论信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的搜索热词确定出的取值；上述每一帧图像的对象关注度参数的取值，其中，上述对象关注度参数的取值是根据上述每一帧图像中识别到的对象的信息确定出的取值。

作为一种可选的技术方案，上述第一获取单元，包括：第一确定模块，用于根据以下至少之一确定上述每一帧图像的帧图像取值：上述每一帧图像的热图参数的取值，其中，上述热图参数的取值是根据上述每一帧图像确定出的取值；上述每一帧图像的热词参数的取值，其中，上述热词参数的取值是根据上述每一帧图像的弹幕信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的评论信息确定出的取值，和/或，上述热词参数的取值是根据上述每一帧图像的搜索热词确定出的取值；上述每一帧图像的对象关注度参数的取值，其中，上述对象关注度参数的取值是根据上述每一帧图像中识别到的对象的信息确定出的取值；第二确定模块，用于按照上述每一帧图像的帧图像取值，对上述目标视频中的每一帧图像进行排序，将对上述目标视频中的每一帧图像进行排序之后的前N个帧图像确定为上述目标静态图像，其中，N为正整数。

作为一种可选的技术方案，第一确定模块，还用于将上述每一帧图像的热图参数的取值，或者，上述每一帧图像的热词参数的取值，或者，上述每一帧图像的对象关注度参数的取值，确定为上述每一帧图像的帧图像取值；或者将上述每一帧图像的热图参数的取值、上述每一帧图像的热词参数的取值、以及上述每一帧图像的对象关注度参数的取值中的两个取值进行加权求和，得到上述每一帧图像的帧图像取值；或者将上述每一帧图像的热图参数的取值、上述每一帧图像的热词参数的取值、以及上述每一帧图像的对象关注度参数的取值三者进行加权求和，得到上述每一帧图像的帧图像取值。

作为一种可选的技术方案，上述装置还包括：第一处理单元，用于将上述每一帧图像输入到热图神经网络模型中，得到上述热图神经网络模型输出的上述每一帧图像的热图参数的取值；和/或，第二处理单元，用于将上述每一帧图像的弹幕信息输入到热词神经网络模型中，得到上述热词神经网络模型输出的上述每一帧图像的热词参数的取值；和/或，第三处理单元，用于将上述每一帧图像中识别到的对象的信息输入到对象关注度神经网络模型中，得到上述对象关注度神经网络模型输出的上述每一帧图像的对象关注度参数的取值。

作为一种可选的技术方案，上述装置还包括：第一训练单元，用于从多个社交应用中获取热图样本集，通过上述热图样本集训练上述热图神经网络模型；和/或，第二训练单元，用于从多个社交应用中获取热词样本集，通过上述热词样本集训练上述热词神经网络模型；和/或，第三训练单元，用于从多个社交应用中获取对象关注度样本集，通过上述对象关注度样本集训练上述对象关注度神经网络模型。

作为一种可选的技术方案，上述装置还包括，第二获取单元，用于获取对上述第一交互对象执行的上述第一交互操作，其中，上述第一交互操作用于指示在上述目标视频中截取N个静态图像。

作为一种可选的技术方案，上述第一显示单元，还用于显示上述目标视频的信息和第二交互对象，其中，上述第二交互对象用于指示截取动态图像，上述图像截取交互对象包括上述第二交互对象；上述第一获取单元，还用于在获取到对上述第二交互对象执行的第二交互操作的情况下，获取上述目标视频中被截取的目标动态图像，其中，上述目标交互操作包括上述第二交互操作，上述目标图像包括上述目标动态图像，上述目标静态图像是根据上述目标视频的视频片段的第二播放信息在上述目标视频中确定的图像。

作为一种可选的技术方案，上述第一获取单元，还用于获取上述目标视频中播放量超过预设阈值的视频片段；获取上述视频片段中的音频数据，将上述音频数据转换为第一文本，根据上述第一文本确定上述目标动态图像中的第二文本，其中，上述第二文本用于描述上述目标动态图像；获取上述视频片段包含的M帧图像的M个特征信息，根据上述M个特征信息确定上述M帧图像的M个评分，以及上述M帧图像任意两帧图像之间的相似度，根据上述M个评分和上述相似度截取上述M帧图像，得到上述目标动态图像，其中，上述M为正整数。

作为一种可选的技术方案，上述第一获取单元，包括：第一处理模块，用于根据上述相似度将上述视频片段分割成多个子视频片段；第二处理模块，用于根据上述N个评分一一截取上述多个子视频片段中评分最高的图像，得到上述目标动态图像。

作为一种可选的技术方案，上述装置还包括：第三获取单元，用于在播放上述目标视频之前，获取对上述图像截取交互对象执行的上述目标交互操作；或者第四获取单元，用于在播放上述目标视频的过程中，获取对上述图像截取交互对象执行的上述目标交互操作；或者第五获取单元，用于在播放上述目标视频结束之后，获取对上述图像截取交互对象执行的上述目标交互操作。

根据本发明的实施例的又一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，显示目标视频和图像截取交互对象；

S2，在获取到对上述图像截取交互对象执行的目标交互操作的情况下，获取上述目标视频中被截取的目标图像，其中，上述目标交互操作用于对上述目标视频中的图像进行截取，上述目标图像是根据上述目标视频的历史播放信息在上述目标视频中确定的图像；

S3，显示上述被截取的目标图像。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频中图像的截取方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图15所示，该电子设备包括存储器1502和处理器1504，该存储器1502中存储有计算机程序，该处理器1504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，显示目标视频和图像截取交互对象；

S3，显示上述被截取的目标图像。

可选地，本领域普通技术人员可以理解，图15所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图15中所示更多或者更少的组件(如网络接口等)，或者具有与图15所示不同的配置。

其中，存储器1502可用于存储软件程序以及模块，如本发明实施例中的视频中图像的截取方法和装置对应的程序命令/模块，处理器1504通过运行存储在存储器1502内的软件程序以及模块，从而执行各种功能应用以及热更新，即实现上述的视频中图像的截取方法。存储器1502可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1502可进一步包括相对于处理器1504远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图15所示，上述存储器1502中可以但不限于包括上述视频中图像的截取装置中的第一显示单元1402，第一获取单元1404、第二显示单元1406。此外，还可以包括但不限于上述视频中图像的截取装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1506包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1506为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1508，用于显示目标视频和图像截取交互对象，以及显示上述被截取的目标图像，和连接总线1510，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频中图像的截取方法，其特征在于，包括：

显示目标视频和图像截取交互对象；

在获取到对所述图像截取交互对象执行的目标交互操作的情况下，获取所述目标视频中被截取的目标图像，其中，所述目标交互操作用于对所述目标视频中的图像进行截取，所述目标图像是根据所述目标视频的历史播放信息在所述目标视频中确定的图像；

显示所述被截取的目标图像；

其中，所述目标图像包括目标动态图像，所述图像截取交互对象包括第二交互对象，所述目标交互操作包括第二交互操作，所述方法还包括：在获取到对所述第二交互对象执行的第二交互操作的情况下，获取所述目标动态图像；

所述在获取到对所述第二交互对象执行的第二交互操作的情况下，获取所述目标动态图像包括：获取所述目标视频中播放量超过预设阈值的视频片段，获取所述视频片段中每一帧图像的特征信息，根据所述每一帧图像的所述特征信息，确定出所述每一帧图像的评分和任意两帧图像之间的相似度，根据所述相似度，将所述视频片段分割成多个子视频片段，将每一个所述子视频片段中，所述评分最高的图像拼接为所述目标动态图像。

2.根据权利要求1所述的方法，其特征在于，

所述显示目标视频和图像截取交互对象，包括：显示所述目标视频和第一交互对象，其中，所述第一交互对象用于指示截取静态图像，所述图像截取交互对象包括所述第一交互对象；

在获取到对所述图像截取交互对象执行的目标交互操作的情况下，获取所述目标视频中被截取的目标图像，包括：在获取到对所述第一交互对象执行的第一交互操作的情况下，获取所述目标视频中被截取的目标静态图像，其中，所述目标交互操作包括所述第一交互操作，所述目标图像包括所述目标静态图像，所述目标静态图像是根据所述目标视频的第一播放信息和/或所述目标视频的第一视频信息在所述目标视频中确定的图像，所述第一播放信息包括：所述目标视频中每一帧图像的弹幕信息，所述第一视频信息包括：所述目标视频中的每一帧图像，和/或，所述每一帧图像中识别到的对象的信息。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标视频中被截取的目标静态图像，包括：

根据以下至少之一确定所述每一帧图像的帧图像取值：所述每一帧图像的热图参数的取值，其中，所述热图参数的取值是根据所述每一帧图像确定出的取值；所述每一帧图像的热词参数的取值，其中，所述热词参数的取值是根据所述每一帧图像的弹幕信息确定出的取值，和/或，所述热词参数的取值是根据所述每一帧图像的评论信息确定出的取值，和/或，所述热词参数的取值是根据所述每一帧图像的搜索热词确定出的取值；所述每一帧图像的对象关注度参数的取值，其中，所述对象关注度参数的取值是根据所述每一帧图像中识别到的对象的信息确定出的取值；

按照所述每一帧图像的帧图像取值，对所述目标视频中的每一帧图像进行排序，将对所述目标视频中的每一帧图像进行排序之后的前N个帧图像确定为所述目标静态图像，其中，N为正整数。

4.根据权利要求3所述的方法，其特征在于，所述根据以下至少之一确定所述每一帧图像的帧图像取值，包括：

将所述每一帧图像的热图参数的取值，或者，所述每一帧图像的热词参数的取值，或者，所述每一帧图像的对象关注度参数的取值，确定为所述每一帧图像的帧图像取值；或者

将所述每一帧图像的热图参数的取值、所述每一帧图像的热词参数的取值、以及所述每一帧图像的对象关注度参数的取值中的两个取值进行加权求和，得到所述每一帧图像的帧图像取值；或者

将所述每一帧图像的热图参数的取值、所述每一帧图像的热词参数的取值、以及所述每一帧图像的对象关注度参数的取值三者进行加权求和，得到所述每一帧图像的帧图像取值。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述每一帧图像输入到热图神经网络模型中，得到所述热图神经网络模型输出的所述每一帧图像的热图参数的取值；和/或

将所述每一帧图像的弹幕信息输入到热词神经网络模型中，得到所述热词神经网络模型输出的所述每一帧图像的热词参数的取值；和/或

将所述每一帧图像中识别到的对象的信息输入到对象关注度神经网络模型中，得到所述对象关注度神经网络模型输出的所述每一帧图像的对象关注度参数的取值。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

从多个社交应用中获取热图样本集，通过所述热图样本集训练所述热图神经网络模型；和/或

从多个社交应用中获取热词样本集，通过所述热词样本集训练所述热词神经网络模型；和/或

从多个社交应用中获取对象关注度样本集，通过所述对象关注度样本集训练所述对象关注度神经网络模型。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述方法还包括：

获取对所述第一交互对象执行的所述第一交互操作，其中，所述第一交互操作用于指示在所述目标视频中截取N个静态图像。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述视频片段中的音频数据，将所述音频数据转换为第一文本，根据所述第一文本确定所述目标动态图像中的第二文本，其中，所述第二文本用于描述所述目标动态图像。

9.根据权利要求1至6和8中任一项所述的方法，其特征在于，所述方法还包括：

在播放所述目标视频之前，获取对所述图像截取交互对象执行的所述目标交互操作；或者

在播放所述目标视频的过程中，获取对所述图像截取交互对象执行的所述目标交互操作；或者

在播放所述目标视频结束之后，获取对所述图像截取交互对象执行的所述目标交互操作。

10.一种视频中图像的截取装置，其特征在于，包括：

第一显示单元，用于显示目标视频和图像截取交互对象；

第一获取单元，用于在获取到对所述图像截取交互对象执行的目标交互操作的情况下，获取所述目标视频中被截取的目标图像，其中，所述目标交互操作用于对所述目标视频中的图像进行截取，所述目标图像是根据所述目标视频的历史播放信息在所述目标视频中确定的图像；

第二显示单元，用于显示所述被截取的目标图像；

其中，所述目标图像包括目标动态图像，所述图像截取交互对象包括第二交互对象，所述目标交互操作包括第二交互操作，所述装置还用于在获取到对所述第二交互对象执行的第二交互操作的情况下，获取所述目标动态图像；

11.根据权利要求10所述的装置，其特征在于，

所述第一显示单元，还用于显示所述目标视频和第一交互对象，其中，所述第一交互对象用于指示截取静态图像，所述图像截取交互对象包括所述第一交互对象；所述第一获取单元，还用于在获取到对所述第一交互对象执行的第一交互操作的情况下，获取所述目标视频中被截取的目标静态图像，其中，所述目标交互操作包括所述第一交互操作，所述目标图像包括所述目标静态图像，所述目标静态图像是根据所述目标视频的第一播放信息和/或所述目标视频的第一视频信息在所述目标视频中确定的图像，所述第一播放信息包括：所述目标视频中每一帧图像的弹幕信息，所述第一视频信息包括：所述目标视频中的每一帧图像，和/或，所述每一帧图像中识别到的对象的信息。

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至9任一项中所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。