CN112055225B

CN112055225B - 直播视频截取、商品信息生成、对象信息生成方法及装置

Info

Publication number: CN112055225B
Application number: CN201910492658.1A
Authority: CN
Inventors: 徐珊; 程杭; 郑萌萌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2023-02-17
Anticipated expiration: 2039-06-06
Also published as: CN112055225A

Abstract

本发明公开了一种直播视频截取方法，直播视频的内容包括针对多个商品的展示介绍，该方法包括：根据用户在直播时间段内针对目标商品的行为数据，从直播视频中截取出与目标商品相关的第一视频片段，第一视频片段包括多个图像帧；分别将多个图像帧与目标商品进行匹配；根据多个图像帧与目标商品的匹配结果，从第一视频片段中截取出针对目标商品的第二视频片段。本发明一并公开了相应的商品信息生成方法、对象信息生成方法及装置。

Description

直播视频截取、商品信息生成、对象信息生成方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种直播视频截取、商品信息生成、对象信息生成方法及装置。

背景技术

视频直播能够快速高效地传递信息，具有实时性、现场性、直观性等特点，逐渐成为互联网的重点表达方式。消费类直播是视频直播的一个细分领域，在消费类直播中，主播可以向用户(即观众)展示商品并介绍商品的使用方式；相应地，用户可以通过观看直播来了解商品详情，并可以在直播界面中点击相应的商品链接进行购买。例如，在一个服装直播视频中，主播会试穿多件服装并介绍如何搭配，用户可以在直播界面中找出本场直播展示的服装列表，点击相应的链接进行购买。

在某些情况中，商家希望以视频的形式来全面展示商品。为了避免单独录制商品介绍视频的繁琐过程，商家希望从已有的商品直播视频中截取出针对单个商品的短视频，采用该短视频来对单个商品进行展示。例如，商家可以将截取出的短视频放置在相应商品的详情页中，以便用户更加全面地了解商品信息；或者，将短视频转发至特定渠道(例如视频应用、即时通讯应用等)中，以对商品进行宣传推广。

发明内容

为此，本发明提供一种直播视频截取、商品信息生成、对象信息生成方法及装置，以力图解决或至少缓解上面存在的问题。

根据本发明的第一个方面，提供一种直播视频截取方法，所述直播视频的内容包括针对多个商品的展示介绍，所述方法包括：根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，所述第一视频片段包括多个图像帧；分别将所述多个图像帧与目标商品进行匹配；根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段。

可选地，在根据本发明的直播视频截取方法中，所述根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，包括：确定用户针对目标商品的行为数量最大的时间区间；截取所述时间区间以及所述时间区间之前的预设时长内的视频片段，作为第一视频片段。

可选地，在根据本发明的直播视频截取方法中，所述预设时长根据用户针对目标商品的行为类型来确定。

可选地，在根据本发明的直播视频截取方法中，所述行为类型包括加入购物车、浏览、收藏、购买、点赞、评论。

可选地，在根据本发明的直播视频截取方法中，所述分别将所述多个图像帧与目标商品进行匹配，包括：将图像帧和目标商品的图像输入预设的分类模型，以便所述分类模型输出所述图像帧与目标商品是否匹配的判决。

可选地，在根据本发明的直播视频截取方法中，所述分类模型以标注了匹配结果的图像帧与商品图像为训练样本训练得出。

可选地，在根据本发明的直播视频截取方法中，所述根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段，包括：将第一视频片段中与目标商品相匹配的多个图像帧组成第二视频片段。

可选地，在根据本发明的直播视频截取方法中，所述根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段，包括：将第一视频片段中与目标商品相匹配的第一个图像帧作为起点帧；将第一视频片段中与目标商品相匹配的最后一个图像帧最为终点帧；从第一视频片段中截取出位于起点帧与终点帧之间的视频片段，作为第二视频片段。

可选地，在根据本发明的直播视频截取方法中，还包括：为第二视频片段添加片头帧和/或片尾帧，将片头帧、第二视频片段、片尾帧组合形成目标视频。

可选地，在根据本发明的直播视频截取方法中，所述片头帧、片尾帧包括：目标商品的基本信息、商家信息、直播信息中的至少一种。

根据本发明的第二个方面，提供一种商品信息生成方法，包括：接收视频截取请求，所述视频截取请求包括起始时间点和结束时间点；响应于所述视频截取请求，从直播视频中截取出针对目标商品的视频片段；为所述视频片段添加片头帧和/或片尾帧，以生成所述目标商品的商品信息。

根据本发明的第三个方面，提供一种商品信息生成方法，包括：接收视频截取请求，所述视频截取请求包括至少一个目标商品；响应于所述视频截取请求，从直播视频中截取出针对目标商品的视频片段；为所述视频片段添加片头帧和/或片尾帧，以生成所述目标商品的商品信息。

根据本发明的第四个方面，提供一种对象信息的生成方法，包括：接收视频截取请求，所述视频截取请求包括至少一个目标对象；响应于所述视频截取请求，从视频中截取出针对目标对象的视频片段；基于所述视频片段，生成所述目标对象的视频信息。

根据本发明的第五个方面，提供一种直播视频截取装置，所述直播视频的内容包括针对多个商品的展示介绍，所述装置包括：第一截取模块，适于根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，所述第一视频片段包括多个图像帧；第二截取模块，适于分别将所述多个图像帧与目标商品进行匹配；以及根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段。

根据本发明的第六个方面，提供一种对象信息的生成装置，包括：通信模块，适于接收视频截取请求，所述视频截取请求包括至少一个目标对象；视频截取模块，适于响应于所述视频截取请求，从视频中截取出针对目标对象的视频片段；对象信息生成模块，适于基于所述视频片段，生成所述目标对象的视频信息。

根据本发明的第七个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行如上所述的方法。

根据本发明的第八个方面，提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如上所述的方法。

发明的直播视频截取方案实现了短视频的智能自动化截取，能够从直播视频中截取出针对单个商品的短视频，大大减少了人工成本和时间成本。

本发明的直播视频截取方案包括两次截取，第一次截取是根据用户在直播时间段内针对目标商品的行为数据，截取出与目标商品相关的第一视频片段。第一视频片段是一个粗略匹配片段，其中除了包括目标商品的展示介绍之外，还可能包括其他商品的展示介绍。第二次截取是根据图像帧与目标商品的匹配结果，进一步从第一视频片段中截取出针对目标商品的第二视频片段。第二视频片段是一个仅针对目标商品的精确匹配片段，其中仅包括对目标商品的展示介绍。本发明的两次截取方案保证了视频截取的效率和精度，实现了短视频的智能自动化截取。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的视频直播系统100的示意图；

图2A～2C示出了根据本发明一个实施例的用户端的视频直播界面以及用户行为的示意图；

图3示出了根据本发明一个实施例的商品信息生成方法300的流程图；

图4示出了根据本发明一个实施例的商品信息生成方法400的流程图；

图5示出了根据本发明一个实施例的直播视频截取方法500的流程图；

图6示出了根据本发明一个实施例的用户在直播时间段内针对目标商品的行为数量分布图；

图7示出了根据本发明一个实施例的片头帧的示意图；

图8示出了根据本发明一个实施例的片尾帧的示意图；

图9示出了根据本发明一个实施例的对象信息生成方法900的流程图；

图10示出了根据本发明一个实施例的计算设备1000的示意图；

图11示出了根据本发明一个实施例的直播视频截取装置1100的示意图；

图12示出了示出了根据本发明一个实施例的对象信息生成装置1200的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更好地说明本发明的直播视频截取方案，以下对视频直播系统以及用户在观看直播的过程中所产生的行为数据作简要介绍。

图1示出了根据本发明一个实施例的视频直播系统100的示意图。如图1所示，视频直播系统100包括服务端110、主播端120、用户端130以及数据存储装置140，服务端110分别与主播端120、用户端130、数据存储装置140通信连接。

在图1的实施例中，主播指的是直播视频的生产者，用户指的是直播视频的可能观看者(即消费者)，用户可以选择是否观看直播。主播端120为主播所使用的用于录制直播视频的应用软件，用户端130为用户所使用的用于观看直播视频的应用软件。主播端120、用户端130例如可以驻留于桌面电脑、笔记本电脑、平板电脑、手机、智能可穿戴设备等计算设备中。

服务端110具有计算、存储等功能，用于向主播端120、用户端130提供相应的服务。服务端110例如可以实现为一台或多台物理服务器，或实现为一个或多个部署于云服务器中的计算实例等，本发明对服务端110的具体配置不做限制。

数据存储装置140用于存储直播相关的数据，例如直播间信息、主播信息、直播视频等。数据存储装置140例如可以实现为服务端110本地的存储装置，或实现为分布式云存储等，本发明对数据存储装置140的具体配置不做限制。

在视频直播过程中，主播与用户通过直播间来连接，主播通过主播端120进入直播间，在直播间中录制视频，将视频上传至服务端110，服务端110将直播数据与直播间的房间号关联存储。随后，用户可以通过用户端130进入直播间，观看直播间中正在直播的视频或回看该直播间中的历史视频。

在本发明的实施例中，主播可以发布消费类的直播，该直播视频的内容将包括针对某一商家的多个商品的展示介绍，以对商品进行推广。商品例如可以是服装、饰品、护肤品等，但不限于此。例如，主播A承接了服装类商家B的推广需求，在直播间中发布了标题为“商家B新款展示”的直播视频，在该视频中，主播将对商家B提供的多件服装进行试穿、搭配，向用户展示穿搭效果。用户通过在用户端130中点击相应链接进入直播间观看该视频，并且可以在直播界面中找出本场直播所展示的服装列表，点击相应的链接进行购买。

在直播过程中，用户(包括正在观看直播的用户和未观看直播的用户)可以产生多种行为，服务端110会将用户的行为数据存储至数据存储装置140中。根据一种实施例，一条行为数据典型地包括用户标识、商品标识、行为时间和行为类型。其中，用户标识为用于唯一标识用户的字符串，商品标识为用于唯一标识商品的字符串，行为时间即用户行为的发生时间，行为类型为用户对商品所做的操作的类型，行为类型例如包括加入购物车、浏览、收藏、购买(即付款成交)、评论、点赞等，但不限于此。需要说明的是，在上述示例中，行为数据包括用户标识、商品标识、行为时间、行为类型四项数据，但是本领域技术人员可以理解，行为数据中还可以包括其他项目，例如行为产生的渠道(直播转化、搜索转化、好友分享等)、商品价格、折扣优惠信息等，本发明对行为数据所包括的具体数据项目不做限制。

图2A～2C示出了根据本发明一个实施例的用户端的视频直播界面以及用户行为的示意图。以下结合图2A～2C来说明正在观看直播的用户的行为数据的产生过程。

如图2A、2B所示，直播界面的左上角显示本场直播的房间号202和对应的商家信息201。商家信息例如包括商家的头像、名称、所在的城市、粉丝数量等，但不限于此。在商家信息右侧显示有心形的关注图标，用户可以通过点击该图标来关注或取消关注商家。主播203位于直播界面的中心区域，主播在203在直播过程中将对商家的多件商品进行展示。图2A、2B所示的直播例如可以为服装类直播，相应地，在本场直播中，主播203将会对商家提供的多件服装进行试穿及搭配展示。

如图2A所示，直播界面的左下角显示有图标205，用户点击该图标后，界面中将弹出本场直播所展示的商品列表209，如图2B所示。商品列表209中包括多个商品项210，商品项210包括商品的基本信息例如商品的名称、价格、图片等，但不限于此。商品项210中还包括购物车图标211，购物车图标211为将商品加入购物车的入口。用户通过点击该图标，可以将相应的商品快速加入购物车。用户将商品加入购物车的行为对应于一条行为数据。下表示出了行为数据的一个示例，该示例表示用户a在t1时刻将商品1加入购物车。

用户标识	商品标识	行为时间	行为类型
				a	1	t1	加入购物车

如图2B所示，用户通过点击商品项210中的相应链接，可以进入如图2C所示的商品详情页。商品链接例如可以设置于商品图片处或商品名称处，但不限于此。用户进入商品详情页的行为对应于一条行为类型为浏览的行为数据。

用户可以在如图2C所示的商品详情页中对商品进行更多操作，例如，用户可以通过点击图标212或按钮215来将商品加入购物车，通过点击图标214来收藏商品，通过点击按钮216来购买商品，等等。用户的加入购物车、收藏、购买行为分别对应于一条行为数据。行为数据的格式可以参考上表，此处不再赘述。

如图2A所示，在直播过程中，用户可以通过点击评论图标206来发表评论，用户发布的评论将实时显示于评论区域204中。用户可以通过点击图标207来表达对本场直播以及商品的不喜，通过点击图标208来为本场直播及商品点赞。用户发表评论、点赞的行为分别对应于一条行为数据。

以上以图2A～2C为例，说明了正在观看直播的用户的行为数据的产生过程。本领域技术人员可以理解，未进入直播间的用户也可以对商品产生行为数据，例如，用户可以通过在购物平台上进行搜索或点开好友分享的商品链接等方式，找到相应的商品并对商品实施浏览、收藏、加入购物车、购买等行为。

当直播结束后，服务端110将本场直播的完整直播视频存储至数据存储装置140。为了便于商家对单个商品进行展示和推广，服务端110将执行本发明的直播视频截取方法300，从直播视频中截取出针对单个商品的短视频。商家可以将截取出的短视频放置在相应商品的详情页中(例如放置在图2C所示的视图展示区域213)，以便用户更加全面地了解商品信息；或者将短视频转发至特定渠道(例如优酷、抖音等视频应用，微信、MSN等即时通讯应用等)中，以对商品进行宣传推广。

图3示出了根据本发明一个实施例的商品信息生成方法300的流程图。方法300在服务端(例如前述服务端110)中执行，用于实现针对目标商品的视频片段的手动化截取。如图3所示，方法300始于步骤S310。

在步骤S310中，接收视频截取请求，视频截取请求包括起始时间点和结束时间点。

视频截取请求由用户发出，这里的用户通常为商家，其需要从直播视频中手动截取出针对目标商品的视频片段。具体地，商家浏览直播视频，确定出直播视频中针对目标商品的介绍片段的起始时间点和结束时间点，将起始时间段和结束时间点发送至服务端，以向服务端发起视频截取请求。相应地，在步骤S310中，服务端接收用户发来的视频截取请求，视频截取请求包括起始时间点和结束时间点。

随后，在步骤S320中，响应于视频截取请求，从直播视频中截取出针对目标商品的视频片段。

根据视频截取请求中的起始时间点和结束时间点，从直播视频中截取出针对目标商品的视频片段。

随后，在步骤S330中，为视频片段添加片头帧和/或片尾帧，以生成目标商品的商品信息。

为视频片段添加片头帧和/或片尾帧，将片头帧、视频片段、片尾帧组合形成目标商品的介绍视频，将该介绍视频作为目标商品的商品信息。具体地，该介绍视频可以被放置在目标商品的详情页中(例如放置在图2C所示的视图展示区域213)，以便用户更加全面地了解目标商品的相关信息；或者将目标视频转发至特定渠道，以对目标商品进行宣传推广。

根据一种实施例，片头帧、片尾帧可以包括目标商品的基本信息、商家信息、直播信息中的至少一种，但不限于此。基本信息例如包括商品的名称、图片、价格、销量、收藏量等，商家信息例如包括商家的头像、名称、所在的城市、粉丝数量等，直播信息例如包括直播软件的下载链接(可以实现为二维码)、直播房间号、主播信息等，但不限于此。

需要说明的是，片头帧、片尾帧可以择一添加，也可以同时添加。当片头帧、片尾帧同时添加时，二者所包括的信息项目可以完全不同，也可以有部分或全部重叠。另外，本领域技术人员可以根据实际需要来设置片头帧、片尾帧的数量，本发明对片头帧、片尾帧的数量以及所包括的信息项目均不做限制。

图4示出了根据本发明一个实施例的商品信息生成方法400的流程图。方法400在服务端(例如前述服务端110)中执行，用于实现针对目标商品的视频片段的自动化截取。如图4所示，方法400始于步骤S410。

在步骤S410中，接收视频截取请求，视频截取请求包括至少一个目标商品。

视频截取请求由用户发出，这里的用户通常为商家，其需要从直播视频中自动截取出针对目标商品的视频片段。具体地，商家通过手机、电脑等终端设备指定需要截取视频片段的一个或多个目标商品，以向服务端发起视频截取请求。相应地，在步骤S410中，服务端接收用户发来的视频截取请求，该视频截取请求包括用户指定的至少一个目标商品。

随后，在步骤S420中，响应于视频截取请求，从直播视频中截取出针对目标商品的视频片段。

响应于视频截取请求，服务端可以从直播视频中自动截取出针对目标商品的视频片段。具体地，步骤S420包括以下步骤：首先，根据用户在直播时间段内针对目标商品的行为数据，从直播视频中截取出与目标商品相关的第一视频片段，第一视频片段包括多个图像帧；随后，分别将多个图像帧与目标商品进行匹配；随后，根据多个图像帧与目标商品的匹配结果，从第一视频片段中截取出针对目标商品的第二视频片段。

根据一种实施例，步骤S420采用直播视频截取方法500来实现。方法500将于下文中详述。

随后，在步骤S430中，为视频片段添加片头帧和/或片尾帧，以生成目标商品的商品信息。

图5示出了根据本发明一个实施例的直播视频截取方法500的流程图。方法500在服务端(例如前述服务端110)中执行，用于从直播视频中自动截取出针对目标商品的视频片段。如图5所示，方法500始于步骤S510。

在步骤S510中，根据用户在直播时间段内针对目标商品的行为数据，从直播视频中截取出与目标商品相关的第一视频片段，第一视频片段包括多个图像帧。

参见上文描述，在消费类直播中，直播视频的内容包括针对多个商品的展示介绍。目标商品可以是直播视频中所展示的多个商品中的任意一个，方法500的目的在于从直播视频中截取出针对目标商品的视频片段。

为了更清楚地描述本发明，此处对“与目标商品相关”以及“针对目标商品”两个概念进行说明。

“与目标商品相关”的视频片段指的是包括但不限于包括目标商品的展示介绍内容的视频片段，即，与目标商品相关的视频片段中除了包括对目标商品的展示介绍之外，还可能包括对其他商品的展示介绍。换言之，与目标商品相关的视频片段是一个与目标商品粗略匹配的视频片段。

“针对目标商品”的视频片段指的是包括且仅包括目标商品的展示介绍内容的视频片段，即，针对目标商品的视频片段中仅包括对目标商品的展示介绍，而不包括对其他商品的展示介绍。换言之，针对目标商品的视频片段是一个与目标商品精确匹配的视频片段。

在本发明的实施例中，步骤S510中的第一视频片段为与目标商品相关的视频片段；步骤S530中的第二视频片段为针对目标商品的视频片段。

消费类直播会对商品产生推广作用，当主播在直播中展示某一商品后，用户针对该商品的行为数量(例如该商品被加入购物车的次数、销售量、收藏量等)通常会即时上涨。相应地，可以通过用户在直播时间段内针对目标商品的行为数据来定位出目标商品在直播视频中的大概位置，截取出该位置的视频片段，记为第一视频片段。

根据一种实施例，第一视频片段可以按照以下步骤S512、S514来确定：

在步骤S512中，确定用户针对目标商品的行为数量最大的时间区间。

需要说明的是，在确定用户针对目标商品的行为数量最大的时间区间时，所根据的是用户针对目标商品的任意一种行为类型的行为数据。例如，在步骤S512中，可以根据用户将目标商品加入购物车的行为数据来确定用户将目标商品加入购物车的次数最多的时间区间，或者根据用户收藏目标商品的行为数据来确定用户收藏目标商品次数最多(即目标商品的收藏量最多)的时间区间，或者根据用户购买目标商品的行为数据来确定用户购买目标商品次数最多(即目标商品的成交量最多)的时间区间，等等。

行为数量最大的时间区间的确定方法有多种，本领域技术人员可以自行设计或选用合适的方法，本发明对时间区间的确定方法不做限制。根据一种实施例，可以设定一数量阈值，将行为数量大于等于数量阈值的时刻所组成的最长的区间作为行为数量最大的时间区间。例如，如图6所示，直播时间段为[t1，t16]，直播时间段中的每一个时刻均具有对应的行为数量，即，在t1时刻，用户针对目标商品的行为数量为n1；在t2时刻，用户针对目标商品的行为数量为n2；…；以此类推。设定数量阈值n，直播时间段中行为数量大于等于n的时刻为t6、t7、t8、t9、t10、t11、t12、t14、t15，这些时刻组成[t6，t12]和[t14，t15]两个区间，将区间长度最长的区间，即区间[t6，t12]作为行为数量最大的时间区间。

根据另一种实施例，可以确定直播时间段中行为数量最大的时刻，将该时刻作为时间区间的中点，设定时间区间的长度，结合时间区间的中点和长度来确定行为数量最大的时间区间。例如，在直播时间段中行为数量最大的时刻为t，设定时间区间的长度为△t，则行为数量最大的时间区间为[t-△t/2，t+△t/2]。

根据又一种实施例，可以设定时间区间的长度，然后设置一个与时间区间长度相同的滑动窗口，将滑动窗口在直播时间段中移动，滑动窗口每移动至一个位置，均计算该滑动窗口中所包括的时刻的行为数量的总和，将总和最大的滑动窗口所覆盖的时刻组成时间区间。例如，直播时间段为[t1，t16]，设定时间区间的长度为△t＝5，从直播时间段的第一个时刻t1开始，分别计算[t1，t6]，[t2，t7]，…，[t11，t16]等11个区间的行为数量总和，将行为数量总和最大的区间作为行为数量最大的时间区间。

以上给出了确定行为数量最大的时间区间的三种方法，本领域技术人员可以理解，除上述三种方法之外，还可以采用其他方法来确定行为数量最大的时间区间，本发明对行为数量最大的时间区间的确定方法不做限制。

在确定了行为数量最大的时间区间之后，执行步骤S514。

在步骤S514中，截取该时间区间以及该时间区间之前的预设时长内的视频片段，作为第一视频片段。

考虑到用户的行为相对于直播视频的播出具有一定的滞后性，例如，用户可能在主播展示目标商品一段时间之后，才产生将目标商品加入购物车、收藏、购买等行为。换言之，直播视频中，对目标商品的展示介绍可能发生于步骤S512所确定的时间区间之前。因此，在步骤S514中，与目标商品相关的第一视频片段不仅包括步骤S512所确定的时间区间内的视频片段，还包括该时间区间之前的预设时长内的视频片段。这样能够保证第一视频片段包括目标商品的完整的展示介绍内容。

需要说明的是，步骤S514中的预设时长可以由本领域技术人员自行设置，本发明对预设时长的取值不做限制。根据一种实施例，预设时长可以根据用户针对目标商品的行为类型来确定。

这种确定方式的主要考虑是，用户在直播中产生不同行为的便捷性不同，导致用户行为相对于视频播出的滞后时长不同。用户在直播中产生某一类型行为的便捷性越强，该类型的用户行为相对于视频播出的滞后时长越小，相应地，该行为类型的预设时长设置的越小。

例如，如图2A～2C所示，在直播界面中，若用户想要将商品1加入购物车，则可以先点击图2A中的图标205以进入图2B所示的界面，然后点击图2B中的购物车图标211，来完成将商品1加入购物车的行为。如果用户想要购买商品1，则需要点击图2A中的图标205进入图2B所示的界面，然后点击图2B中商品1的商品图片或商品名称从而进入图2C所示的商品详情页，然后在图2C中点击购买按钮216，来完成购买商品1的行为。

可见，在图2A～2C所示的实施例中，用户将商品加入购物车比购买商品所需要执行的界面交互操作更少，使得用户将商品加入购物车的行为的滞后时长相对于购买行为更小，相应地，设置加入购物车行为的预设时长小于购买行为的预设时长，例如将加入购物车行为的预设时长设置为60秒，将购买行为的预设时长设置为120秒。即，若步骤S512所确定的是用户将目标商品加入购物车的次数最多的时间区间，则在步骤S514中，将该时间区间及该时间区间之前60秒的视频片段作为第一视频片段。若步骤S512所确定的是用户购买目标商品的次数最多的时间区间，则在步骤S514中，将该时间区间及该时间区间之前120秒的视频片段作为第一视频片段。

经过步骤S510，可以从直播视频中截取出与目标商品粗略匹配的第一视频片段，第一视频片段中包括多个图像帧。随后，执行步骤S520。

在步骤S520中，分别将多个图像帧与目标商品进行匹配。

图像帧与目标商品相匹配，表示该图像帧中展示了目标商品，即，该图像帧中包含目标商品的图像。

根据一种实施例，可以通过将图像帧与目标商品的图像进行像素颜色比对的方式来判断图像帧与目标商品是否匹配。但由于直播时的环境(例如光线、背景颜色等)以及服装的穿着状态与拍摄目标商品的图像时不同(直播时服装穿在主播身上，目标商品的图像可能仅对目标商品进行展示，没有模特试穿)，直接将图像帧与目标商品图像进行像素颜色比对所得出的匹配结果的准确性不高。

为了提高图像帧与目标商品的匹配准确性，根据一种实施例，采用机器学习的方法来判断图像帧与目标商品是否匹配，即：将图像帧和目标商品的图像输入预设的分类模型，以便分类模型输出该图像帧与目标商品是否匹配的判决。其中，分类模型以标注了匹配结果的图像帧与商品图像为训练样本训练得出。

需要说明的是，本发明对分类模型的结构类型不做限制，任意能够输出图像帧与目标商品是否匹配的判决的分类模型均在本发明的保护范围之列。例如，分类模型例如可以是AlexNet、VGGNet、ResNet等卷积神经网络模型，但不限于此。

经过步骤S520，可以得出第一视频片段中的每一个图像帧与目标商品的匹配结果。随后，执行步骤S530。

在步骤S530中，根据多个图像帧与目标商品的匹配结果，从第一视频片段中截取出针对目标商品的第二视频片段。

第二视频片段的截取方法有多种，本领域技术人员可以自行设计或选用合适的方法，本发明对步骤S530的具体实施方法不做限制。根据一种实施例，可以将第一视频片段中与目标商品相匹配的多个图像帧组成第二视频片段。例如，第一视频片段包括frame1～frame100共100个图像帧，其中，图像帧frame30～frame50、frame55、frame60～frame80与目标商品相匹配，则将图像帧frame30～frame50、frame55、frame60～frame80进行组合拼接，形成第二视频片段。

根据另一种实施例，可以将第一视频片段中与目标商品相匹配的第一个图像帧作为起点帧；将第一视频片段中与目标商品相匹配的最后一个图像帧最为终点帧；从第一视频片段中截取出位于起点帧与终点帧之间的视频片段，作为第二视频片段。例如，第一视频片段包括frame1～frame100共100个图像帧，其中，图像帧frame30～frame50、frame55、frame60～frame80与目标商品相匹配，则将与目标商品相匹配的第一个图像帧frame30作为起点帧，将与目标商品相匹配的最后一个图像帧frame80作为终点帧，从第一视频片段中截取出位于起点帧frame30与终点帧frame80之间的视频片段，即frame30～frame80，作为第二视频片段。

以上给出了从第一视频片段中截取出第二视频片段的两种方法，本领域技术人员可以理解，除了上述两种方法之外，还可以采用其他方法来从第一视频片段中截取出第二视频片段，本发明对从第一视频片段中截取出第二视频片段的方法不做限制。

经过步骤S530，可以从与目标商品粗略匹配的第一视频片段中截取出与目标商品精确匹配的第二视频片段，第二视频片段针对目标商品，即，第二视频片段中仅包括对目标商品的展示介绍。

为了更便于用户获取目标商品的相关信息，为第二视频片段添加片头帧和/或片尾帧，将片头帧、第二视频片段、片尾帧组合形成目标视频。将目标视频作为针对目标商品的短视频，商家可以将目标视频放置在目标商品的详情页中(例如放置在图2C所示的视图展示区域213)，以便用户更加全面地了解目标商品的相关信息；或者将目标视频转发至特定渠道，以对目标商品进行宣传推广。

片头帧、片尾帧可以包括目标商品的基本信息、商家信息、直播信息中的至少一种，但不限于此。基本信息例如包括商品的名称、图片、价格、销量、收藏量等，商家信息例如包括商家的头像、名称、所在的城市、粉丝数量等，直播信息例如包括直播软件的下载链接(可以实现为二维码)、直播房间号、主播信息等，但不限于此。

图7、图8分别示出了本发明一个实施例的片头帧、片尾帧的示意图，如图7所示，片头帧包括目标商品的名称“多种穿法收腰长袖套头毛衣”、价格“￥300”、销售量“7300件”，商家名称“商家A”和直播房间号“1234”。如图8所示，片尾帧包括直播房间号“1234”，以及直播软件的二维码下载链接，通过扫描该二维码，可以进入直播软件的下载界面。

上述实施例描述了在商品直播的应用场景中，从直播视频中截取出针对目标商品的视频片段的方法。但是，本领域技术人员可以理解，上述截取视频片段的方法不限于商品直播场景，还可以类推适用于其他场景中。鉴于此，本发明还提供一种对象信息的生成方法，该方法适于从视频中截取出针对目标对象的视频片段，并基于该视频片段，生成目标对象的视频信息。

图9示出了根据本发明一个实施例的对象信息生成方法900的流程图。方法900在服务端(例如前述服务端110)中执行，用于从视频中自动截取出针对目标对象的视频片段。这里的视频可以是任意类型的视频，例如前述商品直播视频，或者监控视频、综艺视频、电影/剧集视频等，但不限于此。目标对象可以是任意类型的对象，例如前述商品对象，或者人物、动物、物品等，但不限于此。

如图9所示，方法900始于步骤S910。

在步骤S910中，接收视频截取请求，视频截取请求包括至少一个目标对象。

视频截取请求由用户发出。具体地，用户通过手机、电脑等终端设备指定需要截取视频片段的一个或多个目标对象，以向服务端发起视频截取请求。相应地，在步骤S910中，服务端接收用户发来的视频截取请求，该视频截取请求包括用户指定的至少一个目标对象。

视频以及目标对象的类型根据应用场景的不同而有所区别。例如，在前述商品直播的场景中，视频的类型为直播视频，目标对象为商品。在一些娱乐场景中，视频内容的提供商想要从电影或剧集视频中截取出包括特定演员的视频片段，从而便于观众(例如该演员的影迷)只观看包含该演员的视频内容。在该场景中，视频为电影或剧集视频，目标对象为特定演员。在一些警务场景中，受害人或警务人员想要从监控视频中截取出包括犯罪嫌疑人的视频片段，在该场景中，视频为监控视频，目标对象为犯罪嫌疑人。

随后，在步骤S920中，响应于视频截取请求，从视频中截取出针对目标对象的视频片段。

响应于视频截取请求，服务端可以从视频中自动截取出针对目标对象的视频片段。根据视频及目标对象类型的不同，服务端可以采用不同的方法来从视频中截取出针对目标对象的视频片段。

例如，当视频为直播视频，目标对象为商品时，可以采用前述直播视频截取方法500来截取出针对目标对象(商品)的视频片段。

当视频为电影或剧集视频，目标对象为特定演员时，根据一种实施例，可以根据用户观看该视频的交互数据来从视频中截取出与特定演员相关的第一视频片段，第一视频片段包括多个图像帧；随后，分别将多个图像帧与特定演员的图像进行匹配，根据匹配结果，从第一视频片段中截取出针对特定演员的第二视频片段。

例如，获取该视频的各个播放时间点的用户弹幕数据，通过自然语言处理(Natural Language Processing，简称NLP)的方法识别出与特定演员相关的弹幕(例如包括该演员的名字、昵称等内容的弹幕)。分别统计各个播放时间点的与该演员相关的弹幕的数量，从视频中截取出相关弹幕数量较多(大于阈值)的视频片段，作为第一视频片段。随后，将第一视频片段中的多个图像帧与特定演员的图像进行匹配，根据匹配结果，从第一视频片段中截取出第二视频片段，第二视频片段即为针对该特定演员的视频片段。

当视频为监控视频，目标对象为犯罪嫌疑人时，根据一种实施例，可以将该视频的每一个图像帧与犯罪嫌疑人的图像进行匹配，根据匹配结果来从中截取出针对犯罪嫌疑人的视频片段。根据另一种实施例，可以根据预定的作案时间从视频中截取出可能与犯罪嫌疑人相关的第一视频片段。随后，将第一视频片段的各图像帧与犯罪嫌疑人的图像进行匹配，根据匹配结果，从第一视频片段中截取出第二视频片段，第二视频片段即为针对犯罪嫌疑人的视频片段。

随后，在步骤S930中，基于视频片段，生成目标对象的视频信息。

根据一种实施例，可以直接将视频片段作为目标对象的视频信息。

根据另一种实施例，可以在视频片段的图像帧中添加标记信息，或在视频片段的任意位置(例如片头或片尾)添加包含目标对象相关信息的图像帧，将视频片段与添加的图像帧组合形成目标对象的视频信息。

例如，在前述商品直播场景中，可以为针对商品的视频片段添加片头帧和/或片尾帧，片头帧、片尾帧可以包括目标商品的基本信息、商家信息、直播信息等。将片头帧、视频片段、片尾帧组合形成目标商品的介绍视频，该介绍视频即为该商品的视频信息。

例如，在娱乐场景中，可以在截取出的针对特定演员的视频片段的添加片头帧和/或片尾帧，片头帧、片尾帧中包括该演员的照片、文字简介等内容。将片头帧、视频片段和片尾帧组合形成该特定演员的个人剪辑视频，该个人剪辑视频即为该演员的视频信息。

又例如，在警务场景中，可以在截取出的针对犯罪嫌疑人的监控视频片段中，采用箭头、椭圆框等图形标记出犯罪嫌疑人在每一帧图像中的位置。该标记出犯罪嫌疑人位置的视频片段即为犯罪嫌疑人的视频信息。

需要说明的是，由于篇幅所限，以上仅以有限数量个实施例说明了本发明的对象信息生成方法900。但是本领域技术人员可以理解，方法900不局限于上述实施例，本领域技术人员可以将方法900类推适用于其他需要生成目标对象的视频片段的应用场景中。

图10示出了根据本发明一个实施例的计算设备1000的示意图。如图10所示，计算设备1000包括处理器1010和存储器1020。存储器1020中存储有用于执行前述商品信息生成方法300和/或商品信息生成方法400和/或直播视频截取方法500和/或对象信息生成方法900的指令，当这些程序指令被处理器1010读取并执行时，使得计算设备1000执行本发明的商品信息生成方法300和/或商品信息生成方法400和/或直播视频截取方法500和/或对象信息生成方法900。通过在计算设备1000中部署用于执行前述方法300～500、900的程序指令，计算设备1000可以实现为前述的服务端110。

图11示出了根据本发明一个实施例的直播视频截取装置1100的示意图。装置1100驻留于服务端110中，其包括多条程序指令，用于执行本发明的直播视频截取方法500。如图11所示，装置1100包括第一截取模块1110和第二截取模块1120。

第一截取模块1110，适于根据用户在直播时间段内针对目标商品的行为数据，从直播视频中截取出与目标商品相关的第一视频片段，第一视频片段包括多个图像帧。第一截取模块1110具体用于执行如前述步骤S510的方法，关于第一截取模块1110的处理逻辑和功能可以参见前述步骤S510的相关描述，此处不再赘述。

第二截取模块1120，适于分别将多个图像帧与目标商品进行匹配；以及根据多个图像帧与目标商品的匹配结果，从第一视频片段中截取出针对目标商品的第二视频片段。第二截取模块1120具体用于执行如前述步骤S520、S530的方法，关于第二截取模块1120的处理逻辑和功能可以参见前述步骤S520、S530的相关描述，此处不再赘述。

图12示出了根据本发明一个实施例的对象信息生成装置1200的示意图。装置1200驻留于服务端110中，其包括多条程序指令，用于执行本发明的对象信息生成方法900。如图12所示，装置1200包括通信模块1210、视频截取模块1220和对象信息生成模块1230。

通信模块1210适于接收视频截取请求，视频截取请求包括至少一个目标对象。通信模块1210具体用于执行如前述步骤S910所述的方法，关于通信模块1210的处理逻辑和功能可以参见前述步骤S910的相关描述，此处不再赘述。

视频截取模块1220适于响应于视频截取请求，从视频中截取出针对目标对象的视频片段。视频截取模块1220具体用于执行如前述步骤S920所述的方法，关于视频截取模块1220的处理逻辑和功能可以参见前述步骤S920的相关描述，此处不再赘述。

对象信息生成模块1230适于基于视频片段，生成目标对象的视频信息。对象信息生成模块1230具体用于执行如前述步骤S930所述的方法，关于对象信息生成模块1230的处理逻辑和功能可以参见前述步骤S930的相关描述，此处不再赘述。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的直播视频截取方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种直播视频截取方法，所述直播视频的内容包括针对多个商品的展示介绍，所述方法包括：

根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，所述第一视频片段包括多个图像帧，其中，确定用户针对目标商品的行为数量最大的时间区间；截取所述时间区间以及所述时间区间之前的预设时长内的视频片段，作为所述第一视频片段；

分别将所述多个图像帧与目标商品进行匹配；

根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段。

2.如权利要求1所述的方法，其中，所述预设时长根据用户针对目标商品的行为类型来确定。

3.如权利要求2所述的方法，其中，所述行为类型包括加入购物车、浏览、收藏、购买、点赞、评论。

4.如权利要求1所述的方法，其中，所述分别将所述多个图像帧与目标商品进行匹配，包括：

将图像帧和目标商品的图像输入预设的分类模型，以便所述分类模型输出所述图像帧与目标商品是否匹配的判决。

5.如权利要求4所述的方法，其中，所述分类模型以标注了匹配结果的图像帧与商品图像为训练样本训练得出。

6.如权利要求1所述的方法，其中，所述根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段，包括：

将第一视频片段中与目标商品相匹配的多个图像帧组成第二视频片段。

7.如权利要求1所述的方法，其中，所述根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段，包括：

将第一视频片段中与目标商品相匹配的第一个图像帧作为起点帧；

将第一视频片段中与目标商品相匹配的最后一个图像帧最为终点帧；

从第一视频片段中截取出位于起点帧与终点帧之间的视频片段，作为第二视频片段。

8.如权利要求1所述的方法，还包括：

为第二视频片段添加片头帧和/或片尾帧，将片头帧、第二视频片段、片尾帧组合形成目标视频。

9.如权利要求8所述的方法，其中，所述片头帧、片尾帧包括：目标商品的基本信息、商家信息、直播信息中的至少一种。

10.一种商品信息生成方法，包括：

接收视频截取请求，所述视频截取请求包括起始时间点和结束时间点；

响应于所述视频截取请求，从直播视频中截取出针对目标商品的视频片段；

为所述视频片段添加片头帧和/或片尾帧，以生成所述目标商品的商品信息，

其中，根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，所述第一视频片段包括多个图像帧，其中，确定用户针对目标商品的行为数量最大的时间区间；截取所述时间区间以及所述时间区间之前的预设时长内的视频片段，作为所述第一视频片段；

分别将所述多个图像帧与目标商品进行匹配；

11.如权利要求10所述的方法，其中，所述头帧、片尾帧包括：目标商品的商品基本信息、商家信息、直播信息中的至少一种。

12.一种商品信息生成方法，包括：

接收视频截取请求，所述视频截取请求包括至少一个目标商品；

其中，所述从直播视频中截取出针对目标商品的视频片段，包括：

分别将所述多个图像帧与目标商品进行匹配；

13.如权利要求12所述的方法，其中，所述头帧、片尾帧包括：目标商品的商品基本信息、商家信息、直播信息中的至少一种。

14.一种对象信息的生成方法，包括：

接收视频截取请求，所述视频截取请求包括至少一个目标对象；

响应于所述视频截取请求，从视频中截取出针对目标对象的视频片段；

基于所述视频片段，生成所述目标对象的视频信息，

其中，所述从视频中截取出针对目标对象的视频片段，包括：

根据用户在观看视频的时间段内针对目标对象的行为数据，从所述视频中截取出与目标对象相关的第一视频片段，所述第一视频片段包括多个图像帧，其中，确定用户针对目标对象的行为数量最大的时间区间；截取所述时间区间以及所述时间区间之前的预设时长内的视频片段，作为所述第一视频片段；

分别将所述多个图像帧与目标对象进行匹配；

根据所述多个图像帧与目标对象的匹配结果，从所述第一视频片段中截取出针对目标对象的第二视频片段。

15.一种直播视频截取装置，所述直播视频的内容包括针对多个商品的展示介绍，所述装置包括：

第一截取模块，适于根据用户在直播时间段内针对目标商品的行为数据，从所述直播视频中截取出与目标商品相关的第一视频片段，所述第一视频片段包括多个图像帧，其中，确定用户针对目标商品的行为数量最大的时间区间；截取所述时间区间以及所述时间区间之前的预设时长内的视频片段，作为所述第一视频片段；

第二截取模块，适于分别将所述多个图像帧与目标商品进行匹配；以及根据所述多个图像帧与目标商品的匹配结果，从所述第一视频片段中截取出针对目标商品的第二视频片段。

16.一种对象信息的生成装置，包括：

通信模块，适于接收视频截取请求，所述视频截取请求包括至少一个目标对象；

视频截取模块，适于响应于所述视频截取请求，从视频中截取出针对目标对象的视频片段；

对象信息生成模块，适于基于所述视频片段，生成所述目标对象的视频信息，

分别将所述多个图像帧与目标对象进行匹配；

17.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行如权利要求1-14中任一项所述的方法。

18.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-14中任一项所述的方法。