CN111950425A

CN111950425A - 对象获取方法、装置、客户端、服务器、系统和存储介质

Info

Publication number: CN111950425A
Application number: CN202010784723.0A
Authority: CN
Inventors: 张昭
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-17
Anticipated expiration: 2040-08-06

Abstract

本公开关于一种对象获取方法、装置、客户端、服务器、系统和存储介质，该方法包括：对目标用户展示目标视频；识别到所述目标视频包括目标对象，向所述目标用户展示所述目标对象的对象信息；检测到所述目标用户实施的行为符合预设对象获取行为，针对所述目标用户执行所述目标对象的获取操作。采用本方法，实现了在向目标用户展示目标视频中包括的目标对象的对象信息的情况下，根据目标用户实施的行为，自动执行目标对象的获取操作的目的，无需用户对目标对象进行繁琐的获取操作，从而简化了对象的获取流程，进一步提高了对象的获取效率。

Description

对象获取方法、装置、客户端、服务器、系统和存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种对象获取方法、装置、客户端、服务器、系统和存储介质。

背景技术

随着互联网技术的不断发展，通过网络浏览例如视频这样的多媒体资源，已经成为人们获取信息的重要途径之一，多媒体资源的内容形式也日益丰富，例如出现了可以通过观看视频进行购物的购物视频，在观看购物视频过程中，观众可以通过购物视频中出现的商品购物电话、店铺网络地址、购物二维码等下单购买商品，但是，购物操作通常较为繁琐，影响用户购物体验。

发明内容

本公开提供一种对象获取方法、装置、客户端、服务器、系统和存储介质，以至少解决相关技术中对象获取效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对象获取方法，包括：

对目标用户展示目标视频；

识别到所述目标视频包括目标对象，向所述目标用户展示所述目标对象的对象信息；

检测到所述目标用户实施的行为符合预设对象获取行为，针对所述目标用户执行所述目标对象的获取操作。

在一示例性实施例中，所述识别到所述目标视频包括目标对象，包括：获取所述目标视频中的视频帧图像；通过图像特征提取模型提取所述视频帧图像中的图像特征；所述图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出所述图像的图像特征；若识别到所述图像特征中包括目标对象的图像特征，则确认所述目标视频包括所述目标对象。

在一示例性实施例中，所述识别到所述目标视频包括目标对象，还包括：获取所述目标视频中的视频帧图像；将所述视频帧图像输入预先训练的图像识别模型中，得到所述视频帧图像中的对象标签；所述图像识别模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的视频帧图像进行处理，得到所述视频帧图像中的对象标签，所述图像识别训练样本包括所述输入的视频帧图像以及所述视频帧图像中的对象标签；若所述视频帧图像中的对象标签为目标对象，则确认所述目标视频包括所述目标对象。

在一示例性实施例中，所述识别到所述目标视频包括目标对象，还包括：获取所述目标视频中的视频帧图像；对所述视频帧图像进行分割处理，生成所述视频帧图像中的多个候选区域图像；对各个所述候选区域图像进行分类处理，得到各个所述候选区域图像对应的物体标识；若所述物体标识与目标对象的对象标识匹配，则确认所述目标视频包括所述目标对象。

在一示例性实施例中，所述对各个所述候选区域图像进行分类处理，得到各个所述候选区域图像对应的物体标识，包括：通过图像分类模型对各个所述候选区域图像进行处理，得到各个所述候选区域图像对应的物体标识；其中，所述图像分类模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的候选区域图像进行处理，得到所述候选区域图像对应的物体标识，所述图像识别训练样本包括所述输入的候选区域图像以及所述候选区域图像对应的物体标识。

在一示例性实施例中，所述识别到所述目标视频包括目标对象，还包括：提取所述直播视频中的语音信息；获取所述语音信息对应的文本信息；若所述文本信息中包括与目标对象的对象标识匹配的信息，则确认所述目标视频包括所述目标对象。

在一示例性实施例中，所述方法还包括：查询预设的对象信息匹配表，获取所述目标对象的对象信息；所述预设的对象信息匹配表中存储有多个对象的对象信息。

在一示例性实施例中，所述方法还包括：根据所述目标对象搜索数据库，得到所述目标对象的对象信息；所述数据库存储有多个对象的对象信息。

在一示例性实施例中，所述检测到所述目标用户实施的行为符合预设对象获取行为，包括：获取所述目标用户实施的行为的行为图像；通过图像特征提取模型提取所述行为图像的图像特征；所述图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出所述图像的图像特征；若所述行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认所述目标用户实施的行为符合所述预设对象获取行为。

在一示例性实施例中，所述若所述行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认所述目标用户实施的行为符合所述预设对象获取行为，包括：获取所述行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度；若所述特征相似度大于预设相似度，则确认所述目标用户实施的行为符合所述预设对象获取行为。

在一示例性实施例中，所述检测到所述目标用户实施的行为符合预设对象获取行为，包括：获取所述目标用户实施的行为的行为图像；将所述目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到所述目标用户实施的行为的行为标签；所述行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的所述行为标签，所述图像训练样本包括所述输入的行为图像以及与所述输入的行为图像对应的行为标签；若所述目标用户实施的行为的行为标签为预设对象获取行为，则确认所述目标用户实施的行为符合所述预设对象获取行为。

在一示例性实施例中，所述针对所述目标用户执行所述目标对象的获取操作，包括：若所述目标用户实施的行为符合第一预设对象获取行为，将所述目标对象移动到目标区域。

在一示例性实施例中，所述针对所述目标用户执行所述目标对象的获取操作，包括：若所述目标用户实施的行为符合第二预设对象获取行为，根据所述目标用户的用户信息，对所述目标对象执行获取操作。

在一示例性实施例中，所述识别到所述目标视频包括目标对象，还包括：根据所述目标视频，生成视频识别请求；将所述视频识别请求发送至服务器，触发所述服务器返回所述目标视频中的视频帧图像的识别结果；若所述识别结果为所述目标视频的视频帧图像的图像特征中包括所述目标对象的图像特征，则确认所述目标视频包括所述目标对象。

在一示例性实施例中，所述方法还包括：根据所述目标对象，生成对象信息获取请求；向服务器发送所述对象信息获取请求，触发所述服务器返回所述目标对象的对象信息。

根据本公开实施例的第二方面，提供一种对象获取方法，包括：

接收客户端发送的目标视频；所述客户端用于对目标用户展示所述目标视频；

识别到所述目标视频包括目标对象，将所述目标对象的对象信息发送至所述客户端，所述客户端用于向所述目标用户展示所述目标对象的对象信息；

检测到所述客户端发送的所述目标用户实施的行为符合预设对象获取行为，将所述预设对象获取行为发送至所述客户端，触发所述客户端针对所述目标用户执行所述目标对象的获取操作。

在一示例性实施例中，所述检测到所述客户端发送的所述目标用户实施的行为符合预设对象获取行为，包括：接收所述客户端的行为识别请求；所述行为识别请求为所述客户端根据所述目标用户实施的行为的行为图像生成，所述目标用户实施的行为的行为图像由所述客户端采集得到；根据所述行为识别请求，通过图像特征提取模型提取所述行为图像的图像特征；所述图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出所述图像的图像特征；若所述行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认所述目标用户实施的行为符合所述预设对象获取行为。

在一示例性实施例中，所述检测到所述客户端发送的所述目标用户实施的行为符合预设对象获取行为，还包括：接收所述客户端的行为识别请求；所述行为识别请求为所述客户端根据所述目标用户实施的行为的行为图像生成，所述目标用户实施的行为的行为图像由所述客户端采集得到；根据所述行为识别请求，将所述目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到所述目标用户实施的行为的行为标签；所述行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的所述行为标签，所述图像训练样本包括所述输入的行为图像以及与所述输入的行为图像对应的行为标签；若所述目标用户实施的行为的行为标签为预设对象获取行为，则确认所述目标用户实施的行为符合所述预设对象获取行为。

根据本公开实施例的第三方面，提供一种对象获取装置，包括：

目标视频展示单元，被配置为执行对目标用户展示目标视频；

对象信息展示单元，被配置为执行识别到所述目标视频包括目标对象，向所述目标用户展示所述目标对象的对象信息；

获取操作执行单元，被配置为执行检测到所述目标用户实施的行为符合预设对象获取行为，针对所述目标用户执行所述目标对象的获取操作。

根据本公开实施例的第四方面，提供一种对象获取装置，包括：

目标视频接收单元，被配置为执行接收客户端发送的目标视频；所述客户端用于对目标用户展示所述目标视频；

对象信息发送单元，被配置为执行识别到所述目标视频包括目标对象，将所述目标对象的对象信息发送至所述客户端，所述客户端用于向所述目标用户展示所述目标对象的对象信息；

行为检测单元，被配置为执行检测到所述客户端发送的所述目标用户实施的行为符合预设对象获取行为，将所述预设对象获取行为发送至所述客户端，触发所述客户端针对所述目标用户执行所述目标对象的获取操作。

根据本公开实施例的第五方面，提供一种客户端，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的对象获取方法。

根据本公开实施例的第六方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第二方面的任一项实施例中所述的对象获取方法。

根据本公开实施例的第七方面，提供一种对象获取系统，包括：第五方面任一项实施例中所述的客户端，以及第六方面任一项实施例中所述的服务器。

根据本公开实施例的第八方面，提供一种存储介质，包括：当所述存储介质中的指令由客户端的处理器执行时，使得所述客户端能够执行第一方面的任一项实施例中所述的对象获取方法。

根据本公开实施例的第九方面，提供一种存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行第二方面的任一项实施例中所述的对象获取方法。

根据本公开实施例的第十方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面和第二方面的任一项实施例中所述的对象获取方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对目标用户展示目标视频；然后对目标视频进行识别，若识别到目标视频包括目标对象，向目标用户展示目标对象的对象信息；最后对目标用户实施的行为进行检测，若检测到目标用户实施的行为符合预设对象获取行为，针对目标用户执行目标对象的获取操作；实现了在向目标用户展示目标视频中包括的目标对象的对象信息的情况下，根据目标用户实施的行为，自动执行目标对象的获取操作的目的，无需用户对目标对象进行繁琐的获取操作，简化了对象的获取流程，进一步提高了对象的获取效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种对象获取方法的应用环境图。

图2是根据一示例性实施例示出的一种对象获取方法的流程图。

图3是根据一示例性实施例示出的第一信息提示框的界面示意图。

图4是根据一示例性实施例示出的第二信息提示框的界面示意图。

图5是根据一示例性实施例示出的第三信息提示框的界面示意图。

图6是根据一示例性实施例示出的另一种对象获取方法的应用环境图。

图7是根据一示例性实施例示出的另一种对象获取方法的流程图。

图8是根据一示例性实施例示出的一种对象获取装置的框图。

图9是根据一示例性实施例示出的另一种对象获取装置的框图。

图10是根据一示例性实施例示出的一种客户端的内部结构图。

图11是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的对象获取方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括客户端110。客户端110是具有视频播放功能的电子设备，该电子设备可以是智能手机、平板电脑、笔记本电脑或个人计算机等。图1中以客户端110是智能手机为例进行说明，客户端110对目标用户展示目标视频；识别到目标视频包括目标对象，向目标用户展示目标对象的对象信息；检测到目标用户实施的行为符合预设对象获取行为，针对目标用户执行目标对象的获取操作。

图2是根据一示例性实施例示出的一种对象获取方法的流程图，如图2所示，对象获取方法用于如图1所示的客户端110中，包括以下步骤：

在步骤S210中，对目标用户展示目标视频。

其中，目标视频是指包含有对象的视频，比如包含有商品的视频；在实际场景中，目标视频可以是指直播视频，也可以是指回放视频；直播视频是指主播用户进行录屏直播时所对应的视频，比如唱歌直播视频、游戏直播视频、跳舞直播视频、卖货直播视频等。需要说明的是，本公开主要以直播视频为卖货直播视频为例进行说明；回放视频是指预先录制好的视频。

具体地，客户端响应目标用户的视频播放指令，获取对应的目标视频，并对目标用户展示目标视频。举例说明，若目标视频为直播视频，那么在直播卖货场景中，主播用户想要发起直播时，可以对主播客户端显示的直播应用程序首页界面中表示发起直播的图标进行点击操作，触发该直播应用程序进入主播用户对应的主播账户的直播间；主播客户端在检测到针对直播应用程序首页界面中表示发起直播的图标的点击操作，触发进入直播间的指令，并基于该指令从直播应用程序首页界面切换至主播用户对应的主播账户的直播间界面，这个时候，主播用户可以在直播间介绍相关商品；对于用户客户端来说，可以通过对应的直播应用程序登录到网络直播平台中，并进入该主播用户所创建的直播间；这个时候，目标用户可以在该直播间中观看该主播用户发起的直播视频。

举例说明，若目标视频为回放视频，那么目标用户想要查看回放视频时，可以对客户端界面中显示的任意回放视频图标进行点击操作，触发对回放视频图标对应的回放视频的播放指令；客户端响应该播放指令，播放对应的回放视频，以向目标用户展示回放视频。

在步骤S220中，识别到目标视频包括目标对象，向目标用户展示目标对象的对象信息。

其中，目标对象是指需要展示的商品，具体可以是实体商品，也可以是虚拟商品；商品是指可以用于交换的产品，比如手机、电脑、衣服、耳机、鞋子等，在此本公开不做具体限定。对象信息是指与目标对象相关的信息，具体是指商品的相关信息，比如商品图片、商品链接、商品名称、商品品牌、商品功能、商品形状或外形、商品颜色、商品的尺寸、商品材质等。

其中，目标视频包括目标对象是指目标视频中包括有预设的对象，比如直播视频中的主播用户正在介绍预设的商品。

具体地，客户端基于图像识别算法，实时对目标视频中的视频帧图像进行识别，以确认目标视频中是否包括目标对象；若识别到目标视频中包括目标对象，则获取目标对象的对象信息，并向目标用户展示目标对象的对象信息。这样，通过主动识别目标视频中是否包括目标对象，并在识别到目标视频中包括目标对象，则向目标用户展示目标对象的对象信息，便于后续基于目标用户实施的行为，自动执行目标对象的获取操作，无需用户自行搜索对象信息或者自行点击对象链接来获取目标对象，从而提高了对象的获取效率。

进一步地，客户端还可以基于语音识别算法，实时对目标视频中的音频进行识别，以识别目标视频中的音频是否包含有与目标对象的对象标识匹配的音频，从而确认目标视频中是否包括目标对象；若识别到目标视频中的音频包含有与目标对象的对象标识匹配的音频，则确认目标视频中包括目标对象；获取目标对象的对象信息，并向目标用户展示目标对象的对象信息。

此外，向目标用户展示目标对象的对象信息，具体可以包括如下内容：客户端在目标视频中的预设区域展示目标对象的对象信息，其中，预设区域是指目标视频中的某个区域；至于该预设区域的大小、形状、位置等信息，可以根据实际情况进行调整。当然，客户端还可以在目标视频中的预设区域，以预设格式展示目标对象的对象信息，比如参考图1，终端以信息提示框的格式，向目标用户展示目标对象的对象信息；当然，客户端还可以以弹幕的格式或者其他格式，向目标用户展示目标对象的对象信息。

在步骤S230中，检测到目标用户实施的行为符合预设对象获取行为，针对目标用户执行目标对象的获取操作。其中，目标用户实施的行为是指无需直接对目标对象实施的行为，例如，通过终端屏幕展示目标对象时，目标用户实施的行为是指无需手动触摸终端屏幕的行为，具体包括眼部行为、手部行为、肢体语言等。预设对象获取行为是指预设类型的用户行为，用于指示用户获取目标对象的意图；不同预设对象获取行为，对应的目标对象的获取操作不一样。目标对象的获取操作是指针对目标对象的获取操作信息；在实际场景中，目标对象的获取操作可以是指将商品添加到用户购物车，直接购买商品等。

具体地，客户端实时检测目标用户的实施的行为，若检测到目标用户实施的行为，则将目标用户实施的行为与预设对象获取行为进行匹配，若目标用户实施的行为符合预设对象获取行为，则针对目标用户执行目标对象的对应获取操作。例如，参考图3，目标对象为目标商品B，客户端在目标视频中的预设区域展示目标商品B的商品信息，目标用户如果想要下单购买目标商品B，则可以实施拇指向右的行为，触发客户端跳转至目标商品B的订单支付界面，对目标商品B进行结算处理；而传统技术中，目标用户如果想要购买目标商品B，需要手动点击目标视频中出现的目标商品B的购物链接，跳转至目标商品B的详情页面，在目标商品B的详情页面手动点击购买，跳转至目标商品B的订单支付界面，在目标商品B的订单支付界面手动进行支付操作，以完成目标商品B的购买操作，整个对象获取过程比较繁琐；或者，目标用户手动点击目标视频中出现的目标商品B所在店铺的网络地址，跳转至店铺页面，在店铺页面手动搜索和选择目标商品B，跳转至目标商品B的详情页面，在目标商品B的详情页面手动点击购买，跳转至目标商品B的订单支付界面，在目标商品B的订单支付界面手动进行支付操作，以完成目标商品B的购买操作，整个对象获取过程也比较繁琐。这样，经过对比可知，本公开提供的技术方案，可以根据目标用户实施的行为，自动执行目标对象的获取操作，整个对象获取过程中无需用户对目标对象进行繁琐的获取操作，从而减少了目标用户对目标对象的获取操作步骤，进而提高了对象的获取效率。

上述对象获取方法，通过对目标用户展示目标视频；然后对目标视频进行识别，若识别到目标视频包括目标对象，向目标用户展示目标对象的对象信息；最后对目标用户实施的行为进行检测，若检测到目标用户实施的行为符合预设对象获取行为，针对目标用户执行目标对象的获取操作；实现了在向目标用户展示目标视频中包括的目标对象的对象信息的情况下，根据目标用户实施的行为，自动执行目标对象的获取操作的目的，无需用户对目标对象执行繁琐的获取操作，从而简化了对象的获取流程，进一步提高了对象的获取效率。

在一示例性实施例中，上述步骤S220，识别到目标视频包括目标对象，包括：获取目标视频中的视频帧图像；通过图像特征提取模型提取视频帧图像中的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若识别到图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

其中，直播视频是由众多个静止的画面组成，这些静止的画面称为视频帧图像。图像特征用于表示目标视频中的图像的特征信息，每个目标对象均具有对应的图像特征，不同目标对象对应的图像特征不一样，可以通过图像特征提取模型提取得到；图像特征提取模型是指能够提取出图像特征的神经网络模型，比如卷积神经网络模型。具体地，客户端可以将样本图像以及样本图像的图像特征作为图像样本集，输入至预设类型的神经网络进行训练，得到图像特征提取模型，从而使用图像特征提取模型，可以对输入的图像进行处理，得到对应的图像特征。

具体地，客户端获取目标视频中的视频帧图像，将目标视频中的视频帧图像输入图像特征提取模型中，通过图像特征提取模型对视频帧图像进行图像特征提取处理，得到视频帧图像中的图像特征；根据预设的目标对象的图像特征，对视频帧图像的图像特征进行检测；若视频帧图像的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品。

需要说明的是，若视频帧图像的图像特征包括多个目标对象的图像特征，则确认目标视频包括多个目标对象，例如主播用户当前正在介绍多个目标商品。

进一步地，客户端还可以从目标视频中的视频帧图像中筛选出关键视频帧图像，通过图像特征提取模型提取关键视频帧图像中的图像特征；若识别到关键视频帧图像中的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

本公开实施例提供的技术方案，通过对目标视频中的整个视频帧图像进行识别，有利于准确且快速确定目标视频中是否包括目标对象，便于后续在目标视频中展示目标视频中包括的目标对象的对象信息，以达到在目标视频中自动展示目标视频中包括的目标对象的对象信息的目的；无需直播用户手动查找并置顶目标对象的对象信息，从而减少了直播用户在展示对象信息的操作步骤，进而提高了对象信息的展示效率，同时降低了对象信息的展示成本。

在另一示例性实施例中，上述步骤S220，识别到目标视频包括目标对象，还包括：根据目标视频，生成视频识别请求；将视频识别请求发送至服务器，触发服务器返回目标视频中的视频帧图像的识别结果；若识别结果为目标视频的视频帧图像的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

具体地，客户端在对目标用户展示目标视频之后，生成与目标视频对应的视频识别请求，并将该视频识别请求发送至对应的服务器。服务器对该视频识别请求进行解析，得到目标视频，获取目标视频中的视频帧图像；将目标视频中的视频帧图像输入图像特征提取模型中，通过图像特征提取模型对视频帧图像进行图像特征提取处理，得到目标视频中的视频帧图像的图像特征；将目标视频中的视频帧图像的图像特征与目标对象的图像特征进行匹配，得到目标视频中的视频帧图像的识别结果，并将目标视频中的视频帧图像的识别结果返回给客户端。客户端对接收到的识别结果进行解析，若该识别结果为目标视频的视频帧图像的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品。

本公开实施例提供的技术方案，在对目标用户展示目标视频之后，通过与目标视频对应的视频识别请求，触发服务器返回目标视频中的视频帧图像的识别结果，进而根据该识别结果确认目标视频是否包括目标对象，实现了通过服务器识别目标视频是否包括目标对象的目的，避免了客户端性能较差而无法识别目标视频或者对目标视频的识别准确率较低的缺陷，从而保证了对目标视频的准确识别，便于后续在目标视频中自动向目标用户展示目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在另一示例性实施例中，上述步骤S220，识别到目标视频包括目标对象，还包括：获取目标视频中的视频帧图像；将视频帧图像输入预先训练的图像识别模型中，得到视频帧图像中的对象标签；图像识别模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的视频帧图像进行处理，得到视频帧图像中的对象标签，图像识别训练样本包括输入的视频帧图像以及视频帧图像中的对象标签；若视频帧图像中的对象标签为目标对象，则确认目标视频包含目标对象。

其中，对象标签是指用于标识对象的信息，比如对象名称、对象编号等；不同对象对应的对象标签不一样。预先训练的图像识别模型是指能够识别视频帧图像中的对象标签的神经网络模型，比如卷积神经网络模型、深度学习模型。

具体地，客户端获取目标视频中的视频帧图像，将视频帧图像输入预先训练的图像识别模型中，通过预先训练的图像识别模型对视频帧图像进行一系列神经网络处理，得到视频帧图像中的对象标签；将视频帧图像中的对象标签与目标对象进行匹配，若视频帧图像中的对象标签为目标对象，则确认目标视频包括目标对象，例如主播用户当前正在介绍目标商品；若视频帧图像中的对象标签不是目标对象，则确认目标视频没有包含目标对象，例如主播用户当前没有在介绍目标商品。当然，在视频帧图像中的对象标签为目标对象的情况下，图像识别模型还可以输出目标对象在视频帧图像中的位置信息。

进一步地，图像识别模型可以通过下述方式训练得到：客户端将输入的视频帧图像以及视频帧图像中的对象标签作为图像识别训练样本，输入至预设的神经网络进行训练，得到训练好的图像识别模型，作为预先训练的图像识别模型，从而使用该预先训练的图像识别模型，可以对输入的视频帧图像进行处理，得到视频帧图像中的对象标签。本公开实施例提供的技术方案，通过将目标视频中的视频帧图像输入预先训练的图像识别模型中，可以快速且准确地识别出目标视频中的对象标签，进而通过对象标签来确认目标视频中是否包括目标对象，便于后续在目标视频中自动向目标用户展示目标对象的对象信息，无需通过用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在又一示例性实施例中，上述步骤S220，识别到目标视频包括目标对象，还包括：获取目标视频中的视频帧图像；对视频帧图像进行分割处理，生成视频帧图像中的多个候选区域图像；对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

其中，候选区域图像是指从视频帧图像中分割出来的核心图像；物体标识是指物体的标识信息，比如物体名称、物体编号等；目标对象的对象标识是指目标对象的标识信息，比如对象名称、对象编号等。

具体地，客户端获取目标视频中的视频帧图像，通过区域候选网络模型对视频帧图像进行目标检测，得到视频帧图像中的多个候选区域；对视频帧图像中的多个候选区域进行分割处理，生成视频帧图像中的多个候选区域图像；通过分类器对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；将各个候选区域图像对应的物体标识与目标对象的对象标识进行匹配，若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品；若物体标识与目标对象的对象标识不匹配，则确认目标视频中没有包括目标对象，例如主播用户当前没有在介绍目标商品。其中，候选区域网络模型是指能够识别出图像中的候选区域的神经网络，分类器是指能够对输入的图像进行分类，得到图像中的物体标识的神经网络，比如softmax分类器。

当然，在视频帧图像中的候选区域图像对应的物体标识与目标对象的对象标识匹配的情况下，客户端还可以识别出目标对象在视频帧图像中的位置信息。

本公开实施例提供的技术方案，通过对视频帧图像中的多个候选区域图像进行识别，无需对整个视频帧图像进行识别，可以快速且准确地识别出目标视频中是否包括目标对象，从而提高了目标视频中的目标对象的识别效率以及识别准确率；同时有利于后续在目标视频中自动展示目标视频中包括的目标对象的对象信息，无需通过用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在一示例性实施例中，对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识，包括：通过图像分类模型对各个候选区域图像进行处理，得到各个候选区域图像对应的物体标识；其中，图像分类模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的候选区域图像进行处理，得到候选区域图像对应的物体标识，图像识别训练样本包括输入的候选区域图像以及候选区域图像对应的物体标识。

其中，图像分类模型是指能够识别出候选区域图像对应的物体标识的神经网络模型，比如卷积神经网络模型、深度学习模型。

具体地，客户端将各个候选区域图像输入到图像分类模型，通过图像分类模型对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；例如，各个候选区域图像对应的物体标识分别是物体标识A1、物体标识A2、物体标识A3，而目标对象的对象标识为A2，说明有一个候选区域图像对应的物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

进一步地，图像分类模型可以通过下述方式训练得到：客户端将输入的候选区域图像以及候选区域图像对应的物体标识作为图像识别训练样本，输入至预设的神经网络进行训练，得到训练好的图像分类模型，从而使用该训练好的图像分类模型，可以对输入的候选区域图像进行处理，得到候选区域图像对应的物体标识。本公开实施例提供的技术方案，通过图像分类模型对各个候选区域图像进行处理，有利于快速且准确地识别出各个候选区域图像对应的物体标识，从而提高了目标视频中的物体标识的识别效率以及识别准确率；同时便于后续通过将各个候选区域图像对应的物体标识与目标对象的对象标识进行匹配，即可确认目标视频是否包括目标对象，从而提高了目标视频中的目标对象的识别效率。

在再一示例性实施例中，上述步骤S220，识别到目标视频包括目标对象，还包括：提取直播视频中的语音信息；获取语音信息对应的文本信息；若文本信息中包含与目标对象的对象标识匹配的信息，则确认目标视频包括目标对象。

其中，语音信息一般是指视频中的人物(比如主播用户)的语音信息；与目标对象的对象标识匹配的信息，是指预先设置的与目标对象的对象标识对应的对象口令，比如商品口令，具体是指包含商品名称、商品编号或者特定关键词的口令；例如，商品A、现在是商品B等。

具体地，客户端通过预设的语音提取指令，提取目标视频中的语音信息；对语音信息进行解码处理，得到语音信息对应的文本信息；对文本信息进行分词处理，得到文本信息对应的分词，将文本信息对应的分词和与目标对象的对象标识匹配的信息进行匹配，若文本信息对应的分词和与目标对象的对象标识匹配的信息匹配成功，则确认文本信息中包括与目标对象的对象标识匹配的信息，进而确认目标视频包括目标对象，说明主播用户当前正在介绍目标商品。

举例说明，假设与目标商品的商品标识A匹配的信息是指商品口令“商品A”，那么在直播卖货的过程中，主播用户在直播间讲了“现在是商品A”这段语音；此时，客户端识别到该语音包含商品口令“商品A”，则确认直播视频中包括该目标商品。

本公开实施例提供的技术方案，通过对目标视频中的语音信息进行识别，可以快速且准确地识别出目标视频中是否包括目标对象，便于后续在目标视频中自动展示目标视频中包括的目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在一示例性实施例中，上述步骤S220，在向目标用户展示目标对象的对象信息之前，还包括：查询预设的对象信息匹配表，获取目标对象的对象信息；预设的对象信息匹配表中存储有多个对象的对象信息；

具体地，客户端根据目标对象的对象标识(如商品名称)，查询存储有多个对象的对象信息的预设的对象信息匹配表，得到与该对象标识对应的对象的对象信息，作为该目标对象的对象信息。

本公开实施例提供的技术方案，在识别到目标视频包括目标对象的情况下，通过查询预设的对象信息匹配表，可以快速获取目标对象的对象信息，无需用户手动查找目标对象的对象信息，从而提高了目标对象的对象信息的获取效率，有利于节约人力成本；同时便于后续在目标视频中自动向目标用户展示目标对象的对象信息，无需通过主播用户手动查找并置顶目标对象的对象信息，从而提高了对象信息的展示效率。

在另一示例性实施例中，上述步骤S220，在向目标用户展示目标对象的对象信息之前，还包括：根据目标对象搜索数据库，得到目标对象的对象信息；数据库存储有多个对象的对象信息。

具体地，客户端还可以获取目标对象的对象标识，根据目标对象的对象标识(如商品名称)，查询存储有多个对象的对象信息的数据库或者商品购买平台，得到与该对象标识对应的对象的对象信息，作为该目标对象的对象信息。

本公开实施例提供的技术方案，在识别到目标视频包括目标对象的情况下，通过查询数据库或者商品购买平台，可以快速获取目标对象的对象信息，便于后续在目标视频中自动向目标用户展示目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率，同时降低了对象信息的展示成本。

在又一示例性实施例中，上述步骤S220，在向目标用户展示目标对象的对象信息之前，包括：根据目标对象，生成对象信息获取请求；向服务器发送对象信息获取请求，触发服务器返回目标对象的对象信息。

具体地，客户端在识别到目标视频包括目标对象之后，生成与目标对象对应的对象信息获取请求，并将该对象信息获取请求发送至对应的服务器；服务器根据该对象商品信息获取请求，从数据库中获取与该目标对象的对象信息，并将该目标对象的对象信息返回至客户端，通过客户端向目标用户展示目标对象的对象信息。

本公开实施例提供的技术方案，在识别到目标视频包括目标对象的情况下，通过与目标对象对应的对象信息获取请求，触发服务器返回目标对象的对象信息，便于后续在目标视频中自动向目标用户展示目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率，同时降低了对象信息的展示成本。

在一示例性实施例中，上述步骤S230，检测到目标用户实施的行为符合预设对象获取行为，包括：获取目标用户实施的行为的行为图像；通过图像特征提取模型提取行为图像的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为。

其中，目标用户实施的行为的行为图像，是指用于表示目标用户实施的行为的图像，可以通过对目标用户实施的行为进行拍摄得到，例如通过客户端摄像头对目标用户实施的行为进行拍摄得到；行为图像的图像特征用于表示行为图像的特征信息，不同行为图像对应的图像特征不一样。预设对象获取行为的行为图像是指用于表示预设对象获取行为的图像，比如预设对象获取行为图标。

其中，图像特征提取模型是指能够提取出图像特征的神经网络模型，比如卷积神经网络模型。具体地，客户端可以将样本图像以及样本图像的图像特征作为图像样本集，输入至预设类型的神经网络进行训练，得到图像特征提取模型，从而使用图像特征提取模型，可以对输入的行为图像进行处理，得到行为图像的图像特征。

具体地，在客户端向目标用户展示目标对象的对象信息之后，目标用户若想要获取目标对象，比如购买目标对象，则会实施相应的行为；客户端调用客户端的前置摄像头，实时对目标用户实施的行为进行拍摄，得到目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入图像特征提取模型，通过图像特征提取模型对目标用户实施的行为的行为图像进行特征提取，得到目标用户实施的行为的行为图像的图像特征；获取预设对象获取行为的行为图像的图像特征，并将目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征进行匹配；若目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为，则针对目标用户执行目标对象的获取操作。

需要说明的是，若目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征不匹配，则确认目标用户实施的行为不符合预设对象获取行为，则无需针对目标用户执行目标对象的获取操作。

需要说明的是，在客户端向目标用户展示目标对象的对象信息之后，若目标用户想要继续观看目标视频，则无需进行任何操作。

本公开实施例提供的技术方案，通过将目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征进行匹配，有利于准确确定目标用户实施的行为是否符合预设对象获取行为，便于后续在目标用户实施的行为符合预设对象获取行为的情况下，自动执行该目标对象的获取操作，整个过程无需目标用户对客户端进行任何操作，从而简化了对象的获取过程，进一步提高了对象的获取效率。

在一示例性实施例中，若行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为，包括：获取行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度；若特征相似度大于预设相似度，则确认目标用户实施的行为符合预设对象获取行为。

其中，特征相似度用于衡量目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的相似程度；特征相似度越高，表示目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的相似程度越高，说明目标用户实施的行为符合预设对象获取行为。

具体地，在通过图像特征提取模型提取行为图像的图像特征之后，客户端根据预设的特征相似度获取指令，获取目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度；将该特征相似度与预设相似度进行比较，若该特征相似度大于预设相似度，确认目标用户实施的行为符合预设对象获取行为；若该特征相似度小于或者等于预设相似度，则确认目标用户实施的行为不符合预设对象获取行为。

本公开实施例提供的技术方案，通过统计目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度，并将特征相似度与预设相似度进行对比，有利于准确确定目标用户实施的行为是否符合预设对象获取行为，从而提高了对目标用户实施的行为的识别准确度。

在另一示例性实施例中，上述步骤S230，检测到目标用户实施的行为符合预设对象获取行为，包括：获取目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到目标用户实施的行为的行为标签；行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的行为标签，图像训练样本包括输入的行为图像以及与输入的行为图像对应的行为标签；若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为。

其中，预先训练的行为图像识别模型是指能够识别出用户实施的行为的行为标签的神经网络模型，比如卷积神经网络模型、深度学习模型等。行为标签是指目标用户实施的行为的标识信息，比如行为名称、行为编号等，不同实施行为对应的行为标签不一样；在实际场景中，行为标签可以是指拇指朝上、拇指朝右等。

具体地，在客户端向目标用户展示目标对象的对象信息之后，目标用户若想要获取目标对象，比如购买目标对象，则会实施相应的行为；客户端调用客户端的前置摄像头，实时对目标用户实施的行为进行拍摄，得到目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，通过预先训练的行为图像识别模型对目标用户实施的行为的行为图像进行一系列神经网络处理，得到目标用户实施的行为的行为标签；将目标用户实施的行为的行为标签与预设对象获取行为进行匹配，若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为，说明目标用户想要针对目标对象执行相应的获取操作；若目标用户实施的行为的行为标签不是预设对象获取行为，则确认目标用户实施的行为不符合预设对象获取行为，说明目标用户想要继续观看目标视频。

进一步地，行为图像识别模型可以通过下述方式训练得到：客户端将输入的行为图像以及与输入的行为图像对应的行为标签作为图像训练样本，输入至预设的神经网络进行多次训练，得到训练好的行为图像识别模型，作为预先训练的行为图像识别模型；从而使用该预先训练的行为图像识别模型，可以对输入的行为图像进行识别，得到行为图像对应的行为标签。例如，若行为图像识别模型为手势识别模型，则手势识别模型可以通过下述内容训练得到：预先采集图像样本集，图像样本集中包括用户手势图像以及用户手势图像中的手势标签；根据图像样本集，通过预设的机器学习模型或深度学习网络进行多次训练，得到训练好的手势识别模型，从而通过训练好的手势识别模型，可以对输入的用户手势图像进行识别，得到该用户手势图像中的手势标签。

本公开实施例提供的技术方案，通过将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，可以快速且准确地识别出目标用户实施的行为的行为标签，进而通过行为标签来确认目标用户实施的行为是否符合预设对象获取行为，便于后续在目标用户实施的行为符合预设对象获取行为时，自动执行目标对象的获取操作，无需目标用户直接对客户端进行任何操作，从而提高了对象的获取效率。

在一示例性实施例中，上述步骤S230，针对目标用户执行目标对象的获取操作，包括：若目标用户实施的行为符合第一预设对象获取行为，将目标对象移动到目标区域。

其中，第一预设对象获取行为是指用于指示客户端将目标对象移动到指定区域的对象获取行为。

具体地，在客户端识别到目标视频包括目标对象之后，则在目标视频中的预设区域展示第一信息提示框；第一信息提示框包括目标对象的对象信息、第一预设对象获取行为的行为图像和第二预设对象获取行为的行为图像；第一预设对象获取行为的行为图像用于指示客户端将目标对象移动到目标区域，第二预设对象获取行为的行为图像用于指示客户端对目标对象执行获取操作。例如，参考图3，客户端在目标视频中的预设区域A展示第一信息提示框，第一信息提示框包括目标商品B的商品信息、第一预设对象获取行为的行为图像(拇指向上)和第二预设对象获取行为的行为图像(拇指向右)；第一预设对象获取行为的行为图像表示“加入购物车”，具体用于指示客户端将目标商品B添加到购物车，第二预设对象获取行为的行为图像表示“直接购买”，具体用于指示客户端对目标商品B执行获取操作，即指示客户端跳转至目标商品B的订单支付界面，对目标商品B进行结算处理。

进一步地，在目标视频中的预设区域展示第一信息提示框之后，客户端调用客户端的前置摄像头，实时对目标用户实施的行为进行拍摄，得到目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入图像特征提取模型，通过图像特征提取模型对目标用户实施的行为的行为图像进行特征提取，得到目标用户实施的行为的行为图像的图像特征；将目标用户实施的行为的行为图像的图像特征与第一预设对象获取行为的行为图像的图像特征进行匹配，若目标用户实施的行为的行为图像的图像特征与第一预设对象获取行为的行为图像的图像特征匹配，说明目标用户实施的行为符合第一预设对象获取行为，则将目标对象移动到目标区域。例如，若目标用户实施的行为的行为图像为图3所示的拇指向上的手势图像，则通过客户端将目标商品B添加到目标用户的购物车。

本公开实施例提供的技术方案，通过目标用户实施的行为，控制目标对象移动到指定区域，实现了自动获取目标对象的目的；无需目标用户通过一系列的手动点击操作从一堆对象中找到目标对象，或者手动点击目标对象的对象链接，并将目标对象移动到指定区域，从而减少了目标用户的操作步骤，进而降低了目标用户的操作成本。

在另一示例性实施例中，上述步骤S230，针对目标用户执行目标对象的获取操作，包括：若目标用户实施的行为符合第二预设对象获取行为，根据目标用户的用户信息，对目标对象执行获取操作。

其中，第二预设对象获取行为是指用于指示客户端对目标对象执行获取操作的对象获取行为。用户信息是指与用户相关的信息，可以是指账户信息、支付口令等。

具体地，在通过图像特征提取模型对目标用户实施的行为的行为图像进行特征提取，得到目标用户实施的行为的行为图像的图像特征之后，客户端将目标用户实施的行为的行为图像的图像特征与第二预设对象获取行为的行为图像的图像特征进行匹配，若目标用户实施的行为的行为图像的图像特征与第二预设对象获取行为的行为图像的图像特征匹配，说明目标用户实施的行为符合第二预设对象获取行为，则根据目标用户的用户信息，对目标对象执行获取操作。

举例说明，若目标用户实施的行为的行为图像为图3所示的拇指向右的手势图像，则客户端根据目标用户的账户信息，跳转至包含目标商品B的订单支付界面，便于目标用户进入后续的订单支付环节，降低了目标用户的操作成本。进一步地，若目标用户实施的行为的行为图像为图3所示的拇指向右的手势图像，则客户端可以根据目标用户的支付口令，直接对目标商品B进行结算处理，无需目标用户输入支付密码或者验证指纹，即可实现目标对象B的快捷下单，从而减少了目标用户的操作步骤，进一步降低了目标用户的操作成本。

需要说明的是，若目标用户想要继续观看目标视频，则无需进行任何操作，即无需实施任何行为。

本公开实施例提供的技术方案，通过目标用户实施的行为，对目标对象执行获取操作，实现了自动获取目标对象的目的，无需目标用户通过一系列的手动点击操作来获取目标对象，从而减少了目标用户获取目标对象的操作步骤，进而降低了目标用户的操作成本，同时提高了对象获取效率。

在一示例性实施例中，上述步骤S220，向目标用户展示目标对象的对象信息，包括：在目标视频中的预设区域展示第二信息提示框；第二信息提示框中包括目标对象的对象信息、第一行为图像和第二行为图像，第一行为图像用于指示展示的目标对象的对象信息正确，第二行为图像用于指示展示的目标对象的对象信息错误。

其中，预设区域是指第二信息提示框在目标视频中的展示区域；行为图像是指用于表示用户行为的图像，用户行为包括眼部行为、手部行为、肢体语言等；第一行为图像用于表示展示的目标对象的对象信息与目标视频包括的目标对象的对象信息对应，说明展示的目标对象的对象信息正确；第二行为图像用于表示展示的目标对象的对象信息与目标视频中包括的目标对象的对象信息不对应，说明展示的目标对象的对象信息不正确，需要撤销该目标对象的对象信息。

具体地，参考图4，主播客户端在直播视频中的预设区域A展示第二信息提示框，第二信息提示框包括目标商品B的商品信息、第一手势图像(拇指向上)和第二手势图像(拇指向下)，第一手势图像表示“是”，具体用于表示当前展示的目标商品B的商品信息与直播视频中包含的目标商品的商品信息对应，说明当前展示的目标商品B的商品信息正确，观众用户可以点击该目标商品B的商品信息进行购买或者加入购物车；第二手势图像表示“不是”，具体用于表示当前展示的目标商品B的商品信息与直播视频中包含的目标商品的商品信息不对应，说明当前展示的目标商品B的商品信息不正确，需要撤销虚拟目标商品B的商品信息，并重新获取与直播视频中包含的目标商品对应的商品信息。

需要说明的是，第一行为图像和第二行为图像对应的用户行为以及表示的意思，可以根据实际情况进行调整。

本公开实施例提供的技术方案，通过在直播视频中的预设区域展示第一信息提示框的形式展示目标商品的商品信息，整个过程无需人为操作，从而提高了商品信息的展示效率；同时展示不同的行为图像，有利于指导主播用户控制主播客户端进行不同的操作，进一步降低了商品信息的展示成本。

在一示例性实施例中，在直播视频中的预设区域展示第二信息提示框之后，还包括：获取主播用户的行为图像；主播用户与直播视频中的主播账户对应；提取主播用户的行为图像的图像特征；若主播用户的行为图像的图像特征与第二行为图像的图像特征匹配，则在直播视频中的预设区域展示第三信息提示框；第三信息提示框包括目标对象的对象信息和第三行为图像，第三行为图像用于指示取消展示目标对象的对象信息。

其中，主播用户是指直播视频中的主播账户对应的用户；行为图像的图像特征用于表示行为图像的特征信息，不同行为图像对应的图像特征不一样。

具体地，主播客户端调用主播客户端的前置摄像头，拍摄主播用户的行为特征图像；通过特征提取网络模型，提取主播用户的行为图像的图像特征；将主播用户的行为图像的图像特征与预设的行为图像的图像特征(如第一行为图像、第二行为图像)进行匹配，若主播用户的行为图像的图像特征与第二行为图像的图像特征匹配，比如主播用户的行为图像为图4中的拇指向下的手势图像，则说明当前展示的目标商品B的商品信息不正确，需要撤销展示目标商品B的商品信息，则在直播视频中的预设区域展示包括目标商品B的商品信息和第三行为图像的第三信息提示框。例如，参考图5，主播客户端在直播视频中的预设区域A展示第三信息提示框，第三信息提示框包括目标商品B的商品信息和第三手势图像(拇指向右)，第三手势图像表示“撤销展示”，用于指示取消展示目标商品B的商品信息。

进一步地，在直播视频中的预设区域展示第三信息提示框之后，若主播客户端识别到主播用户的行为图像与第三行为图像的图像特征匹配，比如主播用户的行为图像为图5中的拇指向右的手势图像，则删除第三信息提示框，以撤销展示目标商品B的商品信息；重新获取与直播视频中包括的目标商品对应的商品信息，并在直播视频中展示该商品信息。

此外，在判断主播用户的行为图像的图像特征是否与预设的行为图像的图像特征匹配的过程中，主播终端可以将主播用户的行为图像的图像特征输入预先训练的行为图像识别模型(比如手势识别模型)，通过预先训练的行为图像识别模型对主播用户的行为图像的图像特征进行一系列神经网络处理，得到主播用户的行为图像的识别结果；若主播用户的行为图像的识别结果为主播用户的行为图像与第二行为图像的图像特征匹配，比如主播用户的行为图像为图4中的拇指向下的手势图像，则在直播视频中的预设区域展示第三信息提示框。

本公开实施例提供的技术方案，在通过识别主播用户的行为图像，确定当前展示的商品信息不正确的情况下，通过在直播视频中的预设区域展示第三信息提示框的形式，指导主播用户远程撤销展示商品信息，无需主播用户手动撤销展示商品信息，进一步降低了商品信息的展示成本。

本公开提供的对象获取方法，还可以应用于如图6所示的应用环境中。参照图6，该应用环境图包括通过网络连接的客户端610和服务器620。其中，客户端610可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器620可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图7是根据一示例性实施例示出的另一种对象获取方法的流程图，如图7所示，对象获取方法用于如图6所示的服务器620中，包括以下步骤：

在步骤S710中，接收客户端发送的目标视频；客户端用于对目标用户展示目标视频。

具体地，客户端响应目标用户的视频播放指令，获取对应的目标视频，并对目标用户展示目标视频，便于目标用户观看目标视频，并将目标视频发送至对应的服务器，通过服务器对客户端发送的目标视频进行识别，以判断目标视频中是否包括目标对象。

在步骤S720中，识别到目标视频包括目标对象，将目标对象的对象信息发送至客户端，客户端用于向目标用户展示目标对象的对象信息。

具体地，服务器基于图像识别算法，实时对目标视频中的视频帧图像进行识别，以确认目标视频中是否包括目标对象；若识别到目标视频中包括目标对象，则获取目标对象的对象信息，并将目标对象的对象信息发送至客户端，通过客户端向目标用户展示目标对象的对象信息。

进一步地，服务器还可以基于语音识别算法，实时对目标视频中的音频进行识别，以识别目标视频中的音频是否包含有与目标对象的对象标识匹配的音频，从而确认目标视频中是否包括目标对象；若识别到目标视频中的音频包含有与目标对象的对象标识匹配的音频，则确认目标视频中包括目标对象；获取目标对象的对象信息，并将目标对象的对象信息发送至客户端，通过客户端向目标用户展示目标对象的对象信息。

在步骤S730中，检测到客户端发送的目标用户实施的行为符合预设对象获取行为，将预设对象获取行为发送至客户端，触发客户端针对目标用户执行目标对象的获取操作。

具体地，在客户端向目标用户展示目标对象的对象信息之后，客户端实时检测目标用户实施的行为，若检测到目标用户的实施的行为，则将目标用户实施的行为发送至服务器；服务器将目标用户实施的行为与预设对象获取行为进行匹配，若目标用户实施的行为符合预设对象获取行为，则将预设对象获取行为发送至客户端，触发客户端针对目标用户执行目标对象的获取操作。

上述对象获取方法，通过对客户端发送的目标视频进行识别，若识别到目标视频包括目标对象，将目标对象的对象信息发送至客户端，触发客户端向目标用户展示目标对象的对象信息；最后若检测到客户端发送的目标用户实施的行为符合预设对象获取行为，将预设对象获取行为发送至客户端，触发客户端针对目标用户执行目标对象的获取操作；实现了在向目标用户展示目标视频中包括的目标对象的对象信息的情况下，根据目标用户实施的行为，自动执行目标对象的获取操作的目的，无需用户对目标对象执行繁琐的获取操作，从而简化了对象的获取流程，进一步提高了对象的获取效率。

在一示例性实施例中，在步骤S720中，识别到目标视频包括目标对象，包括：获取目标视频中的视频帧图像；通过图像特征提取模型提取视频帧图像中的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若识别到图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

具体地，服务器获取目标视频中的视频帧图像，将目标视频中的视频帧图像输入图像特征提取模型中，通过图像特征提取模型对视频帧图像进行图像特征提取处理，得到视频帧图像中的图像特征；根据预设的目标对象的图像特征，对视频帧图像的图像特征进行检测；若视频帧图像的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品。

本公开实施例提供的技术方案，通过对目标视频中的整个视频帧图像进行识别，有利于准确且快速确定目标视频中是否包括目标对象，便于后续将目标视频中包括的目标对象的对象信息发送至客户端，通过客户端在目标视频中展示目标视频中包括的目标对象的对象信息，以达到在目标视频中自动展示目标视频中包括的目标对象的对象信息的目的；无需直播用户手动查找并添加目标对象的对象信息，从而减少了主播用户在展示对象信息的操作步骤，进而提高了对象信息的展示效率，同时降低了对象信息的展示成本。

在一示例性实施例中，在步骤S720中，识别到目标视频包括目标对象，包括：获取目标视频中的视频帧图像；将视频帧图像输入预先训练的图像识别模型中，得到视频帧图像中的对象标签；图像识别模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的视频帧图像进行处理，得到视频帧图像中的对象标签，图像识别训练样本包括输入的视频帧图像以及视频帧图像中的对象标签；若视频帧图像中的对象标签为目标对象，则确认目标视频包括目标对象。

具体地，服务器获取目标视频中的视频帧图像，将视频帧图像输入预先训练的图像识别模型中，通过预先训练的图像识别模型对视频帧图像进行一系列神经网络处理，得到视频帧图像中的对象标签；将视频帧图像中的对象标签与目标对象进行匹配，若视频帧图像中的对象标签为目标对象，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品；若视频帧图像中的对象标签不是目标对象，则确认目标视频没有包含目标对象，例如主播用户当前没有在介绍某个目标商品。

本公开实施例提供的技术方案，通过将目标视频中的视频帧图像输入预先训练的图像识别模型中，可以快速且准确地识别出目标视频中的对象标签，进而通过对象标签来确认目标视频中是否包括目标对象，便于后续在目标视频包括目标对象的情况下，将目标视频中包括的目标对象的对象信息发送至客户端，通过客户端在目标视频中自动展示目标视频中包括的目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在一示例性实施例中，在步骤S720中，识别到目标视频包括目标对象，包括：获取目标视频中的视频帧图像；对视频帧图像进行分割处理，生成视频帧图像中的多个候选区域图像；对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

具体地，服务器获取目标视频中的视频帧图像，通过区域候选网络模型对视频帧图像进行目标检测，得到视频帧图像中的多个候选区域；对视频帧图像中的多个候选区域进行分割处理，生成视频帧图像中的多个候选区域图像；通过分类器对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；将各个候选区域图像对应的物体标识与目标对象的对象标识进行匹配，若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象，例如主播用户当前正在介绍某个目标商品；若物体标识与目标对象的对象标识不匹配，则确认目标视频中没有包括目标对象，例如主播用户当前没有在介绍目标商品。其中，候选区域网络模型是指能够识别出图像中的候选区域的神经网络，分类器是指能够对输入的图像进行分类，得到图像中的物体标识的神经网络，比如softmax分类器。

本公开实施例提供的技术方案，通过对视频帧图像中的多个候选区域图像进行识别，无需对整个视频帧图像进行识别，可以快速且准确地识别出目标视频中是否包括目标对象，从而提高了目标视频中的目标对象的识别效率以及识别准确率；同时有利于后续客户端在目标视频中自动展示目标视频中包括的目标对象的对象信息，无需通过主播用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

具体地，服务器将各个候选区域图像输入到图像分类模型，通过图像分类模型对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；例如，各个候选区域图像对应的物体标识分别是物体标识A1、物体标识A2、物体标识A3，而目标对象的对象标识为A2，说明有一个候选区域图像对应的物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

本公开实施例提供的技术方案，通过图像分类模型对各个候选区域图像进行处理，有利于快速且准确地识别出各个候选区域图像对应的物体标识，从而提高了目标视频中的物体标识的识别效率以及识别准确率；同时便于后续通过将各个候选区域图像对应的物体标识与目标对象的对象标识进行匹配，即可确认目标视频是否包括目标对象，无需对目标视频的整个视频帧图像进行识别，进一步提高了目标视频中的目标对象的识别效率。

在一示例性实施例中，在步骤S720中，识别到目标视频包括目标对象，包括：提取直播视频中的语音信息；获取语音信息对应的文本信息；若文本信息中包括与目标对象的对象标识匹配的信息，则确认目标视频包括目标对象。

具体地，服务器通过预设的语音提取指令，提取目标视频中的语音信息；对语音信息进行解码处理，得到语音信息对应的文本信息；对文本信息进行分词处理，得到文本信息对应的分词，将文本信息对应的分词和与目标对象的对象标识匹配的信息进行匹配，若文本信息对应的分词和与目标对象的对象标识匹配的信息匹配成功，则确认文本信息中包括与目标对象的对象标识匹配的信息，进而确认目标视频包括目标对象，说明主播用户当前正在介绍目标商品。

本公开实施例提供的技术方案，通过对目标视频中的语音信息进行识别，可以快速且准确地识别出目标视频中是否包括目标对象，便于后续通过客户端在目标视频中自动展示目标视频中包括的目标对象的对象信息，无需通过用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率。

在一示例性实施例中，上述步骤S720，在将目标对象的对象信息发送至客户端之前，还包括：查询预设的对象信息匹配表，获取目标对象的对象信息；预设的对象信息匹配表中存储有多个对象的对象信息。

具体地，服务器根据目标对象的对象标识(如商品名称)，查询存储有多个对象的对象信息的预设的对象信息匹配表，得到与该对象标识对应的对象的对象信息，作为该目标对象的对象信息。

本公开实施例提供的技术方案，在识别到目标视频包括目标对象的情况下，通过查询预设的对象信息匹配表，可以快速获取目标对象的对象信息，无需用户手动查找目标对象的对象信息，从而提高了目标对象的对象信息的获取效率，有利于节约人力成本；同时便于后续通过客户端在目标视频中自动向目标用户展示目标对象的对象信息，无需通过用户手动查找并添加目标对象的对象信息，从而提高了对象信息的展示效率。

在一示例性实施例中，上述步骤S720，在将目标对象的对象信息发送至客户端之前，还包括：根据目标对象搜索数据库，得到目标对象的对象信息；数据库存储有多个对象的对象信息。

具体地，服务器还可以获取目标对象的对象标识，根据目标对象的对象标识(如商品名称)，查询存储有多个对象的对象信息的数据库或者商品购买平台，得到与该对象标识对应的对象的对象信息，作为该目标对象的对象信息。

本公开实施例提供的技术方案，在识别到目标视频包括目标对象的情况下，通过查询数据库或者商品购买平台，可以快速获取目标对象的对象信息，便于后续通过客户端在目标视频中自动向目标用户展示目标对象的对象信息，无需通过用户手动添加目标对象的对象信息，从而提高了对象信息的展示效率，同时降低了对象信息的展示成本。

在一示例性实施例中，上述步骤S730，检测到客户端发送的目标用户实施的行为符合预设对象获取行为，包括：接收客户端的行为识别请求；行为识别请求为客户端根据目标用户实施的行为的行为图像生成，目标用户实施的行为的行为图像由客户端采集得到；根据行为识别请求，通过图像特征提取模型提取行为图像的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为。

具体地，在客户端向目标用户展示目标对象的对象信息之后，目标用户若想要获取目标对象，比如购买目标对象，则会实施相应的行为；客户端调用客户端的前置摄像头，实时对目标用户实施的行为进行拍摄，得到目标用户实施的行为的行为图像；根据目标用户实施的行为的行为图像，生成行为识别请求，并将行为识别请求发送至对应的服务器。服务器对接收到的行为识别请求进行解析，得到目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入图像特征提取模型，通过图像特征提取模型对目标用户实施的行为的行为图像进行特征提取，得到目标用户实施的行为的行为图像的图像特征；获取预设对象获取行为的行为图像的图像特征，并统计目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度；若特征相似度大于预设相似度，则确认目标用户实施的行为符合预设对象获取行为，则将预设对象获取行为发送至客户端，触发客户端针对目标用户执行目标对象的获取操作。

本公开实施例提供的技术方案，通过将目标用户实施的行为的行为图像的图像特征与预设对象获取行为的行为图像的图像特征进行匹配，有利于准确确定目标用户实施的行为是否符合预设对象获取行为，便于后续在目标用户实施的行为符合预设对象获取行为的情况下，触发客户端自动执行该目标对象的获取操作，整个过程无需目标用户直接对客户端进行任何操作，从而简化了对象的获取过程，进一步提高了对象的获取效率。

在一示例性实施例中，上述步骤S730，检测到客户端发送的目标用户实施的行为符合预设对象获取行为，包括：接收客户端的行为识别请求；行为识别请求为客户端根据目标用户实施的行为的行为图像生成，目标用户实施的行为的行为图像由客户端采集得到；根据行为识别请求，将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到目标用户实施的行为的行为标签；行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的行为标签，图像训练样本包括输入的行为图像以及与输入的行为图像对应的行为标签；若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为。

具体地，在客户端向目标用户展示目标对象的对象信息之后，目标用户若想要获取目标对象，比如购买目标对象，则会实施相应的行为；客户端调用客户端的前置摄像头，实时对目标用户实施的行为进行拍摄，得到目标用户实施的行为的行为图像；根据目标用户实施的行为的行为图像，生成行为识别请求，并将行为识别请求发送至对应的服务器。服务器对接收到的行为识别请求进行解析，得到目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，通过预先训练的行为图像识别模型对目标用户实施的行为的行为图像进行一系列神经网络处理，得到目标用户实施的行为的行为标签；将目标用户实施的行为的行为标签与预设对象获取行为进行匹配，若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为，说明目标用户想要针对目标对象执行相应的获取操作；若目标用户实施的行为的行为标签不是预设对象获取行为，则确认目标用户实施的行为不符合预设对象获取行为，说明目标用户想要继续观看目标视频。

本公开实施例提供的技术方案，通过将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，可以快速且准确地识别出目标用户实施的行为的行为标签，进而通过行为标签来确认目标用户实施的行为是否符合预设对象获取行为，便于后续在目标用户实施的行为符合预设对象获取行为时，触发客户端自动执行目标对象的获取操作，无需目标用户对客户端进行任何操作，从而提高了对象的获取效率。

在一示例性实施例中，如图6所示，提供了一种对象获取系统，包括客户端610和服务器620，具体包括：

客户端610，用于对目标用户展示目标视频，并将目标视频发送至服务器620；

服务器620，用于接收客户端610发送的目标视频；识别到目标视频包括目标对象，将目标对象的对象信息发送至客户端610；

客户端610，还用于接收服务器620发送的目标对象的对象信息，向目标用户展示目标对象的对象信息；将目标用户实施的行为发送至服务器620；

服务器620，还用于接收客户端610发送的目标用户实施的行为；检测到客户端发送的目标用户实施的行为符合预设对象获取行为，将预设对象获取行为发送至客户端610；

客户端610，还用于接收服务器620发送的预设对象获取行为，针对目标用户执行目标对象的获取操作。

关于上述步骤的具体实施方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述对象获取系统，实现了在向目标用户展示目标视频中包括的目标对象的对象信息的情况下，根据目标用户实施的行为，自动执行目标对象的获取操作的目的，无需用户对目标对象执行繁琐的获取操作，从而简化了对象的获取流程，进一步提高了对象的获取效率。

应该理解的是，虽然图2、7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图8是根据一示例性实施例示出的一种对象获取装置的框图。参照图8，该装置包括目标视频展示单元810、对象信息展示单元820和获取操作执行单元830。

目标视频展示单元810，被配置为执行对目标用户展示目标视频。

对象信息展示单元820，被配置为执行识别到目标视频包括目标对象，向目标用户展示目标对象的对象信息。

获取操作执行单元830，被配置为执行检测到目标用户实施的行为符合预设对象获取行为，针对目标用户执行目标对象的获取操作。

在一示例性实施例中，对象信息展示单元820，还被配置为执行获取目标视频中的视频帧图像；通过图像特征提取模型提取视频帧图像中的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若识别到图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息展示单元820，还被配置为执行获取目标视频中的视频帧图像；将视频帧图像输入预先训练的图像识别模型中，得到视频帧图像中的对象标签；图像识别模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的视频帧图像进行处理，得到视频帧图像中的对象标签，图像识别训练样本包括输入的视频帧图像以及视频帧图像中的对象标签；若视频帧图像中的对象标签为目标对象，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息展示单元820，还被配置为执行获取目标视频中的视频帧图像；对视频帧图像进行分割处理，生成视频帧图像中的多个候选区域图像；对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息展示单元820，还被配置为执行通过图像分类模型对各个候选区域图像进行处理，得到各个候选区域图像对应的物体标识；其中，图像分类模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的候选区域图像进行处理，得到候选区域图像对应的物体标识，图像识别训练样本包括输入的候选区域图像以及候选区域图像对应的物体标识。

在一示例性实施例中，对象信息展示单元820，还被配置为执行提取直播视频中的语音信息；获取语音信息对应的文本信息；若文本信息中包括与目标对象的对象标识匹配的信息，则确认目标视频包括目标对象。

在一示例性实施例中，本公开的对象获取装置还包括对象信息获取单元，被配置为执行查询预设的对象信息匹配表，获取目标对象的对象信息；预设的对象信息匹配表中存储有多个对象的对象信息。

在一示例性实施例中，对象信息获取单元，还被配置为执行根据目标对象搜索数据库，得到目标对象的对象信息；数据库存储有多个对象的对象信息。

在一示例性实施例中，获取操作执行单元830，还被配置为执行获取目标用户实施的行为的行为图像；通过图像特征提取模型提取行为图像的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为。

在一示例性实施例中，获取操作执行单元830，还被配置为执行获取行为图像的图像特征与预设对象获取行为的行为图像的图像特征之间的特征相似度；若特征相似度大于预设相似度，则确认目标用户实施的行为符合预设对象获取行为。

在一示例性实施例中，获取操作执行单元830，还被配置为执行获取目标用户实施的行为的行为图像；将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到目标用户实施的行为的行为标签；行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的行为标签，图像训练样本包括输入的行为图像以及与输入的行为图像对应的行为标签；若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为。

在一示例性实施例中，获取操作执行单元830，还被配置为执行若目标用户实施的行为符合第一预设对象获取行为，将目标对象移动到目标区域。

在一示例性实施例中，获取操作执行单元830，还被配置为执行若目标用户实施的行为符合第二预设对象获取行为，根据目标用户的用户信息，对目标对象执行获取操作。

在一示例性实施例中，对象信息展示单元820，还被配置为执行根据目标视频，生成视频识别请求；将视频识别请求发送至服务器，触发服务器返回目标视频中的视频帧图像的识别结果；若识别结果为目标视频的视频帧图像的图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息获取单元，还被配置为执行根据目标对象，生成对象信息获取请求；向服务器发送对象信息获取请求，触发服务器返回目标对象的对象信息。

图9是根据一示例性实施例示出的另一种对象获取装置的框图。参照图9，该装置包括目标视频接收单元910，对象信息发送单元920和行为检测单元930。

目标视频接收单元910，被配置为执行接收客户端发送的目标视频；客户端用于对目标用户展示目标视频。

对象信息发送单元920，被配置为执行识别到目标视频包括目标对象，将目标对象的对象信息发送至客户端，客户端用于向目标用户展示目标对象的对象信息。

行为检测单元930，被配置为执行检测到客户端发送的目标用户实施的行为符合预设对象获取行为，将预设对象获取行为发送至客户端，触发客户端针对目标用户执行目标对象的获取操作。

在一示例性实施例中，对象信息发送单元920，还被配置为执行获取目标视频中的视频帧图像；通过图像特征提取模型提取视频帧图像中的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若识别到图像特征中包括目标对象的图像特征，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息发送单元920，还被配置为执行获取目标视频中的视频帧图像；将视频帧图像输入预先训练的图像识别模型中，得到视频帧图像中的对象标签；图像识别模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的视频帧图像进行处理，得到视频帧图像中的对象标签，图像识别训练样本包括输入的视频帧图像以及视频帧图像中的对象标签；若视频帧图像中的对象标签为目标对象，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息发送单元920，还被配置为执行获取目标视频中的视频帧图像；对视频帧图像进行分割处理，生成视频帧图像中的多个候选区域图像；对各个候选区域图像进行分类处理，得到各个候选区域图像对应的物体标识；若物体标识与目标对象的对象标识匹配，则确认目标视频包括目标对象。

在一示例性实施例中，对象信息发送单元920，还被配置为执行通过图像分类模型对各个候选区域图像进行处理，得到各个候选区域图像对应的物体标识；其中，图像分类模型是根据采集的图像识别训练样本，基于预设的神经网络训练得到的，用于对输入的候选区域图像进行处理，得到候选区域图像对应的物体标识，图像识别训练样本包括输入的候选区域图像以及候选区域图像对应的物体标识。

在一示例性实施例中，对象信息发送单元920，还被配置为执行提取直播视频中的语音信息；获取语音信息对应的文本信息；若文本信息中包括与目标对象的对象标识匹配的信息，则确认目标视频包括目标对象。

在一示例性实施例中，行为检测单元930，还被配置为执行接收客户端的行为识别请求；行为识别请求为客户端根据目标用户实施的行为的行为图像生成，目标用户实施的行为的行为图像由客户端采集得到；根据行为识别请求，通过图像特征提取模型提取行为图像的图像特征；图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出图像的图像特征；若行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认目标用户实施的行为符合预设对象获取行为。

在一示例性实施例中，行为检测单元930，还被配置为执行接收客户端的行为识别请求；行为识别请求为客户端根据目标用户实施的行为的行为图像生成，目标用户实施的行为的行为图像由客户端采集得到；根据行为识别请求，将目标用户实施的行为的行为图像输入预先训练的行为图像识别模型中，得到目标用户实施的行为的行为标签；行为图像识别模型是根据采集的图像训练样本，基于预设的神经网络训练得到的，用于对输入的行为图像进行处理，得到对应的行为标签，图像训练样本包括输入的行为图像以及与输入的行为图像对应的行为标签；若目标用户实施的行为的行为标签为预设对象获取行为，则确认目标用户实施的行为符合预设对象获取行为。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于执行上述的对象获取方法的设备1000的框图。例如，设备1000可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图10，设备1000可以包括以下一个或多个组件：处理组件1002、存储器1004、电力组件1006、多媒体组件1008、音频组件1010、输入/输出(I/O)的接口1012、传感器组件1014以及通信组件1016。

处理组件1002通常控制设备1000的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在设备1000的操作。这些数据的示例包括用于在设备1000上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件1006为设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到设备1000的打开/关闭状态，组件的相对定位，例如所述组件为设备1000的显示器和小键盘，传感器组件1014还可以检测设备1000或设备1000一个组件的位置改变，用户与设备1000接触的存在或不存在，设备1000方位或加速/减速和设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1016被配置为便于设备1000和其他设备之间有线或无线方式的通信。设备1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述对象获取方法。

在一示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由设备1000的处理器1020执行以完成上述对象获取方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图11是根据一示例性实施例示出的一种用于执行上述对象获取方法的设备1100的框图。例如，设备1100可以为一服务器。参照图11，设备1100包括处理组件1120，其进一步包括一个或多个处理器，以及由存储器1122所代表的存储器资源，用于存储可由处理组件1120的执行的指令，例如应用程序。存储器1122中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1120被配置为执行指令，以执行上述对象获取方法。

设备1100还可以包括一个电源组件1124被配置为执行设备1100的电源管理，一个有线或无线网络接口1126被配置为将设备1100连接到网络，和一个输入输出(I/O)接口1128。设备1100可以操作基于存储在存储器1122的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在一示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1122，上述指令可由设备1100的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，本公开还提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行本公开的任一项实施例中所述的对象获取方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对象获取方法，其特征在于，包括：

对目标用户展示目标视频；

2.根据权利要求1所述的对象获取方法，其特征在于，所述识别到所述目标视频包括目标对象，包括：

获取所述目标视频中的视频帧图像；

通过图像特征提取模型提取所述视频帧图像中的图像特征；所述图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出所述图像的图像特征；

若识别到所述图像特征中包括目标对象的图像特征，则确认所述目标视频包括所述目标对象。

3.根据权利要求1所述的对象获取方法，其特征在于，所述检测到所述目标用户实施的行为符合预设对象获取行为，包括：

获取所述目标用户实施的行为的行为图像；

通过图像特征提取模型提取所述行为图像的图像特征；所述图像特征提取模型为通过预设类型的神经网络根据采集的图像样本集训练得到的，用于对输入的图像进行识别，对应输出所述图像的图像特征；

若所述行为图像的图像特征与预设对象获取行为的行为图像的图像特征匹配，则确认所述目标用户实施的行为符合所述预设对象获取行为。

4.根据权利要求1所述的对象获取方法，其特征在于，所述针对所述目标用户执行所述目标对象的获取操作，包括：

若所述目标用户实施的行为符合第二预设对象获取行为，根据所述目标用户的用户信息，对所述目标对象执行获取操作。

5.一种对象获取方法，其特征在于，包括：

6.一种对象获取装置，其特征在于，包括：

7.一种对象获取装置，其特征在于，包括：

8.一种客户端，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的对象获取方法。

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求5所述的对象获取方法。

10.一种对象获取系统，其特征在于，包括如权利要求8所述的客户端，以及如权利要求9所述的服务器。