CN113852832A

CN113852832A - 视频处理方法、装置、设备和存储介质

Info

Publication number: CN113852832A
Application number: CN202011357523.3A
Authority: CN
Inventors: 徐良鹏; 王莽; 唐铭谦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-12-28
Anticipated expiration: 2040-11-26
Also published as: CN113852832B

Abstract

本申请实施例提供了一种视频处理方法、装置、设备和存储介质，以快速定位视频中的商品对象。所述方法包括：对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段；将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；对所述目标视频片段进行分析，确定第一商品特征；通过所述商品列表中的商品信息，确定商品对象的第二商品特征；将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象；依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。在后续的审核中可基于锚点快速跳转到相应的片段，提高处理效率。

Description

视频处理方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理方法和装置、一种电子设备和一种存储介质。

背景技术

随着网络直播的兴起，电子商务领域也开始采用直播的方式销售商品，直播过程中，主播会介绍商品，如商品的名称、厂商、功能、价格等，从而进行商品的销售。

目前有一些直播过程中，主播在介绍商品时可能会夸大商品的功能，进行虚假介绍。例如在健康场频的直播中，主播可能会夸大商品的疗效，因此需要对直播进行监管，通常就是进行人工审核。

一场直播通常时间比较长，一般会直播2-3个消失，有时活动的大型直播可能会超过10个小时，且直播过程中为了提高趣味性，并不会一味的仅介绍和销售商品，而是会有其他的一些表演、互动等内容。这导致在对直播进行审核时，有大量的非商品介绍时段，需要在直播视频中寻找商品介绍时段的视频来进行审核，影响审核效率。

发明内容

本申请实施例提供了一种视频处理方法，以快速定位视频中的商品对象。

相应的，本申请实施例还提供了一种视频处理装置、一种电子设备和一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种视频处理方法，所述方法包括：对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段；将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；对所述目标视频片段进行分析，确定第一商品特征；通过所述商品列表中的商品信息，确定商品对象的第二商品特征；将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象；依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

本申请实施例还公开了一种视频处理方法，所述方法包括：获取添加有锚点的视频数据，所述锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定；基于所述锚点播放所述目标视频片段，以对所述目标视频片段中介绍的商品对象进行审核。

本申请实施例还公开了一种视频处理方法，所述方法包括：对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

本申请实施例还公开了一种视频处理方法，所述方法包括：通过第一接口接收视频数据；对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点；通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

本申请实施例还公开了一种视频处理方法，所述方法包括：对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象提取对应的目标视频片段。

本申请实施例还公开了一种视频处理方法，所述方法包括：对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象，对所述目标视频片段进行推荐。

本申请实施例还公开了一种视频处理装置，所述装置包括：片段划分模块，用于对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段；片段分析模块，用于将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；片段特征确定模块，用于对所述目标视频片段进行分析，确定第一商品特征；列表特征确定模块，用于通过所述商品列表中的商品信息，确定商品对象的第二商品特征；对象匹配模块，用于将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象；锚点模块，用于依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

本申请实施例还公开了一种视频处理装置，所述装置包括：获取模块，用于获取添加有锚点的视频数据，所述锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定；播放模块，用于基于所述锚点播放所述视频数据，以对所述目标视频片段中介绍的商品对象进行审核。

本申请实施例还公开了一种视频处理装置，所述装置包括：服务调用模块，用于通过第一接口接收视频数据；服务处理模块，用于对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点；结果反馈模块，用于通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段，从而能够基于语音文本召回商品介绍片段，然后将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；对所述目标视频片段进行分析，确定第一商品特征；结合视频所具有的语音和画面来分析第一商品特征，再与基于商品列表所分析的第二商品特征进行相似度匹配，确定匹配的商品对象，从而快速定位商品对象所出现的片段以及片段中介绍的商品对象，依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点，在后续的审核中可基于锚点快速跳转到相应的片段，提高处理效率。

附图说明

图1是本申请实施例的一种视频处理示例的处理示意图；

图2是本申请实施例的一种视频审核的示意图；

图3是本申请的一种视频处理方法实施例的步骤流程图；

图4是本申请的另一种视频处理方法实施例的步骤流程图；

图5是本申请的再一种视频处理方法实施例的步骤流程图；

图6是本申请的再一种视频处理方法实施例的步骤流程图；

图7是本申请的再一种视频处理方法实施例的步骤流程图；

图8是本申请的再一种视频处理方法实施例的步骤流程图；

图9是本申请的一种视频处理装置实施例的结构框图；

图10是本申请的另一种视频处理装置实施例的结构框图；

图11是本申请的再一种视频处理装置实施例的结构框图；

图12是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于视频处理领域，例如在视频识别、视频审核等场景中，可识别视频中的对象并进行锚点，从而实现视频的快速审核。

对于直播网站、视频网站等发布的视频，通常需要在涉及到一些指定内容时进行人工审核，而在视频比较长的时候，全视频的人工审核耗费时间比较长，因此可在关键位置锚点，从而在审核时能够快速定位，提高审核效率。

视频数据通常是由音频数据和图像数据构成的，其中，连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，即可构成视频。因此可将视频划分为图像画面部分和音频部分。本申请实施例可先基于视频数据的音频数据进行识别，将视频划分出一些片段，并将包含对象的片段作为目标视频片段，后续基于该目标视频片段进行识别，基于识别结果在视频中进行锚点。

本申请实施例中，能够基于视频中的音频和画面对视频进行分析，快速识别关键位置并进行锚点，如图1所示。以应用于电子商务领域在直播场景下销售为例，则识别对象为商品对象。

步骤102，对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段。

获取所需的视频数据，如直播视频数据，待发布的视频数据等。从视频数据中获取音频数据，然后对该音频数据进行语音识别，确定对应的文本信息，再基于文本识别确定关键信息，如商品对象，然后基于该关键信息对视频数据进行划分，得到各视频片段，确定包含关键信息的目标视频片段，如包含商品对象的目标视频片段。

一个可选实施例中，所述对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段，包括：从所述视频数据中提取音频数据，对所述音频数据进行语音识别，获取对应的文本信息；依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段。可以从视频数据中提取音频数据，然后对该音频数据进行语音识别，语音识别可采用各种语音识别算法、神经网络算法等，本申请实施例对此不做限制。相应可得到文本信息作为语音识别结果。然后对该文本信息进行文本识别，确定关键词等关键信息，依据关键信息匹配商品对象，并确定商品对象对应的时间信息，依据该时间信息划分视频片段，然后确定包含商品对象的多个目标视频片段。在另外的一些场景中，还可基于卷积神经网络、深度学习神经网络等神经网络训练识别模型，基于所述识别模型对音频数据或文本数据进行识别处理，提取对应的文本特征。

进一步的可选实施例中，所述依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段，包括：依据所述文本信息定位商品对象对应的多个时间信息；依据所述多个时间信息，分别提取所述商品对象对应的目标视频片段。对该文本信息进行文本识别，确定关键词等关键信息，依据关键信息匹配商品对象。

其中，可预先设置匹配信息，匹配信息可以依据具体的场景设置，如不同商品类型的直播销售场景中，可依据商品类型设置匹配词，还可设置该场景的一些通用的匹配信息，如开始、结束等节点的匹配信息等。匹配信息可包括匹配词，匹配词的关联词等，如对于直播销售场景场中可依据商品的类型、名称、功能、生产方等设置匹配词以及关联词。例如针对商品对象销售的直播场景，可基于所销售的商品对象的类型等设置匹配词，或者基于该次直播对应的商品列表确定匹配词，如将商品列表中的商品对象名称作为匹配词，还可确定商品对象对应的关联信息，如别称、常用名等作为匹配词，又如在销售时可能会涉及到的常用语等也可作为匹配词，如下一个商品，则将“商品”作为匹配词等。

因此在确定视频数据对应的匹配信息后，可将文本信息和该匹配信息进行匹配来确定目标对象，如匹配商品名称、别称等，并定位该目标对象对应的时间信息等，从而确定出商品对象出现的片段，定位商品对象对应的多个时间信息。

其中，在定位到商品对象后，其可能在一个时间段内频繁出现，因此可基于出现的时间间隔、次数以及关联的其他信息来确定时间信息，如该商品对象前后的预定时间段内出现的关键信息与该商品对象的属性相关，又如在预定时间段内商品对象的名称等出现次数超过阈值等，从而可确定出该商品对象对应的时间信息，在另外一些场景中，也可依据预定时间段确定该商品对象的时间信息，如作为划分的时间段等。从而一个视频数据中可匹配到多个商品对象，每个商品对象可对一个或多个时间信息，从而定位出商品对象对应的多个时间信息。其中，由于音频数据是从视频数据中提取的，因此两者的时间是一致的，因此可按照该时间信息将视频数据划分为多个视频片段，并将包含商品对象的视频片段作为目标视频片段。

从而基于音频数据可识别、定位并划分出包含商品对象的目标视频片段。

步骤104，将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象。

以直播销售场景为例，每一场直播所销售的商品是已知的，则该视频数据可关联有商品列表，该商品列表可预先由直播方提供，也可基于直播所提供的商品链接等生成，本申请实施例对此不做限制。商品列表中包括该次直播所销售的商品对象的信息，即视频数据对应销售的商品记录，每个商品对象对应一条记录，每个记录可基于商品对象的商品对象信息，包括商品对象名称、标识、标题、属性、品牌、类目等信息，以及该商品对象的介绍页面(也成详情页)的地址等，还可包括商品对象的图像，和/或，图像的存储地址等图像信息，商品对象的图像可以包括主图、附图、评论图等多种类型的图像。

因此可将目标视频片段与关联的商品列表进行匹配，其中可基于语音所识别的文本信息与关联的商品列表进行匹配，也可基于目标视频片段中包含商品对象的图像与关联的商品列表进行匹配，或者结合上述两种方式，确定该目标视频片段的至少一个目标商品对象。本申请实施例中，在视频数据的划分阶段，通常会将一个商品对象划分一个视频片段。即每个目标视频片段通常包含一个商品对象，通过上述方式可以匹配出一个或多个目标商品对象，为该目标视频片段可能包括商品对象，在后续的处理过程中进一步筛选确定。

进一步的可选实施例中，将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象，包括：将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果；将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果。

以文本匹配为例，在划分出每个目标视频片段后，每个目标视频片段可对文本信息，也可称为目标文本片段，该目标文本片段是基于音频数据所识别的文本信息划分的，在划分的时间信息上与视频片段是同步的。可将目标视频片段对应的文本信息与关联的商品列表进行匹配，其中，可与商品列表中商品对象的名称、标题、属性、类目等文本信息进行匹配，得到的匹配结果，例如标题中包含文本关键词的目标对象，也可计算相似度等信息，从而可基于该相似度信息筛选得到至少一个目标商品对象，将各目标商品对象的商品对象标识添加到文本召回结果中，该文本召回结果为基于文本匹配的结果。

以视频图像匹配为例，还可在目标视频片段中提取包含商品对象的目标图像，其中，一个目标视频片段可提取一个或多个目标图像，如间隔设定时间(如1分钟)提取一个等，然后可将该目标图像与关联的商品列表中商品对象的图像进行匹配，包括商品对象的主图、附图、评论图等，确定对应的相似度信息，基于该相似度信息筛选得到至少一个目标商品对象，将各目标商品对象的商品对象标识添加到视觉召回结果中，该视觉召回结果为基于图像匹配的结果。

可选的，所述将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果，包括：获取所述目标视频片段对应的文本信息，并提取文本特征；将所述文本特征与所述商品列表中商品对象的商品标题进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为文本召回结果。获取所述目标视频片段对应的文本信息，然后对该文本信息进行分析，提取对应的文本特征。本实施例中，该文本特征也可采用之前进行视频片段划分时所提取的文本特征。其中，可从文本信息中提取关键词等作为文本特征，也可分析语义确定该段目标视频片段对应的语义内容，再提取对应的关键词等作为文本特征。其中，可基于神经网络训练模型，通过训练完成的模型进行文本特征的提取。然后采用该文本特征和商品列表中商品对象的商品标题进行匹配，确定匹配的商品标题对应的商品对象为目标商品对象，从而可匹配到至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为文本召回结果。

可选的，所述将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果，包括：从所述目标视频片段中提取至少一个包含商品对象的第一图像；将所述第一图像与所述关联的商品列表中商品对象的第二图像进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为视觉召回结果。从所述目标视频片段中提取包含商品对象的第一图像，其中可相隔一段时间提取一个第一图像，从而提取至少一个第一图像，在商品列表中获取各商品对象的第二图像，该第二图像可为包括商品对象的主图、附图、评论图等图像，将第一图像分别与各商品对象的第二图像进行匹配，确定对应的相似度，再依据相似度筛选符合相似条件的商品对象作为目标商品对象，从而确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为视觉召回结果。其中，针对第一图像、第二图像还可分别提取图像特征，然后基于图像特征进相似度匹配，具体可依据需求设置。

通过文本、图像等进行匹配，可以确定出可能为目标视频片段中所介绍的至少一个目标商品对象，从而便于后续匹配过程中，缩小匹配范围，提高匹配效率。

本申请一个可选实施例中，基于文本和图像可分别确定出对应的文本召回结果和视觉召回结果，因此还可将所述文本召回结果和视觉召回结果进行融合，。也就是说，可以合并文本召回结果和视觉召回结果，确定所述目标视频片段对应的至少一个目标商品对象。

步骤106，对所述目标视频片段进行分析，确定第一商品特征。

针对每个目标视频片段，需要分析其所包含的商品对象，以便进行锚点，因此还可对目标视频片段进行特征分析，确定对应的第一商品特征。可分别基于文本和图像分析对应的特征，如在上述步骤中所分析的文本特征、图像特征等，可将这些特征进行融合，得到第一商品特征。

一个示例中，分析得到目标视频片段对应的文本特征、图像特征后，可确定文本特征、图像特征对应的文本权重、图像权重等，然后依据文本权重对文本特征进行加权，依据图像权重对图像特征进行加权，再确定上述特征的加权求和结果作为第一商品特征。

在另外一些示例中，还可融合文本特征、图像特征，得到该目标视频片段对于商品对象的多模态表征，其中，文本特征、图像特征分别为文本模态、视觉模态的表征，将上述文本特征、图像特征进行融合，得到一个多模态的特征作为第一商品特征，该多模态特征可通过数值、特征值等多种方式表示，可以融合为一个值，或者一个数组等形式来表示。当然，在一些示例中，上述文本特征、图像特征中的一个可为空，具体基于该片段以及场景确定。因此在一些可选实施例中，对所述目标视频片段进行分析，确定第一商品特征，包括：从所述目标视频片段中提取商品对象的第三商品特征，所述第三商品特征包括：语音文本特征，和/或，视觉图像特征；将所述第三商品特征进行融合处理，得到对应的第一商品特征。

步骤108，通过所述商品列表中的商品信息，确定商品对象的第二商品特征。

还可对商品列表中各商品对象的商品信息进行特征分析，确定商品对象的第二商品特征。其中，可获取上述匹配过程中针对商品列表中商品对象的部分或全部商品信息分析的特征，包括文本、图像等特征。在另外一些场景中，在获取到商品列表后可基于商品信息分析商品对象的第二商品特征，在需要时直接获取目标商品对象的第二商品特征。

其中，所述通过所述商品列表中的商品信息，确定商品对象的第二商品特征，包括：获取所述商品列表中商品对象的商品信息，所述商品信息包括以下至少一种：商品标题、属性信息、品牌信息、类目信息和第二图像；对所述商品信息进行分析，确定商品对象的第二商品特征。可以获取所述商品列表中各商品对象的商品信息，该商品信息包括以下至少一种：商品标题、属性信息、品牌信息、类目信息和第二图像，商品信息可依据商品对象的商品对象标识从数据库中获取，这些商品信息可在商品对象在电子商务网站上发布前上传。一个示例中可基于商品标题、属性信息、品牌信息、类目信息等文本相关的信息进行文本分析，确定对应的文本特征等，并且针对第二图像可分析图像特征等，从而融合上述多种类型的特征可得到商品对象的第二商品特征。在另外一些示例中，商品信息中每一种信息可作为一个模态的特征，从而融合各种模态的特征可得到该商品对象的第二商品特征。然后可获取上述目标商品对象所数对应的第二商品特征。

其中，第一商品特征和第二商品特征可采用相同的方式分析确定，以便于后续匹配。

步骤110，将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象。

针对每个目标视频片段，可获取其第一商品特征，分别获取该目标视频片段所对应的各目标商品对象的第二商品特征，将所述第一商品特征分别与各第二商品特征进行相似度匹配，确定对应的相似度信息，再基于相似度信息进行筛选，可以匹配到至少一个商品对象。

将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象，包括：获取所述至少一个目标商品对象对应的第二商品特征；将所述第一商品特征分别与所述第二商品特征进行相似度匹配，确定所述至少一个目标商品对象对应的相似度信息；按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象。可获取各目标商品对象对应的第二商品特征，然后采用各第二商品特征分别与第一商品特征进行相似度匹配，计算两者的相似度信息，得到各目标商品对象所对应的相似度信息，然后可以按照相似度信息对各目标商品对象进行筛选，确定该目标视频片段所匹配的商品对象。

所述按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象，包括以下至少一种：按照相似度阈值对所述至少一个目标商品对象的相似度进行筛选，确定匹配的商品对象；将所述至少一个目标商品对象按照相似度信息进行排序，确定匹配的商品对象。可以预先设置相似度阈值，从而按照相似度阈值对各目标商品对象的相似度进行筛选，将超过相似度阈值的目标商品对象作为匹配的商品对象。另外一些示例中，还可将各目标商品对象按照相似度进行排序，然后取排在前N位的目标商品对象，作为匹配的商品对象，其中，N为正整数。在另外一些示例中，可以结合上述方式进行商品对象的筛选，如先按照相似度阈值筛选出部分目标商品对象，再按照相似度信息进行排序后选取等，本申请实施例对此不做限制。

步骤112，依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

在确定出目标视频片段所匹配的商品对象后，可对该视频数据进行锚点。在一些示例中，可基于该目标商品对象对应的时间信息，在视频数据中锚点，如在目标商品片段的起始时间、终止时间处锚点，锚点位置可添加相应的节点，即添加片段的播放节点，如开始节点和结束节点，从而在审核视频数据时，可以从开始节点开始播放视频数据，达到结束节点时该片段播放完成，跳转到下一个片段的开始节点，以此类推，直到所有片段播放完毕，从而能够基于锚点快速跳转到需要审核的片段。在另外一些示例中，如果有些片段是连续的，则其节点可共用，如将上一个片段的结束节点作为下一个片段的开始节点。相比于直接播放完整视频的方式，本申请实施例能够基于锚点快定位包含审核对象的视频片段并播放，提高审核效率。

综上，对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段，从而能够基于语音文本召回商品介绍片段，然后将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；对所述目标视频片段进行分析，确定第一商品特征；结合视频所具有的语音和画面来分析第一商品特征，再与基于商品列表所分析的第二商品特征进行相似度匹配，确定匹配的商品对象，从而快速定位商品对象所出现的片段以及片段中介绍的商品对象，依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点，在后续的审核中可基于锚点快速跳转到相应的片段，提高处理效率。

如图2所示的示例中，基于匹配的商品对象和对应的目标商品对象在视频数据进行锚点。其中，圆形的节点代表一个片段的开始节点，三角形的节点代表两个相邻片段共用的节点，即为一个片段的结束节点，同时也是下一个片段的开始节点，方形的节点为该片段的结束节点。在完成锚点后，后续用户进行播放的过程中，视频可基于锚点进行播放，即从一个片段的开始节点开始播放，到该片段的结束节点，然后跳转到下一个片段的开始节点进行播放。

在另外一些示例中，还可基于匹配的商品对象生成锚点信息，如将该商品对象的名称、功能等属性信息添加到锚点信息中，另外可基于该商品对象所匹配的目标视频片段的文本信息进行分析，基于所分析的语义信息、关键词等生成提示信息，添加到锚点信息中，其中，提示信息可基于商品对象的功能设置，例如对于医药、保健类商品，可基于其所涉及到的功能、疗效等进行提示；又如对于电子类商品，可基于所涉及的产品型号、参数等进行提示。从而在跳转到相应的片段时可显示锚点信息进行提示，便于针对性的审核，提高审核效率。其中，针对基于语音识别的商品特征，可在播放该视频片段是采用文本的形式显示提示信息，例如在视频显示界面的上部或下部等位置显示提示信息，从而提示本段音频介绍可能具有哪些内容、以及审核关键点等，这些均可基于所识别出的关键词等特征信息匹配确定。而对于在视频画面中所识别出的图像等锚点信息，可在相应图像帧上添加检测框、箭头等标记信息，从而在审核过程中提示商品对象等对象的出现位置，提高审核的效率。

在上述实施例的基础上，本实施例还提供了一种视频处理方法，能够结合视频数据的语音、图像等进行多模态的分析，确定视频片段的特征，并与关联的商品列表进行匹配，从而确定各片段所涉及的商品对象并进行锚点，从而审核过程中可快速进行审核。

参照图3，示出了本申请的一种视频处理方法实施例的步骤流程图。

步骤302，从所述视频数据中提取音频数据。

步骤304，对所述音频数据进行语音识别，获取对应的文本信息。

步骤306，依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段。

其中，所述依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段，包括：依据所述文本信息定位商品对象对应的多个时间信息；依据所述多个时间信息，分别提取所述商品对象对应的目标视频片段。

步骤308，将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果。

其中，所述将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果，包括：获取所述目标视频片段对应的文本信息，并提取文本特征；将所述文本特征与所述商品列表中商品对象的商品标题进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为文本召回结果。

步骤310，将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果。

其中，所述将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果，包括：从所述目标视频片段中提取至少一个包含商品对象的第一图像；将所述第一图像与所述关联的商品列表中商品对象的第二图像进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为视觉召回结果。

步骤312，将所述文本召回结果和视觉召回结果进行融合，确定所述目标视频片段对应的至少一个目标商品对象。

步骤314，从所述目标视频片段中提取商品对象的第三商品特征。所述第三商品特征包括：语音文本特征和/或视觉图像特征；

步骤316，将所述第三商品特征进行融合处理，得到对应的第一商品特征。

步骤318，获取所述商品列表中商品对象的商品信息，所述商品信息包括以下至少一种：商品标题、属性信息、品牌信息、类目信息和第二图像。

步骤320，对所述商品信息进行分析，确定商品对象的第二商品特征。

步骤322，获取所述至少一个目标商品对象对应的第二商品特征。

步骤324，将所述第一商品特征分别与所述第二商品特征进行相似度匹配，确定所述至少一个目标商品对象对应的相似度信息。

步骤326，按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象。

其中，所述按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象，包括以下至少一种：按照相似度阈值对所述至少一个目标商品对象的相似度进行筛选，确定匹配的商品对象；将所述至少一个目标商品对象按照相似度信息进行排序，确定匹配的商品对象。

步骤328，依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

其中，可依据匹配的商品对象的商品信息和目标视频片段分析锚点信息；在对应的锚点位置添加所述锚点信息。

本申请实施例先基于语音文本召回商品介绍片段，从而后续仅需对包含商品对象的目标视频片段进行分析即可，使得计算量大大缩小，并且能够快速定位包含商品对象的目标视频片段。

本申请实施例还融合了文本和视觉进行特征分析，能够结合视频所具有的语音和画面进行多模态的特征分析，相对于单文本召回的方式精度更高。

在上述实施例的基础上，还提供了一种基于视频数据的处理方法，能够播放具有锚点的视频数据，以便快速进行审核。

参照图4，示出了本申请的另一种视频数据处理方法实施例的步骤流程图。

步骤402，获取添加有锚点的视频数据。

其中，锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定。视频中锚点的添加方法如上述实施例所述。

步骤404，基于所述锚点播放所述视频数据，以对所述目标视频片段中介绍的商品对象进行审核。

可基于锚点来进行视频数据的播放，即视频数据从第一个目标视频片段的起始节点开始播放该目标视频片段，直到播放到结束节点，然后视频数据会跳转到下一个目标视频片段的起始节点开始播放，以此类推，直到播放到最后一个目标视频片段的结束节点，可完成视频数据的播放。

通过播放每个目标视频片段，可进行该段目标视频片段的审核，本申请实施例中，每个目标视频片段还可对应锚点信息，在播放到该目标视频片段后，可显示锚点信息进行提示，以便能够更有针对性的进行审核，提高审核效率。其中，针对基于语音识别的商品特征，可在播放该视频片段是采用文本的形式显示提示信息，例如在视频显示界面的上部或下部等位置显示提示信息，从而提示本段音频介绍可能具有哪些内容、以及审核关键点等，这些均可基于所识别出的关键词等特征信息匹配确定。而对于在视频画面中所识别出的图像等锚点信息，可在相应图像帧上添加检测框、箭头等标记信息，从而在审核过程中提示商品对象等对象的出现位置，提高审核的效率。

在上述实施例的基础上，本申请实施例还可用于其他针对视频的处理场景中，例如针对教学等场景的视频审核，视频网站等对于所上传视频的审核等场景中。以教学场景为例，可提供需要审核的知识点作为处理对象，可预先提供该知识点相关的对象列表，如知识点的名称、定义，相关的公式等属性信息，还包括相关的教学图片等对象信息，便于在锚点时匹配。又如在针对视频的审核中可预先提供该视频的内容简介等作为对象信息，还可包括视频中的人物介绍等，便于在锚点时匹配。

参照图5，示出了本申请的再一种视频处理方法实施例的步骤流程图。

步骤502，对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段。

其中，可从所述视频数据中提取音频数据，对所述音频数据进行语音识别，获取对应的文本信息；依据所述文本信息对所述视频数据进行划分，确定包含处理对象的多个目标视频片段。

其中，所述依据所述文本信息对所述视频数据进行划分，确定包含处理对象的多个目标视频片段，包括：依据所述文本信息定位处理对象对应的多个时间信息；依据所述多个时间信息，分别提取所述处理对象对应的目标视频片段。

步骤504，将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象。

其中，可将所述目标视频片段对应的文本信息与关联的对象列表进行匹配，确定至少一个目标处理对象，作为文本召回结果；将所述目标视频片段中处理对象的图像与关联的对象列表进行匹配，确定至少一个目标处理对象，作为视觉召回结果。

所述将所述目标视频片段对应的文本信息与关联的对象列表进行匹配，确定至少一个目标处理对象，作为文本召回结果，包括：获取所述目标视频片段对应的文本信息，并提取文本特征；将所述文本特征与所述对象列表中处理对象的对象信息进行匹配，确定至少一个目标处理对象；将所述至少一个目标处理对象的对象标识作为文本召回结果。

所述将所述目标视频片段中处理对象的图像与关联的对象列表进行匹配，确定至少一个目标处理对象，作为视觉召回结果，包括：从所述目标视频片段中提取至少一个包含处理对象的第一图像；将所述第一图像与所述关联的对象列表中处理对象的第二图像进行匹配，确定至少一个目标处理对象；将所述至少一个目标处理对象的对象标识作为视觉召回结果。

还可将所述文本召回结果和视觉召回结果进行融合，确定所述目标视频片段对应的至少一个目标处理对象。

步骤506，对所述目标视频片段进行分析，确定第一对象特征。

其中，可从所述目标视频片段中提取处理对象的第三对象特征，所述第三对象特征包括：语音文本特征和/或视觉图像特征；将所述第三对象特征进行融合处理，得到对应的第一对象特征。

步骤508，获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定。

其中，可述通过所述对象列表中的对象信息，确定处理对象的第二对象特征，包括：获取所述对象列表中处理对象的对象信息，所述对象信息包括以下至少一种：对象名称、属性信息、类别信息和第二图像；对所述对象信息进行分析，确定处理对象的第二对象特征。

步骤510，将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象。

其中，可将所述第一对象特征分别与所述第二对象特征进行相似度匹配，确定所述至少一个目标处理对象对应的相似度信息；按照所述相似度信息对所述至少一个目标处理对象进行筛选，确定匹配的处理对象。

可选的，所述按照所述相似度信息对所述至少一个目标处理对象进行筛选，确定匹配的处理对象，包括以下至少一种：按照相似度阈值对所述至少一个目标处理对象的相似度进行筛选，确定匹配的处理对象；将所述至少一个目标处理对象按照相似度信息进行排序，确定匹配的处理对象。

步骤512，依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

还可依据匹配的处理对象的对象信息和目标视频片段分析锚点信息；在对应的锚点位置添加所述锚点信息。

本实施例中各步骤与上述实施例中对应步骤类似，具体可参照上述实施例对应部分的描述。

从而能够基于具体的场景确定对象信息以及对象列表，然后基于音频数据确定文本信息来划分视频片段，再针对包含处理对象的目标视频片段进行多模态的特征提取，结合对象列表所分析的多模态特征，能够快速的定位处理对象所出现的片段并进行锚点，便于后续审核。

在上述实施例的基础上，本申请实施例还可用于软件即服务(Software-as-a-Service，SaaS)场景中，可将上述通过视频分析进行锚点的方式作为一种服务，如称为视频锚点服务。可将视频锚点服务部署在服务端，如部署在网络服务平台的服务端上，从而各用户可订阅该项视频锚点服务，为订阅的用户提供服务接口，用户可通过服务接口上传视频，而后可接收到添加有锚点的视频数据。在另外一些场景中，也可为上述服务提供服务界面，从而用户在使用该项服务时可以访问服务界面，通过该服务界面上传视频数据，如上传本地视频数据或者提供视频数据的存储地址等存储信息，从而使得该项服务能够获取到视频数据，而后执行分析处理并进行锚点，在完成锚点后可以在服务界面中播放该视频数据，从而用户通过该服务界面可跳转查看目标视频片段，进行视频中处理对象的审核，提高审核效率。

参照图6，示出了本申请的再一种视频处理方法实施例的步骤流程图。

步骤602，通过第一接口接收视频数据。

视频锚点服务可提供服务接口，该第一接口用于接收视频数据，订阅视频锚点服务可获知该第一接口，另外一些示例中，在通过第一接口接收视频数据，也可检测该视频数据的提供方是否具有服务权限，从而为具有权限的提供方提供服务。

步骤604，对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段。

步骤606，将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象。

步骤608，对所述目标视频片段进行分析，确定第一对象特征。

步骤610，获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定。

步骤612，将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象。

步骤614，依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

步骤616，通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

在视频锚点服务完成视频锚点后，可以通过第二接口反馈添加有锚点的视频数据。其中，第一接口和第二接口可为同一接口，也可为不同接口，具体依据需求设置。用户可基于该添加有锚点的视频数据进行视频审核，该添加有锚点的视频数据可以跳转播放各目标视频片段，从而快速定位视频中需要审核的片段并进行审核，提高审核效率。

在上述实施例的基础上，针对视频数据确定出各视频片段所介绍的对象，相应还可应用于其他场景中，例如可提取视频片段，从而基于视频片段进行处理，如基于视频片段进行推荐等，将视频片段再编辑为短视频等其他视频形式等。

参照图7，示出了本申请的再一种视频处理方法实施例的步骤流程图。

步骤702，对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段。

步骤704，将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象。

步骤706，对所述目标视频片段进行分析，确定第一对象特征。

步骤708，获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定。

步骤710，将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象。

步骤712，依据所述匹配的处理对象提取对应的目标视频片段。

确定出该目标视频片段所对应的处理对象后，还可提取各目标视频片段，将目标视频片段与对应的处理对象进行关联，执行基于该处理对象的各项处理操作。例如在各种平台上对该目标视频片段进行推荐，如在电商网站上推荐该目标视频片段，从而能够介绍所包含的商品对象，在用户查看的情况下还可推荐关联的商品对象详情页等。

在另外一些场景中，对于所述提取的目标视频片段，还可对所述目标视频片段进行编辑，生成设定时长的目标视频。如对目标视频片段进行剪辑，从而得到设定时长的目标视频，又如为目标视频片段添加特效并剪辑，从而得到设定时长的目标视频。其中，设定时长可依据需求设置，如为60秒、30秒、15秒等。例如生成不超过15秒的短视频等。

在上述实施例的基础上，针对视频数据确定出各视频片段所介绍的对象，相应还可应用于其他场景中，例如基于视频片段进行推荐等，可相应的平台上进行视频分发，定向推荐等。

参照图8，示出了本申请的再一种视频处理方法实施例的步骤流程图。

步骤802，对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段。

步骤804，将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象。

步骤806，对所述目标视频片段进行分析，确定第一对象特征。

步骤808，获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定。

步骤810，将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象。

步骤812，依据所述匹配的处理对象，对所述目标视频片段进行推荐。

确定出该目标视频片段所对应的处理对象后，还可对所述目标视频片段进行推荐，其中，可基于目标视频片段对该视频数据进行推荐，也可提取各目标视频片段，将目标视频片段与对应的处理对象进行关联，执行基于该处理对象的推荐操作。例如在各种平台上对该目标视频片段进行推荐，如在电商网站上推荐该目标视频片段，从而能够介绍所包含的商品对象，在用户查看的情况下还可推荐关联的商品对象详情页等。

本申请实施例先基于语音文本召回对象介绍片段，从而后续仅需对包含对象的目标视频片段进行分析即可，使得计算量大大缩小，并且能够快速定位包含对象的目标视频片段。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种视频处理装置，应用于终端设备、服务器等电子设备中。

参照图9，示出了本申请的一种视频处理装置实施例的结构框图，具体可以包括如下模块：

片段划分模块902，用于对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段。

片段分析模块904，用于将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象。

片段特征确定模块906，用于对所述目标视频片段进行分析，确定第一商品特征。

列表特征确定模块908，用于通过所述商品列表中的商品信息，确定商品对象的第二商品特征。

对象匹配模块910，用于将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象。

锚点模块912，用于依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

其中，所述片段划分模块902，用于从所述视频数据中提取音频数据，对所述音频数据进行语音识别，获取对应的文本信息；依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段。

所述片段划分模块902，用于依据所述文本信息定位商品对象对应的多个时间信息；依据所述多个时间信息，分别提取所述商品对象对应的目标视频片段。

所述片段分析模块包括：文本召回子模块、视觉召回子模块和融合子模块，其中：

所述文本召回子模块，用于将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果；

所述视觉召回子模块，用于将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果。

所述文本召回子模块，用于获取所述目标视频片段对应的文本信息，并提取文本特征；将所述文本特征与所述商品列表中商品对象的商品标题进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为文本召回结果。

所述视觉召回子模块，用于从所述目标视频片段中提取至少一个包含商品对象的第一图像；将所述第一图像与所述关联的商品列表中商品对象的第二图像进行匹配，确定至少一个目标商品对象；将所述至少一个目标商品对象的对象标识作为视觉召回结果。

所述融合子模块，用于将所述文本召回结果和视觉召回结果进行融合，确定所述目标视频片段对应的至少一个目标商品对象。

所述片段特征确定模块906，用于从所述目标视频片段中提取商品对象的第三商品特征，所述第三商品特征包括：语音文本特征和/或视觉图像特征；将所述第三商品特征进行融合处理，得到对应的第一商品特征。

所述列表特征确定模块908，用于获取所述商品列表中商品对象的商品信息，所述商品信息包括以下至少一种：商品标题、属性信息、品牌信息、类目信息和第二图像；对所述商品信息进行分析，确定商品对象的第二商品特征。

所述对象匹配模块910，用于获取所述至少一个目标商品对象对应的第二商品特征；将所述第一商品特征分别与所述第二商品特征进行相似度匹配，确定所述至少一个目标商品对象对应的相似度信息；按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象。

所述对象匹配模块910，用于按照相似度阈值对所述至少一个目标商品对象的相似度进行筛选，确定匹配的商品对象；和/或，将所述至少一个目标商品对象按照相似度信息进行排序，确定匹配的商品对象。

所述锚点模块912，还用于依据匹配的商品对象的商品信息和目标视频片段分析锚点信息；在对应的锚点位置添加所述锚点信息。

在另外一些实施例中：

所述片段划分模块902，用于对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；

所述片段分析模块904，用于将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；

所述片段特征确定模块906，用于对所述目标视频片段进行分析，确定第一对象特征；

所述对象匹配模块910，用于获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；

所述锚点模块912，用于依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

在另外一些场景中，还包括：视频提取模块，用于依据所述匹配的处理对象提取对应的目标视频片段。视频编辑模块，用于对所述目标视频片段进行编辑，生成设定时长的目标视频。

视频推荐模块，用于依据所述匹配的处理对象，对所述目标视频片段进行推荐。

综上，本申请实施例先基于语音文本召回对象介绍片段，从而后续仅需对包含对象的目标视频片段进行分析即可，使得计算量大大缩小，并且能够快速定位包含对象的目标视频片段。本申请实施例还融合了文本和视觉进行特征分析，能够结合视频所具有的语音和画面进行多模态的特征分析，相对于单文本召回的方式精度更高。

参照图10，示出了本申请的另一种视频处理装置实施例的结构框图，具体可以包括如下模块：

获取模块1002，用于获取添加有锚点的视频数据，所述锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定。

播放模块1004，用于基于所述锚点播放所述视频数据，以对所述目标视频片段中介绍的商品对象进行审核。

所述播放模块1004，还用于在播放所述目标视频片段时，显示所述目标视频片段对应的锚点信息，所述锚点信息依据介绍的商品对象的商品信息和目标视频片段分析。

参照图11，示出了本申请的再一种视频处理装置实施例的结构框图，具体可以包括如下模块：

服务调用模块1102，用于通过第一接口接收视频数据。

服务处理模块1104，用于对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

结果反馈模块1106，用于通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

本实施例中，服务处理模块与上述图8对应视频处理装置类似，具体可参照上述实施例论述。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图12示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1200。

对于一个实施例，图12示出了示例性装置1200，该装置具有一个或多个处理器1202、被耦合到(一个或多个)处理器1202中的至少一个的控制模块(芯片组)1204、被耦合到控制模块1204的存储器1206、被耦合到控制模块1204的非易失性存储器(NVM)/存储设备1208、被耦合到控制模块1204的一个或多个输入/输出设备1210，以及被耦合到控制模块1204的网络接口1212。

处理器1202可包括一个或多个单核或多核处理器，处理器1202可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1200能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置1200可包括具有指令1214的一个或多个计算机可读介质(例如，存储器1206或NVM/存储设备1208)以及与该一个或多个计算机可读介质相合并被配置为执行指令1214以实现模块从而执行本公开中所述的动作的一个或多个处理器1202。

对于一个实施例，控制模块1204可包括任意适当的接口控制器，以向(一个或多个)处理器1202中的至少一个和/或与控制模块1204通信的任意适当的设备或组件提供任意适当的接口。

控制模块1204可包括存储器控制器模块，以向存储器1206提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1206可被用于例如为装置1200加载和存储数据和/或指令1214。对于一个实施例，存储器1206可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1206可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1204可包括一个或多个输入/输出控制器，以向NVM/存储设备1208及(一个或多个)输入/输出设备1210提供接口。

例如，NVM/存储设备1208可被用于存储数据和/或指令1214。NVM/存储设备1208可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1208可包括在物理上作为装置1200被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1208可通过网络经由(一个或多个)输入/输出设备1210进行访问。

(一个或多个)输入/输出设备1210可为装置1200提供接口以与任意其他适当的设备通信，输入/输出设备1210可以包括通信组件、音频组件、传感器组件等。网络接口1212可为装置1200提供接口以通过一个或多个网络通信，装置1200可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1200可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1200可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1200包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频处理方法和装置、一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段；

将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；

对所述目标视频片段进行分析，确定第一商品特征；

通过所述商品列表中的商品信息，确定商品对象的第二商品特征；

将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象；

依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

2.根据权利要求1所述的方法，其特征在于，所述对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段，包括：

从所述视频数据中提取音频数据，对所述音频数据进行语音识别，获取对应的文本信息；

依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段。

3.根据权利要求2所述的方法，其特征在于，所述依据所述文本信息对所述视频数据进行划分，确定包含商品对象的多个目标视频片段，包括：

依据所述文本信息定位商品对象对应的多个时间信息；

依据所述多个时间信息，分别提取所述商品对象对应的目标视频片段。

4.根据权利要求1所述的方法，其特征在于，将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象，包括：

将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果；

将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果。

5.根据权利要求4所述的方法，其特征在于，所述将所述目标视频片段对应的文本信息与关联的商品列表进行匹配，确定至少一个目标商品对象，作为文本召回结果，包括：

获取所述目标视频片段对应的文本信息，并提取文本特征；

将所述文本特征与所述商品列表中商品对象的商品标题进行匹配，确定至少一个目标商品对象；

将所述至少一个目标商品对象的对象标识作为文本召回结果。

6.根据权利要求4所述的方法，其特征在于，所述将所述目标视频片段中商品对象的图像与关联的商品列表进行匹配，确定至少一个目标商品对象，作为视觉召回结果，包括：

从所述目标视频片段中提取至少一个包含商品对象的第一图像；

将所述第一图像与所述关联的商品列表中商品对象的第二图像进行匹配，确定至少一个目标商品对象；

将所述至少一个目标商品对象的对象标识作为视觉召回结果。

7.根据权利要求4所述的方法，其特征在于，还包括：

将所述文本召回结果和视觉召回结果进行融合，确定所述目标视频片段对应的至少一个目标商品对象。

8.根据权利要求1所述的方法，其特征在于，对所述目标视频片段进行分析，确定第一商品特征，包括：

从所述目标视频片段中提取商品对象的第三商品特征，所述第三商品特征包括：语音文本特征和/或视觉图像特征；

将所述第三商品特征进行融合处理，得到对应的第一商品特征。

9.根据权利要求1所述的方法，其特征在于，所述通过所述商品列表中的商品信息，确定商品对象的第二商品特征，包括：

获取所述商品列表中商品对象的商品信息，所述商品信息包括以下至少一种：商品标题、属性信息、品牌信息、类目信息和第二图像；

对所述商品信息进行分析，确定商品对象的第二商品特征。

10.根据权利要求1所述的方法，其特征在于，将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象，包括：

获取所述至少一个目标商品对象对应的第二商品特征；

将所述第一商品特征分别与所述第二商品特征进行相似度匹配，确定所述至少一个目标商品对象对应的相似度信息；

按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象。

11.根据权利要求10所述的方法，其特征在于，所述按照所述相似度信息对所述至少一个目标商品对象进行筛选，确定匹配的商品对象，包括以下至少一种：

按照相似度阈值对所述至少一个目标商品对象的相似度进行筛选，确定匹配的商品对象；

将所述至少一个目标商品对象按照相似度信息进行排序，确定匹配的商品对象。

12.根据权利要求11所述的方法，其特征在于，还包括：

依据匹配的商品对象的商品信息和目标视频片段分析锚点信息；

在对应的锚点位置添加所述锚点信息。

13.一种视频处理方法，其特征在于，所述方法包括：

获取添加有锚点的视频数据，所述锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定；

基于所述锚点播放所述目标视频片段，以对所述目标视频片段中介绍的商品对象进行审核。

14.根据权利要求13所述的方法，其特征在于，还包括：

在播放所述目标视频片段时，显示所述目标视频片段对应的锚点信息，所述锚点信息依据介绍的商品对象的商品信息和目标视频片段分析。

15.一种视频处理方法，其特征在于，所述方法包括：

对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；

将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；

对所述目标视频片段进行分析，确定第一对象特征；

获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；

将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；

依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点。

16.一种视频处理方法，其特征在于，所述方法包括：

通过第一接口接收视频数据；

对所述目标视频片段进行分析，确定第一对象特征；

依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点；

通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

17.一种视频处理方法，其特征在于，所述方法包括：

对所述目标视频片段进行分析，确定第一对象特征；

依据所述匹配的处理对象提取对应的目标视频片段。

18.根据权利要求17所述的方法，其特征在于，还包括：

对所述目标视频片段进行编辑，生成设定时长的目标视频。

19.一种视频处理方法，其特征在于，所述方法包括：

对所述目标视频片段进行分析，确定第一对象特征；

依据所述匹配的处理对象，对所述目标视频片段进行推荐。

20.一种视频处理装置，其特征在于，所述装置包括：

片段划分模块，用于对所述视频数据的音频数据进行文本识别，确定包含商品对象的目标视频片段；

片段分析模块，用于将所述目标视频片段与关联的商品列表进行匹配，确定至少一个目标商品对象；

片段特征确定模块，用于对所述目标视频片段进行分析，确定第一商品特征；

列表特征确定模块，用于通过所述商品列表中的商品信息，确定商品对象的第二商品特征；

对象匹配模块，用于将所述第一商品特征和目标商品对象对应的第二商品特征进行相似度匹配，确定匹配的商品对象；

锚点模块，用于依据所述匹配的商品对象和对应的目标视频片段，对所述视频数据进行锚点。

21.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取添加有锚点的视频数据，所述锚点包括目标视频片段的起始节点和结束节点，所述目标视频片段用于介绍商品对象，介绍的商品对象依据目标视频片段所提取的第一商品特征和关联的商品列表所提取的第二商品特征匹配确定；

播放模块，用于基于所述锚点播放所述视频数据，以对所述目标视频片段中介绍的商品对象进行审核。

22.一种视频处理装置，其特征在于，所述装置包括：

服务调用模块，用于通过第一接口接收视频数据；

服务处理模块，用于对所述视频数据的音频数据进行文本识别，确定包含处理对象的目标视频片段；将所述目标视频片段与关联的对象列表进行匹配，确定至少一个目标处理对象；对所述目标视频片段进行分析，确定第一对象特征；获取目标处理对象的第二对象特征，所述第二对象特征依据所述对象列表中的对象信息确定；将所述第一对象特征和所述目标处理对象对应的第二对象特征进行相似度匹配，确定匹配的处理对象；依据所述匹配的处理对象和对应的目标视频片段，对所述视频数据进行锚点；

结果反馈模块，用于通过第二接口反馈添加有锚点的视频数据，以基于所述锚点跳转播放所述视频数据的目标视频片段，对所述目标视频片段对应的处理对象进行审核。

23.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12、15、16-19中一个或多个所述的方法。

24.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12、15、16-19中一个或多个所述的方法。

25.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求13-14中一个或多个所述的方法。

26.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求13-14中一个或多个所述的方法。