CN114896452A

CN114896452A - 一种视频检索方法、装置、电子设备及存储介质

Info

Publication number: CN114896452A
Application number: CN202210588950.5A
Authority: CN
Inventors: 高婷婷; 张真; 李志岩
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-12

Abstract

本申请涉及一种视频检索方法、装置、电子设备以及存储介质，涉及视频技术领域，该视频检索方法包括：接收视频检索请求，所述视频检索请求携带有文本信息，依据所述文本信息进行语义匹配处理，确定意图类型信息，依据所述意图类型信息进行视频检索，得到视频检索结果。可见，本申请解决了现有的视频检索方式视频检索效率低的问题。

Description

一种视频检索方法、装置、电子设备及存储介质

技术领域

本申请涉及视频技术领域，尤其涉及一种视频检索方法、装置、电子设备及存储介质。

背景技术

视频检索可以简单理解为从视频中搜索有用或者需要的资料，用户通常是通过视频检索在海量视频中寻找特定镜头，该特定镜头可以包括视频的高燃片段、人物互动以及特定剧情等。然而，从海量视频数据中检索用户感兴趣的视频片段，是用户内容创作者(User Generated Content，UGC)和影视综合运营宣发的难题。

现有视频检索方式主要是通过用户手动在海量视频中寻找特定场景镜头等内容，通常需要花费数小时甚至数天，视频检索效率低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种视频检索方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种视频检索方法，所述方法包括：

接收视频检索请求，所述视频检索请求携带有文本信息；

依据所述文本信息进行语义匹配处理，确定意图类型信息；

依据所述意图类型信息进行视频检索，得到视频检索结果。

可选的，所述依据所述文本信息进行语义匹配处理，确定意图类型信息，包括：

对所述文本信息进行分词处理，得到目标分词；

针对每一个所述目标分词，基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息；

基于所述目标标签信息，确定所述意图类型信息。

可选的，所述基于所述目标标签信息，确定所述意图类型信息，包括：

将目标标签信息输入预设的意图理解模型，得到所述意图理解模型输出的所述意图类型信息；或者，

基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息。

可选的，所述依据所述意图类型信息进行视频检索，得到视频检索结果，包括：

基于所述意图类型信息对应的匹配方式，确定所述意图类型信息中各检索语句对应的标签权重信息；

依据所述各检索语句对应的标签权重信息进行排序处理，得到各待检测语句对应的排列顺序；

基于所述排列顺序，从所述各待检测语句中选取出目标检索语句；

依据所述目标检索语句，从待筛选视频素材中选取目标视频；

基于所述目标视频生成所述视频检索结果。

可选的，所述基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息，包括：

基于预设的标签关系图谱信息，提取所述属性信息对应的标签索引信息；

基于所述标签索引信息对应的标签信息，确定为所述目标标签信息。

可选的，所述基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息，包括：

从所述标签关系图谱信息中，提取每一个目标标签信息对应的标签意图信息；

依据各个目标标签信息对应的标签意图信息进行融合处理，得到所述意图类型信息。

可选的，所述方法还包括：

获取视频数据；

对所述视频数据进行分析，得到视频元素和所述视频元素对应的描述标签信息；

针对每一个视频元素，基于所述视频元素的属性信息，确定所述描述标签信息对应的标签索引信息；

依据所述标签索引信息和所述描述标签信息，构建所述视频数据对应的标签关系图谱信息

第二方面，本申请提供了一种视频检索装置，包括：

接收单元，用于接收视频检索请求，所述视频检索请求携带有文本信息；

匹配单元，用于依据所述文本信息进行语义匹配处理，确定意图类型信息；

检索单元，用于依据所述意图类型信息进行视频检索，得到视频检索结果

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的视频检索方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的视频检索方法的步骤。

综上，本申请实施例通过接收视频检索请求，并依据视频检索请求携带的文本信息进行语义匹配处理，确定意图类型信息，以依据意图类型信息进行视频检索，得到视频检索结果，解决了现有的视频检索方式视频检索效率低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频检索方法的步骤流程图；

图2为本申请一个可选实施例提供的一种视频检索方法的步骤流程图；

图3为本申请提供的基于内容理解素材库系统整体架构图；

图4为本申请提供的索引标签词云图；

图5为本申请实施例提供的一种视频检索装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种视频检索方法的流程示意图。如图1所示，本申请提供的视频检索方法具体可以包括如下步骤。

步骤110，接收视频检索请求，所述视频检索请求携带有文本信息。

具体的，本申请实施例可以接收用户输入的视频检索请求，该视频检索请求可以携带有用户输入的文本信息，该文本信息可以是用户在进行视频检索时输入的检索内容。具体而言，本申请实施例可以在接收到用户视频检索请求时，确定用户输入的文本信息，从而确定用户需要检索的视频内容。例如，在用户需要检索与“一生一世周生x时x雪地拥抱”相关的视频的情况下，用户输入的检索内容可以是“一生一世周生x时x雪地拥抱”，可以将该检索内容作为用户输入的文本信息，从而可以基于用户输入的文本信息，确定用户视频检索请求，以便后续可以根据该视频检索请求携带的文本信息确定检索意图类型。

在实际处理中，用户可以根据实际的视频检索需求输入相应的检索内容，以作为用户输入的文本信息，使得接收到该文本信息的终端可以根据该文本信息生成相应的用户检索请求。在一个可选实施方式中，本申请实施例中用户视频检索请求除了可以携有用户输入的文本信息之外，还可以携带有安全验证参数，以便在接收到用户视频检索请求后，可以根据安全验证参数对接收到的用户视频检索请求进行安全校验。具体而言，可以在接收到视频检索请求时，判断视频检索请求是否携带安全验证参数；若视频检索请求未携带安全验证参数，则可以确定视频检索请求为非法请求，可以不基于视频检索请求进行视频检索；若视频检索请求携带安全验证参数，则可以确定视频检索请求为合法请求，并可以基于视频检索请求携带的安全验证参数进行安全验证，得到安全验证结果，进而可以判断安全验证结果是否为安全验证通过结果，以在安全验证结果为安全验证通过结果的情况下，基于视频检索请求携带的用户输入的文本信息进行视频检索；在安全验证结果为安全验证不通过结果的情况下，可以不基于视频检索请求携带的用户输入的文本信息进行视频检索。

步骤120，依据所述文本信息进行语义匹配处理，确定意图类型信息。

具体的，本申请实施例在确定用户输入的文本信息后，可以基于文本信息进行语义匹配处理，确定意图类型信息，其中，意图类型信息可以用于确定用户视频检索的意图类型，该意图类型可以是用户视频检索请求对应的视频剧集，如“一生一世全部剧集”等，本申请实施例对此不做具体限制。

例如，可以对文本信息进行分词解析处理，得到文本信息对应的至少一个分词信息，并可以基于每一个分词信息，确定分词信息对应的标签信息，从而可以基于标签信息确定意图类型信息。

在具体实现中，确定文本信息对应的分词信息后，可以基于分词信息对应的属性信息后，通过预设的多维标签关系图谱，确定分词信息对应的标签信息，以及各标签信息之间的标签关系，进而确定标签所属的视频范围，如可以是确定每一个标签信息对应的视频剧集信息等，从而可以基于每一个标签信息对应的视频剧集信息确定意图类型信息。

例如，在用户输入的文本信息为“一生一世周生x时x雪地拥抱”的情况下，可以对文本信息“一生一世周生x时x雪地拥抱”进行分词，得到“一生一世”、“周生x”、“时x”、“雪地”以及“拥抱”等分词。随后可以确定每一个分词对应的属性信息，如分词“一生一世”对应的属性信息可以是剧集属性信息，分词“周生x”和分词“时x”的属性信息都可以是角色属性信息，分词“雪地”的属性信息可以是场景属性信息，分词“拥抱”的属性信息可以是行为属性信息，随后可以基于每一个分词的属性信息，通过预设的多维标签关系图谱，确定每一个分词对应的标签信息。随后，可以通过多维标签关系图谱，确定剧集属性信息对应的剧集标签信息、确定角色属性信息对应的标签信息为人物标签信息、确定场景属性信息对应的标签信息为场景标签信息，以及确定行为属性信息对应的标签信息为行为标签信息，如可以在角色“周生x”对应的演员为“任x伦”，角色“时x”对应的演员为“白x”的情况下，可以将演员“任x伦”确定为角色“周生x”对应的人物标签信息，并可将演员“白x”确定为角色“时x”对应的人物标签信息，以及可以确定“雪地”对应的标签信息为场景标签信息，确定“拥抱”对应的标签信息为行为标签信息。

进一步的，在确定分词信息对应的标签信息后，可以判断多个标签信息中是否包含剧集标签信息，若确定多个标签信息中包含剧集标签信息，则可以基于剧集标签信息确定剧集所属视频合集，如可以是确定“一生一世”所属视频合集为“一生一世全部剧集”，进而可以将“一生一世全部剧集”确定为意图类型信息；若多个标签信息中不包含剧集标签信息，则可以基于多维标签关系谱图，确定每一个标签信息对应的视频剧集，进而基于视频剧集确定剧集标签信息，从而基于剧集标签信息确定剧集所属视频合集，确定该视频合集为意图类型信息。在后续处理中，可以基于意图类型信息确定对应的检索语句，从而可以基于检索语句进行视频检索，得到视频检索结果，即执行步骤130。

步骤130，依据所述意图类型信息进行视频检索，得到视频检索结果。

具体的，本申请实施例在确定意图类型信息后，可以基于意图类型信息，确定用户输入的文本信息对应的检索语句，进而可以基于检索语句，进行视频检索，筛选出目标视频，从而可以基于目标视频生成视频检索结果。

例如，用户输入文本信息“一生一世周生x时x雪地拥抱”对应的意图类型信息为“一生一世全部剧集”，则可以生成检索语句“(一生一世(albumID)->一生一世全部剧集(episodes))∩任x伦(personID)∩白x(personID)∩场景(sceneID)∩拥抱(behaviorID)”，并可以基于检索语句从海量视频数据或待筛选视频素材中进行视频检索，结合不同场景的多维标签策略，对海量视频数据或视频素材进行过滤、筛选视频，得到目标视频，随后可以对获得的目标视频进行融合和排序，生成视频检索结果，实现根据用户视频检索需求从海量视频中快速检索用户感兴趣的兴趣片段，提高了视频检索效率。

可见，本申请实施例通过接收用户视频检索请求，依据视频检索请求携带的用户输入的文本信息进行语义匹配处理，确定意图类型信息，从而依据意图类型信息进行视频检索，得到视频检索结果，解决了现有的视频检索方式视频检索效率低的问题，提高了视频检索效率，针对有运营宣发需求的用户，可以实现从海量视频中筛选高燃、剧情冲突等片段作为宣发短视频，实现用户的视频检索需求。

参照图2，示出了本申请一个可选实施例提供的一种视频检索方法的步骤流程示意图。该视频检索方法可以具体可以包括如下步骤

步骤210，接收视频检索请求，所述视频检索请求携带有文本信息。

在实际处理中，为保证可以快速基于用户输入的文本信息实现视频检索，可以在海量视频资源中，结合图像处理、计算机视觉、语义理解等技术，采用应用、计算和存储分层设计方案，利用人工智能(Artificial Intelligence，AI)识别技术构建内容理解素材库系统，该素材库系统整体架构可以如图3所示。其中，素材库系统从上至下依次可以分为应用层(Application Layer)、计算层(Computation Layer)以及数据层(Data Layer)。

在具体实现中，Applation Layer可以接收用户视频检索请求，判断视频检索请求是否携带安全验证参数和用户输入的文本信息等。例如，可以在视频检索请求携带安全验证参数和用户输入的文本信息的情况下，对视频检索请求携带的安全验证参数进行安全校验(Security Verification)，得到安全校验结果，并可以对安全校验结果进行判断，以在安全校验结果为安全校验通过结果的情况下，基于接收到的用户视频检索请求，生成计算任务，发送给Computation Layer，通过Computation Layer执行相关计算任务。需要说明的是，本申请实施例可以针对每一个计算任务记录任务参数信息、执行状态和处理结果，任务参数信息可以包含检索语句、时间戳、鉴权验证码以及授权唯一标识等，执行状态可以包含初始化、排队中、执行中、已成功、已失败以及已超时，处理结果可以包含根据检索语句进行视频检索后得到的片段视频或时间点位，该处理结果可以为JSON格式，本申请实施例对此不做具体限制，通过使用容器应用引擎、消息队列等服务构建分布式任务调度系统，实现多任务并行计算，按需调整中央处理器、内存和存储等硬件资源配比。

进一步而言，Computation Layer可以根据获取到的计算任务，通过调用算子执行引擎(Operator Engine)对接收到的语句(Query)进行语义理解，该语句可以是用户输入的文本信息，通过对接收到的语句进行语义理解，可以匹配出合适的检索条件，结合不同场景的多维标签策略，从海量视频数据或视频素材中过滤筛选视频素材，得到视频检索结果，并对视频检索结果进行融合和排序。具体而言，计算任务可以包含同步计算任务和异步计算任务，Computation Layer在接收到计算任务时，可以对计算任务进行判断，若计算任务为同步计算任务，则可以利用多线程机制并行调用运算服务(Operator Service)包含的多个多个算子执行引擎(Operator Engine)对计算任务进行处理，在计算结束后统一返回结果；若计算任务为异步计算任务，则可以通过算子管理器(Operator Manager)将多个计算任务拆解为子任务，每个子任务完成时单独通知上层应用，所有子任务均结束后，异步任务结束并返回结果，其中，算子执行引擎由算子管理器(Operator Manager)。

进一步的，Data Layer可以存储有海量视频数据或视频素材，标签生产中心(Label Producer)可以发起视频AI分析任务，生成多个类型的算法标签数据并存储，并可以生成多维标签关系图谱和聚类索引，以为Computation Layer提供索引(IndexService)、数据读写(Meta Service)、文件存储(Storage Service)和视频素材处理(VideoService)等基础服务支撑，在面向内容创作和视频制作的使用场景中，从零开始定义各场景下内容理解所需的基础算法标签，建立意图理解模型和多维标签融合规则，通过建立多维标签关系图谱，避免海量视频数据或视频素材在图谱中汇集成超级顶点，提升多维标签的查询效率。

步骤220，对所述文本信息进行分词处理，得到目标分词。

具体的，可以对用户输入的文本信息进行分词处理，得到多个分词，并可以将得到的分词作为目标分词，以便后续可以基于每一个目标分词，确定目标分词对应的目标标签信息。

例如，在用户输入文本信息为“时x雪地跳舞”的情况下，可以对文本信息“时x雪地跳舞”进行分词处理，得到目标分词“时x”、目标分词“雪地”以及目标分词“跳舞”。

步骤230，针对每一个所述目标分词，基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息。

具体的，目标分词的属性信息可以包括角色属性信息，场景属性信息以及行为属性信息等，本申请实施例对此不做具体限制，其中，场景属性信息也可以是指实体属性信息，行为属性信息也可以是指抽象属性信息。可以为每一种属性信息预设对应的标签信息，以通过预设的多维标签关系图谱，确定属性信息对应的标签信息，以将该标签信息作为目标分词对应的目标标签信息。

在本申请一个可选实施例中，上述基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息，具体可以包括以下子步骤：

子步骤2301，基于预设的标签关系图谱信息，提取所述属性信息对应的标签索引信息。

其中，标签关系图谱信息可以是多维标签关系图谱，该多维标签关系图谱可以包含剧集标签(episodes)索引信息和分类标签索引信息两种，剧集标签索引信息可以用于确定某一视频剧集，如“一生一世第一集”等，本申请实施例对此不做具体限制。分类标签索引信息可以包含人物标签索引信息“person”、场景标签索引信息“scene”、行为标签索引信息“behavior”、表情标签索引信息“emotion”、物体标签索引信息“object”、音频标签索引信息“voice”以及转场点索引信息“shot”等，本申请实施例对此也不做具体限制，可以从多维标签关系图谱中提取属性信息对应的标签索引信息。具体而言，剧集属性信息对应的标签索引信息可以是“album”，角色属性信息对应的标签索引信息可以是“person”，场景属性信息对应的标签索引信息可以是“scene”，行为属性信息对应的标签索引信息可以是“behavior”，表情属性信息对应的标签索引信息可以是“emotion”，物体属性信息对应的标签索引信息可以是“object”，音频属性信息对应的标签索引信息可以是“voice”，转场点属性信息对应的标签索引信息可以是“shot”，本申请实施例对此不做具体限制。

在具体实现中，若用户输入的文本信息包含剧集属性信息，如“一生一世第一集”等，本申请实施例对此不做具体限制，则可以基于剧集属性信息直接确定剧集标签索引信息(album)，进而确定剧集标签信息(albumID)，在后续处理中可以直接基于剧集标签信息确定剧集标签(episodes)，进而确定意图类型信息，提升多维标签的查询效率。

子步骤2302，基于所述标签索引信息对应的标签信息，确定为所述目标标签信息。

具体的，本申请实施例在确定标签索引信息后，可以将标签索引信息对应的标签信息，确定为目标标签信息。

例如，在目标分词为“时x”、“雪地”以及“跳舞”，目标分词“时x”的属性信息为角色属性信息、目标分词“雪地”的属性信息为场景属性信息以及目标分词“跳舞”的属性信息为行为属性信息的情况下，可以基于多维标签关系图谱，确定角色属性信息对应的标签索引信息可以是“person”，场景属性信息对应的标签索引信息可以是“scene”，行为属性信息对应的标签索引信息可以是“behavior”，从而可以基于“person”确定属性信息为角色属性信息的目标分词对应的目标标签信息，基于“scene”确定属性信息为场景属性信息的目标分词对应的目标标签信息，基于“behavior”确定属性信息为行为属性信息的目标分词对应的目标标签信息。具体而言，可以结合标签索引信息“person”和多维标签关系图谱，确定目标分词“时x”对应的演员为“白x”，目标分词“时x”对应的目标标签信息为人物标签信息(personID)，结合标签索引信息“scene”和多维标签关系图谱，确定目标分词“雪地”对应的目标标签信息为场景标签信息(sceneID)，结合标签索引信息“behavior”和多维标签关系图谱，确定目标分词“跳舞”对应的目标标签信息为行为标签信息(behaviorID)。

步骤240，将目标标签信息输入预设的意图理解模型，得到所述意图理解模型输出的所述意图类型信息，或者，基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息。

具体的，意图类型信息可以是视频范围信息，如意图类型信息可以是“一生一世全部剧集”或“一生一世第一集”等，本申请实施例对此不做具体限制。具体而言，本申请实施例在确定目标标签信息后，可以将目标标签信息输入预设的意图理解模型中，通过意图理解模型对目标标签信息进行解析处理，确定视频范围，进而确定意图类型信息，当然，也可以是基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到意图类型信息。

在本申请一个可选实施方式中，对意图理解模型的前期训练阶段，可以是获取待训练的样本数据，该待训练样本数据可以是各种目标标签信息以及目标标签信息对应的意图类型信息，将目标标签信息以及目标标签信息对应的意图类型信息输入到待训练的意图理解型中进行模型训练，进而可以得到意图理解模型。

可选的，上述基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息，具体可以包括以下子步骤：

子步骤2401，从所述标签关系图谱信息中，提取每一个目标标签信息对应的标签意图信息。

具体的，标签意图信息可以目标标签信息对应的视频范围，如可以是“一生一世第一集”等，本申请实施例对此不做具体限制。

例如，目标分词为“时x”的情况下，基于多维标签关系图谱信息，可以确定目标分词“时x”对应的演员为“白x”，目标分词“时x”对应的目标标签信息为人物标签信息，可以确定人物标签信息对应的剧集范围，以作为人物标签信息对应的人物标签意图信息，如该人物标签意图信息可以是“一生一世第一集”；又如目标分词为“雪地”的情况下，目标分词对应的标签信息为场景标签信息，可以确定场景标签信息对应的剧集范围，以作为场景标签信息对应的场景标签意图信息，如该场景标签意图信息可以是“一生一世第一集”；再如，目标分词为“跳舞”的情况下，目标分词对应的标签信息为行为标签信息，可以确定行为标签信息对应的剧集范围，以作为行为标签信息对应的行为标签意图信息，如该行为标签意图信息可以是“一生一世第一集”。

在本申请一个可选实施方式中，可以通过AI对海量视频数据或视频素材进行分析，例如，视频数据为“一生一世第一集”的情况下，经AI分析得出分析结果为视频时间1秒至10秒之间，出现角色“时x”，该角色演员为“白x”，目标标签信息为人物标签信息；视频时间2秒至10秒之间，出现场景“雪地”，目标标签信息为场景标签信息；视频时间4秒至6秒之间，出现行为“跳舞”，目标标签信息为行为标签信息。随后可以基于AI分析结果，生成多维标签关系图谱，该多维标签关系图谱可以用于确定目标标签信息对应的标签意图信息，即确定目标标签信息对应的视频范围。具体而言，可以基于多维标签关系图谱，确定标签关系为：时x->白x->一生一世第一集；雪地->一生一世第一集；跳舞->一生一世第一集。若用户输入文本信息为“时x雪地跳舞”，则可以通过多维标签关系图谱确定用户输入的文本信息中人物标签信息对应的标签意图信息可以是“一生一世第一集”，用户输入的文本信息中场景标签信息对应的标签意图信息可以是“一生一世第一集”，用户输入的文本信息中行为标签信息对应的标签意图信息可以为“一生一世第一集”，进而可以确定用户的意图类型信息为“一生一世第一集”。

进一步而言，本申请实施例还可以通过AI对视频数据进行逐帧理解、分析，如可以通过使用基础标签算法准入指标，分别对视频数据中每一帧的人物、表情、行为、场景、物体、音频以及转场点等进行识别，其中，人物识别可以是识别视频数据中包含目标人物的单人或多人画面；表情识别可以是识别视频数据中包含目标表情的单一类别或连续动作；行为识别可以是识别视频数据中包含目标行为的画面(可多类并存)；场景识别可以是识别视频数据中包含目标场景的画面(可多类并存)；物体识别可以是识别视频数据中包含目标物体的画面(可多类并存)；音频识别可以是识别视频数据中包含目标音色单一类别的时间点；转场点识别可以是识别视频数据中音频或画面镜头转换的起止时间点，随后可以基于识别到的标签数据并生成相应的剧集描述文本，例如，剧集描述文本可以为：一生一世第一集中视频时间4秒至6秒之间，包含演员“白x”，场景为“雪地”，行为为“跳舞”，人物置信度为85％，表情置信度90％，起始帧为第100帧，结束帧为第150帧。在接收到用户视频检索请求后，可以基于视频检索请求包含的文本信息，形成剧集描述文本，以便后续可以基于用户视频检索请求对应的目标检索语句，确定AI识别标签范围及识别结果数据，实时拆解为分布式计算任务，无需存储剧集描述文本，通过任务分解结合分布式并行计算实现提高视频检索效率。

在实际处理中，AI分析生成的描述文本可能会产生PB级数据(Peta Byte)，若采用传统依赖特征库、关系型数据库或大数据存储等单一数据源方式，可能造成处理效率、扩展性和资源利用率等方面的局限性，为解决该问题，本申请实施例提供的素材库系统整体采用分层设计，使得该系统具备存储和计算分离、计算单元无状态、分布式存储的特性，各层弹性扩缩容即可优化系统计算能力和容量。

子步骤2402，依据各个目标标签信息对应的标签意图信息进行融合处理，得到所述意图类型信息。

具体的，本申请实施例在确定目标标签信息对应的标签意图信息后，可以基于标签意图信息进行融合处理，从而可以得到意图类型信息。

例如，用户输入文本信息为“时x雪地跳舞”的情况下，基于多维标签关系谱图确定一生一世第一集同时出现角色“时x”、场景“雪地”以及行为“跳舞”，因此可以将“一生一世第一集”确定为意图类型信息。

在具体实现中，还可以预先通过AI对海量视频数据或视频素材进行分析，构建视频数据对应的标签关系图谱信息。

可选的，本申请实施例还包括：获取视频数据；对所述视频数据进行分析，得到视频元素和所述视频元素对应的描述标签信息；针对每一个视频元素，基于所述视频元素的属性信息，确定所述描述标签信息对应的标签索引信息；依据所述标签索引信息和所述描述标签信息，构建所述视频数据对应的标签关系图谱信息。具体而言，可以通过AI对视频数据进行分析，从视频数据中抽取人物、场景、行为以及表情等数据，并可以将人物数据、场景数据、行为数据以及表情数据等作为视频元素，并可以确定每一个视频元素对应的属性信息和描述标签信息，如在视频元素为人物的情况下，视频元素对应的属性信息可以是角色属性信息，视频元素对应的描述标签信息可以是人物描述标签信息；在视频元素为场景的情况下，视频元素对应的属性信息可以是场景属性信息，视频元素对应的描述标签信息可以是场景描述标签信息；视频元素为行为的情况下，视频元素对应的属性信息可以是行为属性信息，视频元素对应的描述标签信息可以是行为描述标签信息；在视频元素为表情的情况下，视频元素对应的属性信息可以是表情属性信息，视频元素对应的描述标签信息可以是表情描述标签信息。随后可以基于视频元素的属性信息，确定描述标签信息对应的标签索引信息，如在视频元素属性信息为角色属性信息，视频元素对应的描述标签信息为人物标签信息的情况下，确定人物标签信息对应的标签索引信息为“personID”；在视频元素属性信息为场景属性信息，视频元素对应的描述标签信息为场景标签信息的情况下，确定场景标签信息对应的标签索引信息为“scene”；在视频元素属性信息为行为属性信息，视频元素对应的描述标签信息为行为标签信息的情况下，确定行为标签信息对应的标签索引信息为“behavior”，随后可以依据标签索引信息和描述标签信息，构建视频数据对应的标签关系图谱信息。需要说明的是，本申请实施例中视频元素、视频元素对应的属性信息以及视频元素均可以根据实际视频检索需求设置，本申请实施例对视频元素、视频元素对应的属性信息以及视频元素对应的描述标签信息均不做具体限制。

进一步而言，如图4所示，可以基于各个描述标签信息，按照查询效率、实体属性等方面设计聚合索引，得到索引标签词云。以便在接收到用户输入的文本信息时，可以基于分词结果，结合索引标签词云，快速确定各分词对应的目标标签信息。

步骤250，基于所述意图类型信息对应的匹配方式，确定所述意图类型信息中各检索语句对应的标签权重信息。

具体的，本申请实施例在确定意图类型信息后，可以基于意图类型信息对应的匹配方式，确定意图类型信息中各检索语句对应的标签权重信息。具体而言，可以从意图类型信息中提取检索语句，该检索语句可以包含剧集检索语句、人物检索语句、场景检索语句、行为检索语句以及表情检索语句等，本申请实施例对此不做具体限制。

例如，剧集检索语句可以是“一生一世第一集(episodes)”，人物检索语句可以是“白x(personID)”，场景检索语句可以是“雪地(sceneID)”，行为检索语句可以是“跳舞(behaviorID)”，随后可以确定每一个检索语句对应的标签权重信息，以便后续可以依据各检索语句对应的标签权重信息进行排序处理，得到待检测语句对应的排序顺序。

步骤260，依据所述各检索语句对应的标签权重信息进行排序处理，得到各待检测语句对应的排列顺序。

具体的，可以标签权重信息的大小进行排序，如按照标签权重信息由大到小对待检测语句进行排序，也可以按照标签权重信息由小到达对待检测语句进行排序，本申请对排序方式不做具体限制

步骤270，基于所述排列顺序，从所述各待检测语句中选取出目标检索语句。

具体的，可以从排序后的待检测语句中选取目标检索语句。例如目标检索语句可以是(一生一世第一集(episodes)∩白x(personID)∩雪地(sceneID)∩跳舞(behaviorID))。

步骤280，依据所述目标检索语句，从待筛选视频素材中选取目标视频。

具体的，本申请实施例在确定目标检索语句之后，可以依据目标检索语句，从待筛选视频素材中选取目标视频。

在一个可选实施方式中，本申请实施例在确定目标检索语句后，可以基于目标检索语句，确定目标检索语句对应的剧集描述文本，从而可以结合目标检索语句和目标检索语句对应的剧集描述文本，从待筛选视频素材中选取目标视频。

例如，目标检索语句为(一生一世第一集(episodes)∩白x(personID)∩雪地(sceneID)∩跳舞(behaviorID))的情况下，目标检索语句对应的剧集描述文本可以为：一生一世第一集中视频时间4秒至6秒之间，包含演员“白x”，场景为“雪地”，行为为“跳舞”，人物置信度为85％，表情置信度90％，起始帧为第100帧，结束帧为第150帧。随后可以基于剧集描述文本通过标签融合计算规则从待筛选的视频素材中选取目标视频。具体而言，可以先从待筛选的视频素材中获取一生一世第一集的视频内容，进而可以通过视频画面定位规则：frame_point＝episode∩(person IN[p1…pN])∩(scene IN[s1…sN])∩(emotion IN[a1…aN])∩(behavior IN[b1…bN])∩(object IN[o1…oN])∩(voice IN[v1…vN])，将获取的目标视频定位至一生一世第一集视频时间4秒至6秒之间，随后可以通过帧级画面起点定位规则：start_shot＝shot.end IN[frame_point.start-25,frame.start]以及帧级画面终点定位规则：end_shot＝shot.start IN[frame_point.end,frame.end+25]，将获取的目标视频定位至一生一世第一集视频帧为第100帧至第150帧之间，从而可以通过素材输出规则：final_point＝[min(start_shot.end,frame_point.start),max(frame_point.end,end_shot.start)]，将一生一世第一集视频帧为第100帧至第150帧之间的视频输出，以将输出的视频作为目标视频。

在具体实现中，还可以利用目标标签信息在视频中的时序性进行帧级画面交叉计算，并根据镜头分割算法保证画面切分完整、连贯。

进一步而言，目标检索语句对应的剧集描述文本可以有多个，即获得的目标视频也可以包含多个视频。因此，可以按用户对内容的准确度要求，确定目标检索语句对应的描述文本，如在用户对获取的人物、表情、行为、场景等标签的置信度阈值在85％～95％之间时，目标检索语句对应的描述文本包含的人物、表情、行为、场景等标签的置信度均可以在85％～95％之间，从而确保视频检索结果的准确性。

步骤290，基于所述目标视频生成所述视频检索结果。

具体的，本申请实施例在选取到目标视频后，可以基于目标视频生成视频检索结果，并可以向用户展示视频检索结果，实现基于用户的视频检索需求，完成视频检索，提高视频检索效率。具体而言，针对有运营宣发需求的用户，可以从海量视频数据或待筛选视频素材中，筛选包含高燃或剧情冲突的视频片段作为宣发短视频；针对有UGC创作需求的用户，可以利用视频内容理解搜索，在海量视频数据或待筛选视频素材中实现精确定位人物、场景到帧级画面的特性，使得用户可以简单高效获取视频剪辑素材；针对热点分析场景，商业智能(Business Intelligence，BI)可以对用户反复观看的视频内容进行标签分析，为运营编辑提供决策建议；针对短视频推荐，可以基于长、短视频用户观看或互动等行为，分析用户喜好视频的内容标签，在信息流中个性化推荐同质或相似视频，或根据站外合作数据进行种草拉新；针对模型训练，可以通过视频的基础标签，优化模型识别准确性；针对节目选角辅助，可以提供演员出场时间、人物情绪等数据。

综上，本申请实施例通过接收用户视频检索请求，对文本信息进行分词处理，得到目标分词，针对每一个目标分词，基于目标分词的属性信息，确定目标分词对应的目标标签信息，从而可以将目标标签信息输入预设的意图理解模型，得到意图理解模型输出的意图类型信息，或者，基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到意图类型信息，基于意图类型信息对应的匹配方式，确定意图类型信息中各检索语句对应的标签权重信息，依据各检索语句对应的标签权重信息进行排序处理，得到各待检测语句对应的排列顺序，基于排列顺序，从各待检测语句中选取出目标检索语句，依据目标检索语句，从待筛选视频素材中选取目标视频，基于目标视频生成视频检索结果，实现基于用户的视频检索需求，完成视频检索，提高视频检索效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。

如图5所示，本申请实施例提供了一种视频检索装置500，包括：

接收单元510，用于接收视频检索请求，所述视频检索请求携带有文本信息；

匹配单元520，用于依据所述文本信息进行语义匹配处理，确定意图类型信息；

检索单元530，用于依据所述意图类型信息进行视频检索，得到视频检索结果。

可选的，所述匹配单元包括：分词子单元、目标标签信息确定子单元以及意图类型信息确定子单元

其中，所述分词子单元，用于对所述文本信息进行分词处理，得到目标分词；

所述目标标签信息确定子单元，用于针对每一个所述目标分词，基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息；

所述意图类型信息确定子单元，用于基于所述目标标签信息，确定所述意图类型信息。

可选的，所述意图类型信息确定子单元包括：第一意图类型信息确定模块和第二意图类型信息确定模块；

其中，所述第一意图类型信息确定模块，用于将目标标签信息输入预设的意图理解模型，得到所述意图理解模型输出的所述意图类型信息；

所述第二意图类型信息确定模块，用于基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息。

可选的，所述检索单元包括：标签权重信息确定子单元、排列顺序确定子单元、目标检索语句确定子单元、目标视频选取子单元以及视频检索结果生成子单元；

其中，所述标签权重信息确定子单元，用于基于所述意图类型信息对应的匹配方式，确定所述意图类型信息中各检索语句对应的标签权重信息；

所述排列顺序确定子单元，用于依据所述各检索语句对应的标签权重信息进行排序处理，得到各待检测语句对应的排列顺序；

所述目标检索语句确定子单元，用于基于所述排列顺序，从所述各待检测语句中选取出目标检索语句；

所述目标视频选取子单元，用于依据所述目标检索语句，从待筛选视频素材中选取目标视频；

所述视频检索结果生成子单元，用于基于所述目标视频生成所述视频检索结果。

可选的，所述目标标签信息确定子单元具体用于基于预设的标签关系图谱，提取所述属性信息对应的标签索引信息；基于所述标签索引信息对应的标签信息，确定为所述目标标签信息。

可选的，所述第二意图类型信息确定模块包括：标签意图信息提取子模块和意图类型信息确定子模块；

其中，所述标签意图信息提取子模块，用于从所述标签关系图谱信息中，提取每一个目标标签信息对应的标签意图信息；

所述意图类型信息确定子模块，用于依据各个目标标签信息对应的标签意图信息进行融合处理，得到所述意图类型信息。

可选的，所述装置还包括：

视频数据获取单元，用于获取视频数据；

视频数据分析单元，用于对所述视频数据进行分析，得到视频元素和所述视频元素对应的描述标签信息；

标签索引信息确定单元，用于针对每一个视频元素，基于所述视频元素的属性信息，确定所述描述标签信息对应的标签索引信息；

标签关系图谱信息确定单元，用于依据所述标签索引信息和所述描述标签信息，构建所述视频数据对应的标签关系图谱信息。

需要说明的是，本申请实施例提供的视频检索装置可执行本申请任意实施例所提供的视频检索方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述视频检索装置可以集成在设备中，使得该设备可以依据接收到的用户视频检索请求进行视频检索，以作为视频检索设备，实现视频检索。该视频检索设备可以是由两个或多个物理实体构成，也可以是一个物理实体构成，如设备可以是个人计算机(Personal Computer，PC)、电脑、服务器等，本申请实施例对此不作具体限制。

如图6所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信；存储器113，用于存放计算机程序；处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的视频检索方法的步骤。示例性的，视频检索方法的步骤可以包括如下步骤：接收视频检索请求，所述视频检索请求携带有文本信息；依据所述文本信息进行语义匹配处理，确定意图类型信息；依据所述意图类型信息进行视频检索，得到视频检索结果。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的视频检索方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频检索方法，其特征在于，所述方法包括：

接收视频检索请求，所述视频检索请求携带有文本信息；

依据所述文本信息进行语义匹配处理，确定意图类型信息；

依据所述意图类型信息进行视频检索，得到视频检索结果。

2.根据权利要求1所述的方法，其特征在于，所述依据所述文本信息进行语义匹配处理，确定意图类型信息，包括：

对所述文本信息进行分词处理，得到目标分词；

基于所述目标标签信息，确定所述意图类型信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标标签信息，确定所述意图类型信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述依据所述意图类型信息进行视频检索，得到视频检索结果，包括：

基于所述目标视频生成所述视频检索结果。

5.根据权利要求2所述的方法，其特征在于，所述基于所述目标分词的属性信息，确定所述目标分词对应的目标标签信息，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于预设的标签关系图谱信息，对目标标签信息进行意图解析，得到所述意图类型信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取视频数据；

依据所述标签索引信息和所述描述标签信息，构建所述视频数据对应的标签关系图谱信息。

8.一种视频检索装置，其特征在于，包括：

检索单元，用于依据所述意图类型信息进行视频检索，得到视频检索结果。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的视频检索方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的视频检索方法的步骤。