CN115269961A

CN115269961A - 内容搜索方法以及相关设备

Info

Publication number: CN115269961A
Application number: CN202210912133.0A
Authority: CN
Inventors: 刘艾婷; 李千
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本申请公开了一种内容搜索方法以及相关设备，相关实施例可应用于云技术、人工智能、智慧交通等各种场景；可以对目标内容进行视频问答意图信息的识别；当识别到存在视频问答意图信息时，获取至少一个预设视频问答对；基于目标内容和预设视频问答对中搜索内容的相似度、以及目标内容和预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对视频搜索结果进行召回；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。本申请能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

Description

内容搜索方法以及相关设备

技术领域

本申请涉及计算机技术领域，具体涉及一种内容搜索方法以及相关设备。

背景技术

随着互联网技术的发展，网络信息飞速增长，网络上充斥着大量的冗余信息，用户为了在网络上搜索到所需要的信息，需要借助搜索引擎。搜索引擎是一种在网络上应用的软件系统，其以一定的策略在网络上搜集和发现信息，并在对信息进行处理后，为用户提供互联网上的信息搜索服务。搜索引擎通常提供一个网页界面，让用户在客户端提交搜索内容，然后搜索应用获取和用户输入的搜索内容相匹配的搜索结果，将这些搜索结果返回给用户。

但是，目前的相关技术中，搜索应用返回的搜索结果一般都是较为复杂的文本搜索结果，没有根据用户实际提交的搜索内容进行具体的需求识别，容易出现搜索结果不是用户满意的结果的情况，使得搜索结果的精确度不够。

发明内容

本申请实施例提供一种内容搜索方法以及相关设备，相关设备可以包括内容搜索装置、电子设备、计算机可读存储介质和计算机程序产品，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

本申请实施例提供一种内容搜索方法，包括：

获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；

当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；

基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；

根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

相应的，本申请实施例提供一种内容搜索装置，包括：

意图识别单元，用于获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；

获取单元，用于当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；

召回单元，用于基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；

确定单元，用于根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

可选的，在本申请的一些实施例中，所述意图识别单元可以包括特征提取子单元和意图识别子单元，如下：

所述特征提取子单元，用于对所述目标内容中各个文本单元进行时序特征提取，得到所述目标内容的内容时序特征信息；

意图识别子单元，用于基于所述内容时序特征信息，对所述目标内容进行视频问答意图信息的识别。

可选的，在本申请的一些实施例中，所述特征提取子单元具体可以用于对所述目标内容中各个文本单元进行特征提取，得到各个文本单元对应的词级特征信息；基于各个文本单元对应的上下文的文本单元的词级特征信息，对各个文本单元的词级特征信息进行处理；将处理后的各个文本单元的词级特征信息进行融合，得到所述目标内容的内容时序特征信息。

可选的，在本申请的一些实施例中，所述召回单元可以包括索引图获取子单元、节点搜索子单元和搜索结果召回子单元，如下：

所述索引图获取子单元，用于获取所述预设视频问答对中搜索内容对应的内容索引图、以及所述预设视频问答对中视频搜索结果在至少一个维度下内容信息对应的内容索引图，所述内容索引图包括从上到下排列且节点数依次增多的各个索引层，所述索引层包括至少一个节点，每个节点对应的节点内容为一个搜索内容或视频搜索结果在至少一个维度下的内容信息；

节点搜索子单元，用于针对每个内容索引图，基于所述目标内容和所述节点对应的节点内容的相似度，在所述内容索引图中按照从上到下的顺序对各索引层进行节点搜索，以在目标索引层的节点中搜索到所述目标内容对应的相似节点；

搜索结果召回子单元，用于基于所述相似节点对应的节点内容，对所述预设视频问答对中的视频搜索结果进行召回，得到所述内容索引图对应的召回结果。

可选的，在本申请的一些实施例中，所述召回单元可以包括第一召回子单元、提取子单元和第二召回子单元，如下：

所述第一召回子单元，用于基于所述目标内容的内容特征向量和所述预设视频问答对中搜索内容的内容特征向量之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，得到第一召回结果；

提取子单元，用于对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量；

第二召回子单元，用于基于所述目标内容的内容特征向量和所述至少一个维度下的内容特征向量之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，得到所述至少一个维度下的第二召回结果。

可选的，在本申请的一些实施例中，所述提取子单元具体可以用于对所述预设视频问答对中视频搜索结果的光学字符识别文本进行向量化处理，得到在所述光学字符识别维度下的内容特征向量，所述光学字符识别文本为所述视频搜索结果在所述光学字符识别维度下的内容信息；对所述视频搜索结果的语音识别信息进行向量化处理，得到在所述语音识别维度下的内容特征向量，所述语音识别信息为所述视频搜索结果在所述语音识别维度下的内容信息；对所述视频搜索结果的视频帧图像序列进行向量化处理，得到在所述图像维度下的内容特征向量，所述视频帧图像序列为所述视频搜索结果在所述图像维度下的内容信息；对所述视频搜索结果的视频标题进行向量化处理，得到在所述视频标题维度下的内容特征向量，所述视频标题为所述视频搜索结果在所述视频标题维度下的内容信息；基于所述光学字符识别文本和所述语音识别信息，对所述视频搜索结果进行摘要提取处理，得到所述视频搜索结果在所述摘要维度下的内容特征向量。

可选的，在本申请的一些实施例中，所述至少一个维度还包括跨维度；所述提取子单元具体可以用于获取所述预设视频问答对中视频搜索结果在所述光学字符识别维度下的光学字符识别文本、在所述语音识别维度下的语音识别信息、以及在所述图像维度下的视频帧图像序列；将所述光学字符识别文本、所述语音识别信息、所述视频帧图像序列以及所述预设视频问答对中搜索内容进行特征向量的交互处理，得到在所述跨维度下的内容特征向量。

可选的，在本申请的一些实施例中，所述至少一个维度下的第二召回结果包括各个维度下的第二召回结果；所述确定单元可以包括统计子单元和结果确定子单元，如下：

所述统计子单元，用于对所述第一召回结果和各个维度下的第二召回结果进行聚合统计处理，得到各个被召回的视频搜索结果对应的召回频次信息；

结果确定子单元，用于基于所述召回频次信息，从所述被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

可选的，在本申请的一些实施例中，所述确定单元可以包括获取子单元和确定子单元，如下：

所述获取子单元，用于获取被召回的视频搜索结果在至少一个维度上的质量信息；

确定子单元，用于基于被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

可选的，在本申请的一些实施例中，所述确定子单元具体可以用于对被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息进行融合处理，得到融合特征信息；基于所述融合特征信息，预测被召回的视频搜索结果满足预设质量条件的概率；基于所述概率，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

可选的，在本申请的一些实施例中，所述意图识别单元具体可以用于通过意图识别模型，对所述目标内容进行视频问答意图信息的识别。

可选的，在本申请的一些实施例中，该内容搜索装置还可以包括训练单元，所述训练单元用于对意图识别模型进行训练；所述训练单元具体可以用于获取训练数据，所述训练数据包括样本内容以及所述样本内容存在视频问答意图信息的期望概率；通过意图识别模型，对所述样本内容中各个文本单元进行时序特征提取，得到所述样本内容的内容时序特征信息；基于所述内容时序特征信息，预测所述样本内容存在视频问答意图信息的实际概率；基于所述期望概率和所述实际概率，对意图识别模型的参数进行调整，得到训练后的意图识别模型。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的内容搜索方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的内容搜索方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现本申请实施例提供的内容搜索方法中的步骤。

本申请实施例提供了一种内容搜索方法以及相关设备，可以获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。本申请能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的内容搜索方法的场景示意图；

图1b是本申请实施例提供的内容搜索方法的流程图；

图1c是本申请实施例提供的内容搜索方法的模型结构图；

图1d是本申请实施例提供的内容搜索方法的另一模型结构图；

图1e是本申请实施例提供的内容搜索方法的另一模型结构图；

图1f是本申请实施例提供的内容搜索方法的另一流程图；

图1g是本申请实施例提供的内容搜索方法的页面示意图；

图1h是本申请实施例提供的内容搜索方法的另一页面示意图；

图2是本申请实施例提供的内容搜索方法的另一流程图；

图3是本申请实施例提供的内容搜索装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种内容搜索方法以及相关设备，相关设备可以包括内容搜索装置、电子设备、计算机可读存储介质和计算机程序产品。该内容搜索装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的内容搜索方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行内容搜索方法为例。本申请实施例提供的内容搜索系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，内容搜索装置可以集成在服务器中。

其中，终端10，可以用于：获取目标应用中当前待搜索的目标内容，向服务器11发送所述目标内容，以触发服务器对所述目标内容进行搜索，得到所述目标内容对应的目标视频搜索结果；终端10还可以接收服务器11发送的目标视频搜索结果，并在相应的搜索结果页面中展示该目标视频搜索结果。其中，终端10可以包括手机、智能语音交互设备、智能家电、车载终端、飞行器、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或浏览器客户端等等。

其中，服务器11，可以用于：接收终端10发送的当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。本申请所公开的内容搜索方法或装置，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

上述服务器11中进行内容搜索等步骤，也可以由终端10执行。

本申请实施例提供的内容搜索方法涉及人工智能领域中的计算机视觉技术、语音技术和自然语言处理。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从内容搜索装置的角度进行描述，该内容搜索装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例的内容搜索方法可以应用于浏览器搜索等场景中。本实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

如图1b所示，该内容搜索方法的具体流程可以如下：

101、获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别。

其中，目标内容为当前待搜索的内容，其内容类型不限，比如目标内容可以是文本，也可以是音频，还可以是图像等。目标内容具体也即用户所查询的内容，可以用query表示。具体地，若目标内容为音频，可以通过语音识别将其转化为文字再进行内容搜索。

具体地，可以获取目标应用中当前待搜索的目标内容，目标应用具体可以是一个内容搜索平台，用户可以通过目标应用提供的搜索入口和内置的搜索引擎来实现信息搜索，例如，目标应用可以是浏览器。

在一具体场景中，目标应用为浏览器，当前用户在浏览器的搜索输入框中输入的内容可以视为目标内容，当用户对搜索输入框中的目标内容进行搜索操作时，可以将目标内容作为当前待搜索内容，通过搜索引擎获取其对应的搜索结果。其中，一些实施例中，该搜索操作可以是对搜索输入框执行的回车操作；另一些实施例中，该搜索操作也可以是对浏览器对应的应用页面中搜索控件的触发操作，该触发操作可以是点击操作或者滑动操作，响应于对搜索控件的触发操作，浏览器可以将当前搜索输入框中的内容作为待搜索的目标内容，基于目标内容进行相关搜索，从而将搜索结果返回给用户。

在目前的相关技术中，搜索应用返回的搜索结果一般都是较为复杂的文本搜索结果，没有根据用户实际提交的搜索内容进行具体的需求识别，容易出现搜索结果不是用户满意的结果的情况，使得搜索结果的精确度不够。

本申请提供的内容搜索方法能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

可选地，本实施例中，步骤“对所述目标内容进行视频问答意图信息的识别”，可以包括：

对所述目标内容中各个文本单元进行时序特征提取，得到所述目标内容的内容时序特征信息；

基于所述内容时序特征信息，对所述目标内容进行视频问答意图信息的识别。

其中，可以先对目标内容进行分词处理，得到目标内容中的各文本单元，再对各文本单元进行时序特征提取。这里的文本单元可以是一个词或一个字，本实施例对此不作限制。

其中，可以基于内容时序特征信息，预测目标内容是否存在视频问答意图信息。具体可以通过分类器来预测目标内容是否存在视频问答意图信息。该分类器具体可以是支持向量机(SVM，Support Vector Machine)，也可以是循环神经网络、还可以是全连接深度神经网络(DNN，Deep Neual Networks)等等，本实施例对此不做限制。

其中，某个搜索内容存在视频问答意图信息，表示用户需要获取针对该搜索内容的答案，也即用户具有问答需求，且用户需要针对该搜索内容的视频类型的搜索结果。

可选地，本实施例中，步骤“对所述目标内容中各个文本单元进行时序特征提取，得到所述目标内容的内容时序特征信息”，可以包括：

对所述目标内容中各个文本单元进行特征提取，得到各个文本单元对应的词级特征信息；

基于各个文本单元对应的上下文的文本单元的词级特征信息，对各个文本单元的词级特征信息进行处理；

将处理后的各个文本单元的词级特征信息进行融合，得到所述目标内容的内容时序特征信息。

其中，文本单元的词级特征信息，具体可以是文本单元的词向量，也可以是文本单元的内容向量、类型向量和位置向量融合得到的特征信息。

具体地，文本单元对应的内容向量可以是文本单元的词向量，类型向量可以表征该文本单元所属的信息类型，位置向量可以表示该文本单元在目标内容中所处的位置，该位置具体可以是句子开头、句子结尾等。

其中，内容向量、类型向量以及位置向量的融合方式有多种，本实施例对此不作限制。比如该融合方式可以是拼接处理，拼接的顺序不限，例如可以按照内容向量、类型向量、位置向量的顺序进行拼接，也可以按照反过来的顺序，即按照位置向量、类型向量、内容向量的顺序进行拼接。该融合方式还可以是加权融合等，先确定内容向量、类型向量、位置向量三者对应的权重，再根据权重进行融合。

其中，文本单元对应的上下文的文本单元具体可以是目标内容中除该文本单元外的其他文本单元。本实施例可以将文本单元对应的各个上下文的文本单元的词级特征信息进行融合，得到该文本单元对应的上下文特征信息，再基于上下文特征信息对该文本单元的词级特征信息进行处理。对处理后的各个文本单元的词级特征信息进行融合的方式有多种，比如可以是加权求和等，本实施例对此不作限制。

通过意图识别模型，对所述目标内容进行视频问答意图信息的识别。

其中，该意图识别模型可以是时序模型。该时序模型可以包括长短期记忆网络(LSTM，Long Short-Term Memory)、双向编码器表示(Bert，BidirectionalEncoderRepresentations from Transformers)等等。

其中，LSTM是一种时间循环神经网络，即为循环神经网络(RNN，Recurrent NeuralNetwork)的一种。LSTM比较适合用于对时序数据提取语义特征，在自然语言处理任务中常被用来对上下文信息提取语义特征。LSTM可以通过三个门结构(输入门，遗忘门，输出门)，选择性地遗忘部分历史数据，加入部分当前输入数据，最终整合到当前状态并产生输出状态。

其中，Bert是基于变压器(Transformer)结构的开源的时序模型。Bert是由多层双向的Transformer连接而成，一般可以是12层或者24层等。Bert可以是通过预训练加微调得到的，Bert在训练时主要包含两个任务，第一个是随机扣掉训练语料中的词，并用掩码(mask)来代替，让模型去预测被扣掉的词；第二个任务是每个训练数据是一个上下句，其中，部分训练数据的下句和上句是真实关联的，而部分训练数据的下句和上句是无关的，需要让模型去判断训练数据中上下句的关系。基于两个任务的损失值来对模型进行优化。Bert的训练过程可以充分利用上下文的信息，使模型具有更强的表达能力。在完成对模型的预训练后，还可以针对特定的任务对模型进行微调。微调(fine-tune)是深度学习领域中常用的迁移学习技术，通过微调可以使模型更好地适用于特定场景下的语言知识。

需要说明的是，该意图识别模型具体可以由其他设备进行训练之后，提供给该内容搜索装置，或者，也可以由该内容搜索装置自行进行训练。

若由该内容搜索装置自行进行训练，则在步骤“通过意图识别模型，对所述目标内容进行视频问答意图信息的识别”之前，该内容搜索方法还可以包括：

获取训练数据，所述训练数据包括样本内容以及所述样本内容存在视频问答意图信息的期望概率；

通过意图识别模型，对所述样本内容中各个文本单元进行时序特征提取，得到所述样本内容的内容时序特征信息；

基于所述内容时序特征信息，预测所述样本内容存在视频问答意图信息的实际概率；

基于所述期望概率和所述实际概率，对意图识别模型的参数进行调整，得到训练后的意图识别模型。

其中，若期望概率为1，则表明样本内容存在视频问答意图信息；若期望概率为0，则表明样本内容不存在视频问答意图信息。这里的样本内容指样本搜索内容。

其中，该训练过程可以是先计算出样本内容存在视频问答意图信息的实际概率，然后，使用反向传播算法对意图识别模型的参数进行调整，基于样本内容存在视频问答意图信息的实际概率和期望概率，优化意图识别模型的参数，使得样本内容存在视频问答意图信息的实际概率趋近于期望概率，得到训练好的意图识别模型。具体地，可以使计算到的实际概率和期望概率之间的损失值小于预设值，该预设值可以根据实际情况进行设置。

在一具体实施例中，也可以通过视频意图模型提供视频意图算子，视频意图算子能够识别出用户是否有针对query的视频需求，即对视频类型的搜索结果的需求；并可以通过问答意图模型提供问答意图算子，问答意图算子能够识别出用户是否具有针对query的问答意图。综合利用视频意图算子和问答意图算子，可以确定待搜索的目标内容(query)是否存在视频问答意图信息。

其中，视频意图模型和问答意图模型可以是时序模型，该时序模型可以是LSTM模型，也可以是Bert模型。

例如，视频意图模型可以采用基于Bert的二分类模型，并用人工标注的训练数据进行模型训练。其中，视频意图模型的模型结构图可以参考图1c的左侧；其中，‘[CLS]’可以视为位置标签序列，Tok1、…TokN-1、TokN、TokN+1、TokM表示查询内容(具体也即样本搜索内容)中的各文本单元，‘[SEP]’为各个文本单元的分隔符。Bert模型可以根据CLS标志对查询内容中的各文本单元进行特征提取，生成一组特征向量T₁、…T_N-1、T_N、T_N+1…T_M，并通过一层全连接层进行微调，该全连接层可以是CRF模型。CRF，全称为Conditional RandomFields，即条件随机场。CRF模型可以视为Bert模型的任务相关层，具体地，该任务相关层可以是视频意图的预测任务。

表1

其中，训练数据可以携带有是否具有视频需求的标签，具体地，可以根据样本搜索内容对应的内容类型和所包含的关键词，来确定该样本搜索内容是否具有视频需求，这里的内容类型可以包括新闻事件类、生活实操类、以及操作教程类等，如表1所示。

在视频意图模型的训练过程中，可以根据每个样本搜索内容的标签(即存在视频意图的期望概率)和预测到的存在视频意图的实际概率，对视频意图模型的参数进行调整，得到训练后的视频意图模型。

需要说明的是，问答意图模型可以与视频意图模型类似，此处不对问答意图模型进行赘述。

102、当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果。

在一实施例中，可以从视频问答库中获取至少一个预设视频问答对，视频问答库可以存储有一定量级的视频问答对，每个预设视频问答对包括一个搜索内容和该搜索内容对应的视频搜索结果，其中，搜索内容作为问题内容query，视频搜索结果作为该问题内容对应的答案，视频搜索结果具体为视频类型的搜索结果。

具体地，视频问答库还可以存储有每个预设视频问答对的相关信息，这些相关信息可以划分为基本信息、扩展信息和质量信息。其中，基本信息可以包括视频标识信息(id，Identity document)、视频url(Universal Resource Locator，统一资源定位符，也可称为网页地址)、视频标题、视频封面、视频作者、视频时长和视频发布时间等；扩展信息可以包括视频OCR信息、视频ASR信息、答案摘要、答案分帧摘要。

其中，视频OCR信息(即光学字符识别文本)具体可以为对视频搜索结果对应的视频画面进行光学字符识别(OCR，Optical Character Recognition)得到的文本信息，具体地，视频OCR信息可以是视频搜索结果对应的视频字幕文本信息。一些实施例中，可以对视频搜索结果对应的视频进行视频帧抽取，可以每5帧抽取一次，然后对抽取到的视频帧进行字幕提取处理，并对提取到的字幕进行去重，去重后的字幕可以作为视频OCR信息。另外，还可以获取视频OCR信息在视频中对应的起止时间点，也即对应字幕在视频中出现的起始时间点和结束时间点，该起止时间点可以作为视频播放时的定位点，以供用户定位到该视频OCR信息对应的视频片段。

其中，视频ASR信息(即语音识别信息)可以为对视频搜索结果对应的音频信息进行自动语音识别(ASR，Automated Speech Recognition)得到的文本信息。一些实施例中，可以通过语音识别模型将视频的音频信息转换为文字，该语音识别模型可以是RNNT(Recurrent Neural Network Transducer，循环神经网络-传感器)和LAS(listen、attendand spell，听、注意力和拼写)模型对应的融合模型；另外，还可以获取该音频信息在视频中对应的起止时间点作为该视频ASR信息的起止时间点，该起止时间点可以作为视频播放时的定位点，以供用户定位到该视频ASR信息对应的视频片段。

其中，答案摘要和分帧摘要信息可以是通过对OCR/ASR获取到的文本信息进行摘要提取得到的。在一实施例中，可以将OCR/ASR获取到的文本信息传入训练好的MRC(Machine Reading Comprehension，机器阅读理解)的长答案模型(如Multi-passageBERT，多通道BERT)中，获取长答案。获取到长答案后传入基于T5-pegasus(一种中文生成模型)训练的摘要生成模型，获取全文对应的答案摘要，此模型具有精简、补全及纠错的功能。然后，可以采用训练好的是否需要分帧的二分类模型，对OCR/ASR获取到的文本信息进行是否需要分帧的判定，若输出概率为0.5以下，则表明该答案摘要为连续答案，不需要对该答案摘要进行分帧，若输出概率为0.5以上，则表明文本信息中存在多个方法或多个操作类别等，可以对答案摘要进行分帧，也即利用答案摘要将OCR/ASR获取到的文本信息划分为多个片段，确定各个片段在视频中的起止时间点，该起止时间点可以作为视频播放时的定位点，以供用户定位并跳转到视频中的某个方法或某个操作类别对应的视频片段进行观看。

其中，分帧第一步可以是将提取到的答案摘要和OCR/ASR获取到的文本信息进行对齐，具体的，可以先基于句号对OCR/ASR获取到的文本信息进行切句，得到各个文本句，再采用优化过的编辑距离匹配法依次将答案摘要与OCR/ASR的各文本句进行对齐，若没有找到与答案摘要匹配的文本句，考虑到OCR/ASR对应的文本信息可能存在错别字等情况，则可以将OCR/ASR对应的文本信息转换为拼音后再进行匹配。若还是无法找到与答案摘要匹配的文本句，则认为视频无法分帧。

103、基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度。

一些实施例中，可以将目标内容和预设视频问答对中搜索内容之间的相似度、以及目标内容和预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度进行融合，确定目标内容和预设视频问答对之间的目标相似度，再基于目标相似度对预设视频问答对中的视频搜索结果进行召回；具体地，可以将目标相似度大于预设值的预设视频问答对的视频搜索结果进行召回，或者基于目标相似度对预设视频问答对进行从大到小排序，将排序后的前n个预设视频问答对中的视频搜索结果进行召回。其中，相似度的融合方式有多种，本实施例对此不作限制，如可以是加权求和等。

另一些实施例中，也可以分别针对目标内容和预设视频问答对中搜索内容之间的相似度、以及目标内容和预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对预设视频问答对中视频搜索结果进行多路召回。

可选地，本实施例中，步骤“基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回”，可以包括：

基于所述目标内容的内容特征向量和所述预设视频问答对中搜索内容的内容特征向量之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，得到第一召回结果；

对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量；

基于所述目标内容的内容特征向量和所述至少一个维度下的内容特征向量之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，得到所述至少一个维度下的第二召回结果。

其中，目标内容和预设视频问答对中搜索内容之间的相似度，具体可以基于目标内容的内容特征向量和搜索内容的内容特征向量之间的向量距离来进行确定，向量距离越大，相似度越低；反之，向量距离越小，相似度越高。向量距离的计算可以采用欧式距离、余弦距离等，本实施例对此不作限制。

其中，可以通过语义识别模型来获取目标内容以及搜索内容的内容特征向量。该语义识别模型可以是LSTM模型，也可以是Bert模型等。

在一实施例中，语义识别模型可以提供查询向量化算子，查询向量化算子能够将用户搜索的query(目标内容或搜索内容)表示为256维的语义向量。例如，该语义识别模型同样采用基于BERT的模型，如图1c的右侧所示，为该语义识别模型的模型结构图，与图1c左侧模型不同的是：该语义识别模型的输出层可以采用L2_normalize(L2范数)做归一化处理，最终输出256维的表示向量。

在计算得到目标内容和预设视频问答对中搜索内容之间的相似度后，可以将相似度大于预设值的预设视频问答对中的视频搜索结果进行召回，也可以根据相似度对预设视频问答对进行排序，如从大到小排序，将排序后的前n个预设视频问答对中的视频搜索结果进行召回。

本实施例中，视频搜索结果在至少一个维度下的内容信息可以包括在光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度等各维度下的内容信息，本实施例对此不作限制。

具体地，对于光学字符识别维度下的内容信息，可以通过OCR(Optical CharacterRecognition，光学字符识别)将视频帧图像中的文字转换成文本信息得到；对于语音识别维度下的内容信息，可以通过ASR(Automated Speech Recognition，自动语音识别)技术将语音信息转换为文本信息得到。

可选地，本实施例中，步骤“对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量”，可以包括：

对所述预设视频问答对中视频搜索结果的光学字符识别文本进行向量化处理，得到在所述光学字符识别维度下的内容特征向量，所述光学字符识别文本为所述视频搜索结果在所述光学字符识别维度下的内容信息；

对所述视频搜索结果的语音识别信息进行向量化处理，得到在所述语音识别维度下的内容特征向量，所述语音识别信息为所述视频搜索结果在所述语音识别维度下的内容信息；

对所述视频搜索结果的视频帧图像序列进行向量化处理，得到在所述图像维度下的内容特征向量，所述视频帧图像序列为所述视频搜索结果在所述图像维度下的内容信息；

对所述视频搜索结果的视频标题进行向量化处理，得到在所述视频标题维度下的内容特征向量，所述视频标题为所述视频搜索结果在所述视频标题维度下的内容信息；

基于所述光学字符识别文本和所述语音识别信息，对所述视频搜索结果进行摘要提取处理，得到所述视频搜索结果在所述摘要维度下的内容特征向量。

在一些实施例中，视频搜索结果在至少一个维度下的内容信息还可以包括融合维度下的内容信息，这里的融合维度也可称为跨维度，跨维度下的内容信息可以包括搜索内容(query)、视频搜索结果对应的视频信息(即视频本身，可以是视频帧图像序列)、视频标题、光学字符识别文本以及语音识别信息等，通过对这些内容信息进行特征交互，可以得到跨维度下的内容特征信息，也即跨维度向量。

例如，可以通过如图1d所示的跨维度向量化模型来提取跨维度向量，该模型具体可以是Bert模型，模型可以同时输入视频问答对的query(即查询内容)、视频帧图像序列、视频标题、光学字符识别文本、以及语音识别信息，使得多个维度的信息在模型中进行交互，获得更加丰富的特征向量表示。

可选地，本实施例中，所述至少一个维度还包括跨维度；步骤“对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量”，可以包括：

获取所述预设视频问答对中视频搜索结果在所述光学字符识别维度下的光学字符识别文本、在所述语音识别维度下的语音识别信息、以及在所述图像维度下的视频帧图像序列；

将所述光学字符识别文本、所述语音识别信息、所述视频帧图像序列以及所述预设视频问答对中搜索内容进行特征向量的交互处理，得到在所述跨维度下的内容特征向量。

其中，在跨维度下的内容特征向量即上述实施例中的跨维度向量。

具体地，一些实施例中，可以分别基于目标内容和各维度下视频搜索结果的内容信息之间的相似度，对预设视频问答对中的视频搜索结果进行多路召回，得到各个维度对应的召回结果。另一些实施例中，也可以将目标内容和各维度下视频搜索结果的内容信息之间的相似度进行融合，基于融合后的相似度，对预设视频问答对中的视频搜索结果进行召回。

在一具体实施例中，针对每个预设视频问答对，可以获取其视频搜索结果对应的视频本身、视频标题、视频OCR信息、视频ASR信息、答案摘要以及查询内容query，并对视频帧图像序列、视频标题、视频OCR信息、视频ASR信息、答案摘要、query分别进行向量化表示，得到视频向量、视频标题向量、OCR向量、ASR向量、答案摘要向量和query向量。其中，query向量模型可以采用bert模型，视频向量模型、视频标题向量模型、OCR向量模型、ASR向量模型、答案摘要向量模型均可以采用类似于query向量模型的结构，参见图1e，其中模型的输入可以为上述5种数据中的任意一种，不同之处在于输入的信息不同，特征不同，训练数据不同。

基于上述的视频向量、视频标题向量、OCR向量、ASR向量、答案摘要向量、query向量和跨维度向量，目标内容可以分别与这7个向量进行相似度计算，再根据相似度，对预设视频问答对的视频搜索结果进行召回，得到7路召回结果。

其中，具体地，可以通过HNSW算法来进行视频搜索结果的召回。HNSW算法，全称为Hierarchcal Navigable Small World graphs，即“可导航小世界网络”算法，它是神经网络搜索领域基于图的算法。HNSW算法可以基于一定的方式对向量集构建一个近似小世界网络，然后对于查询向量，随机选择初始点进行快速检索。

本实施例中可以通过HNSW算法分别对视频问答库中各预设视频问答对相对应的7个向量构建7个索引库，将当前待搜索的目标内容与7个索引库中的各个向量进行向量相似召回处理，通过7路召回从索引库中召回目标内容的候选答案。

下面以query向量为例，说明query向量的索引库构建过程，以及如何根据当前待搜索的目标内容从query向量的索引库中召回视频搜索结果(即目标内容的候选答案)的过程，其它索引库的构建可以参考此过程，本实施例对此不再赘述。

其中，首先可以获取视频问答库中各预设视频问答对的query向量，计算这些query向量的m个分区质心，把这些query划分为m个分区，使得每个分区中的query与该分区质心的距离小于预设值；再从每个分区均匀采样n个query向量作为采样数据，通过采样数据表示表示该分区中query向量的分布信息，并给采样数据打上其所在分区的分区标签，从而利用采样数据构建全局索引，完成query向量的索引库构建。

完成query的索引库构建后，可以在全局索引中查找与目标内容对应的向量距离最近的p个采样数据，得到初步结果向量，再根据者p个采样数据对应的分区标签，统计各分区包含初步结果向量的数量，按照数量的多少，对各分区按照从多到少依次排序，选取处于前列的s个包含初步结果向量的数量非零的分区作为待查询分区；针对各待查询分区，获取该待查询分区中k个与目标内容对应的向量距离最近的query向量，作为分区结果向量；根据与目标内容对应的向量的相似度，对各待查询分区的分区结果向量进行排序，如按照从大到小进行排序，再将前l个query向量作为目标query向量，将目标query向量对应的视频搜索结果作为目标内容的候选答案。

获取所述预设视频问答对中搜索内容对应的内容索引图、以及所述预设视频问答对中视频搜索结果在至少一个维度下内容信息对应的内容索引图，所述内容索引图包括从上到下排列且节点数依次增多的各个索引层，所述索引层包括至少一个节点，每个节点对应的节点内容为一个搜索内容或视频搜索结果在至少一个维度下的内容信息；

针对每个内容索引图，基于所述目标内容和所述节点对应的节点内容的相似度，在所述内容索引图中按照从上到下的顺序对各索引层进行节点搜索，以在目标索引层的节点中搜索到所述目标内容对应的相似节点；

基于所述相似节点对应的节点内容，对所述预设视频问答对中的视频搜索结果进行召回，得到所述内容索引图对应的召回结果。

其中，内容索引图可以是采用HNSW算法构建得到的。例如，对于搜索内容对应的内容索引图来说，可以根据各预设视频问答对中搜索内容之间的相似度，对搜索内容进行聚类分区处理，得到至少一个内容分区，每个内容分区中的搜索内容与该内容分区的聚类中心的距离小于预设值；再对每个内容分区进行多次采样处理，其中，每次采样处理是在对应内容分区的上一次采样的采样结果(即上一次采样得到的搜索内容)上进行的，这样可以得到每个内容分区的多次采样结果，并将同次采样结果中的搜索内容汇聚在同一个索引层，内容索引图中最顶层(即第一个索引层)包括各内容分区最后一次采样结果中的搜索内容。需要说明的是，视频搜索结果在至少一个维度下内容信息对应的内容索引图的构建过程可以参考搜索内容对应的内容索引图的构建过程，视频搜索结果在至少一个维度下内容信息对应的内容索引图具体可以包括各个维度下内容信息对应的内容索引图。

其中，对各索引层的节点搜索，具体可以包括以当前索引层的开始节点为初始的当前节点，从当前节点和与当前节点具有连接关系的邻居节点中，搜索出距离目标内容的特征向量最近的节点作为更新的当前节点，将达到搜索结束条件时的当前节点确定为第一节点，经由该第一节点进入下一个索引层；且该第一节点用于作为下一个索引层的开始节点。开始节点可以是任意选择的节点。

其中，目标索引层可以是内容索引图中的最后一个索引层，也即最底层，需要说明的是，搜索内容对应的内容索引图的最后一个索引层包括所有搜索内容对应的节点。

104、根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

其中，一些实施例中，可以通过多路召回视频搜索结果，被召回的视频搜索结果可以看作目标内容的候选视频答案。由于某个视频搜索结果可能在多路中被重复召回，本实施例可以对各路召回结果进行聚合统计，确定被召回的视频搜索结果的召回频次信息。

可选地，本实施例中，所述至少一个维度下的第二召回结果包括各个维度下的第二召回结果；步骤“根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果”，可以包括：

对所述第一召回结果和各个维度下的第二召回结果进行聚合统计处理，得到各个被召回的视频搜索结果对应的召回频次信息；

基于所述召回频次信息，从所述被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

可选地，一些实施例中，可以将召回频次信息多于预设次数的视频搜索结果确定为目标内容对应的目标视频搜索结果，也可以根据召回频次信息，对被召回的视频搜索结果进行排序，如从大到小进行排序，将排序后的视频搜索结果中前n个确定为目标内容对应的目标视频搜索结果。

可选地，本实施例中，步骤“根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果”，可以包括：

获取被召回的视频搜索结果在至少一个维度上的质量信息；

基于被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

具体地，视频搜索结果在至少一个维度上的质量信息可以包括视频综合评分f₁、视频清晰度f₂、视频封面打分f₃、发布者综合等级f₄、发布者知名影响力f₅、发布者可信度f₆、发布者综合质量f₇、发布者领域专注度f₈、视频内容与发布者领域一致性f₉、账号发文显式领域分布f₁₀、发布者是否具有预设数量的粉丝f₁₁、题文不符概率f₁₂、视频的浏览量f₁₃、视频点赞量f₁₄、视频评论量f₁₅、视频分享量f₁₆、视频问答对中的视频与搜索内容是否相关f₁₇、视频准入f₁₈等。

可选地，本实施例中，步骤“基于被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果”，可以包括：

对被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息进行融合处理，得到融合特征信息；

基于所述融合特征信息，预测被召回的视频搜索结果满足预设质量条件的概率；

基于所述概率，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

其中，对召回频次信息和至少一个维度上的质量信息的融合方式有多种，本实施例对此不作限制，比如，该融合方式可以是拼接处理等。

其中，可以对融合特征信息进行对数线性运算，得到被召回的视频搜索结果满足预设质量条件的概率；预设质量条件具体可以根据实际情况进行设置，本实施例对此不作限制，比如预设质量条件可以是视频搜索结果为与待搜索的目标内容匹配的视频答案。

一些实施例中，可以将概率大于预设值的视频搜索结果确定为目标内容对应的目标视频搜索结果；另一些实施例中，也可以根据概率，对被召回的视频搜索结果进行排序，如从大到小排序，将排序后的视频搜索结果中前n个视频搜索结果确定为目标内容对应的目标视频搜索结果。

在一实施例中，可以采用逻辑斯蒂回归模型来从被召回的视频搜索结果中确定目标内容对应的目标视频搜索结果；具体地，质量信息可以包括18个维度，各个维度上的质量信息分别记为f₁,f₂,…,f₁₈，召回频次信息可以记为f₁₉，可以基于这18个质量信息和召回频次信息，构造一个19维的特征表示向量x，该特征表示向量x作为逻辑斯蒂回归模型的输入，具体地，该特征表示向量x可以如式子(1)表示：

x＝concat(f₁,f₂,…,f₁₉) (1)

其中，concat为将多个字符串中的文本组合起来的函数。

逻辑斯蒂回归是统计学习中一种分类方法，它可以是一个二分类的对数线性模型，通过该模型，可以对视频答案是否是一个好的视频答案做出预测，其预测条件概率分布可以如式子(1)和式子(2)所示：

其中，w和b是模型参数，可以通过训练获取实际取值。P(Y＝1|x)表示视频答案是一个好的视频答案的概率，P(Y＝0|x)表示视频答案是一个比较差的视频答案的概率。

在获取到目标内容对应的目标视频搜索结果后，可以在相应的搜索结果页面上进行展示该目标视频搜索结果。

在一具体场景中，如图1f所示，为基于本申请的内容搜索装置的流程图，该内容搜索装置主要可以包括搜索中控模块，QU模块和视频问答后台模块。

其中，搜索中控模块可以用于接收用户在内容搜索平台中输入的当前待搜索的目标内容(即查询内容)，并向QU模块发送提取目标内容的内容特征向量的请求指令，还可以接收QU模块发送的目标内容的内容特征向量，再将目标内容的内容特征向量传递给视频问答后台模块。

QU(Query Understanding，查询内容理解)模块可以提供视频意图算子，问答意图算子和查询向量化算子等自然语言处理能力，其主要功能是对目标内容进行深入理解，提取目标内容的内容特征向量，并识别目标内容是否具有视频问答意图信息。

视频问答后台模块可以基于目标内容的内容特征向量，从视频问答库中召回高质量的视频答案，视频问答后台模块具体可以分为两个子模块：多路召回子模块和排序子模块。

多路召回子模块可以用于从视频问答库中召回候选的视频答案，具体可以通过多路召回的方式可以获取到更多相关候选视频答案。在一实施例中，多路召回子模块具体可以包括7个召回通路对应的召回子维度，分别为：查询召回子模块、标题召回子模块、视频召回子模块、光学字符识别召回子模块、语音识别召回子模块、摘要召回子模块、以及跨维度召回子模块。

其中，查询召回子模块可以用于基于目标内容和视频问答对中搜索内容query之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₁。视频召回子模块可以用于根据目标内容和视频问答对中的视频内容本身(即视频帧图像序列)之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₂。标题召回子模块可以用于根据目标内容和视频问答对中视频标题之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₃。光学字符识别召回子模块可以用于基于目标内容和视频问答对的视频OCR信息(即光学字符识别文本)之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₄。语音识别召回子模块可以用于基于目标内容和视频问答对的视频ASR信息(即语音识别信息)之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₅。摘要召回子模块可以用于基于目标内容和视频问答对的答案摘要之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₆。跨维度召回子模块可以用于基于目标内容和视频问答对的跨维度向量之间的相似度，对视频问答对中的视频搜索结果进行召回，得到召回结果r₇。

其中，每个召回通路可以将与目标内容的相关性top10(前10)的视频问答对中的视频搜索结果进行召回，然后，可以对每个召回通路召回的候选视频答案进行汇总，再传给排序子模块，其中top10为一个经验值，其可以根据实际需求灵活调整。通过7路召回候选视频答案，每个通路召回均取top10，最终总共可以输出70个候选视频答案给排序子模块。

排序子模块可以用于对多路召回的候选视频答案进行排序，并选取得到的最优视频答案展现在搜索结果页面中。具体地，该排序子模块可以综合考虑各候选视频答案的各种质量信息，对所有候选视频答案进行打分，最终选出视频综合质量最高的答案进行线上展现。

其中，首先可以对多路召回的70个候选视频答案进行聚合，获取召回频次信息，即对重复召回的视频答案进行召回次数累加，例如某个候选视频答案同时存在于视频召回子模块输出的召回结果r₂、光学字符识别召回子模块输出的召回结果r₄、语音识别召回子模块输出的召回结果r₅、跨维度召回子模块输出的召回结果r₇中，则该候选视频答案的召回频次信息为4。

其中，排序策略可以采用逻辑斯蒂回归模型，基于候选视频答案在各维度上的质量信息以及召回频次信息，构造一个特征表示向量作为逻辑斯蒂回归模型的输入，通过逻辑斯蒂回归模型可以预测该候选视频答案属于一个高质量的视频答案的概率；然后，基于概率，对所有70个候选视频答案进行排序，并将概率最高的候选视频答案作为目标内的最优视频答案，从而在搜索结果页面上展示该视频答案。

通过该方案可以从视频问答库中召回查询内容的视频答案，视频答案呈现的信息能够更加直观，可以提升用户的满意度。

参考图1g中的页面a和页面b、以及图1h中的页面c和页面d，为基于本申请提供的内容搜索方法在线多路召回视频答案的结果展示示例，当用户在浏览器的搜索输入框中输入“怎么侧方停车”、“PDF怎么编辑修改内容”、“xx应用如何实名认证”、“手机wifi怎么改密码”等文本或语音类型的查询内容时，可以给出视频答案类型的搜索结果。由于视频答案更加直观、清楚，这样能够更好的满足用户的需求；同时，还可以在给出视频答案的同时，还可以在搜索结果页面展示相关的文本答案，进一步满足不同用户的问答需求，提升用户体验。

其中，PDF全称为Portable Document Format，即便携式文档格式；wifi是一种无线网络通信技术。

本申请提出了一种视频问答的召回方法，可以综合利用当前待搜索内容和视频问答对在多维度下特征向量，对视频答案进行多路召回，通过引入各路数据和各维度数据在召回中的相互印证，大幅提升视频搜索结果召回的准确性和精度，提高了搜索结果与用户的搜索内容相关性，显著提升用户的搜索体验。

由上可知，本实施例可以获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。本申请能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

根据前面实施例所描述的方法，以下将以该内容搜索装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种内容搜索方法，如图2所示，该内容搜索方法的具体流程可以如下：

201、服务器获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别。

其中，可以基于内容时序特征信息，预测目标内容是否存在视频问答意图信息。具体可以通过分类器来预测目标内容是否存在视频问答意图信息。

202、当识别到所述目标内容存在视频问答意图信息时，服务器获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果。

203、服务器基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度。

其中，内容索引图可以是采用HNSW算法构建得到的。例如，对于搜索内容对应的内容索引图来说，可以根据各预设视频问答对中搜索内容之间的相似度，对搜索内容进行聚类分区处理，得到至少一个内容分区，每个内容分区中的搜索内容与该内容分区的聚类中心的距离小于预设值；再对每个内容分区进行多次采样处理，其中，每次采样处理是在对应内容分区的上一次采样的采样结果(即上一次采样得到的搜索内容)上进行的，这样可以得到每个内容分区的多次采样结果，并将同次采样结果中的搜索内容汇聚在同一个索引层，内容索引图中最顶层(即第一个索引层)包括各内容分区最后一次采样结果中的搜索内容。

204、服务器根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

获取被召回的视频搜索结果在至少一个维度上的质量信息；

本申请提出了一种视频问答的召回方法，可以综合利用当前待搜索内容和视频问答对在多维度下特征信息，对视频答案进行多路召回，通过引入各路数据和各维度数据在召回中的相互印证，大幅提升视频搜索结果召回的准确性和精度，提高了搜索结果与用户的搜索内容相关性，显著提升用户的搜索体验。

由上可知，本实施例可以通过服务器获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。本申请能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

为了更好地实施以上方法，本申请实施例还提供一种内容搜索装置，如图3所示，该内容搜索装置可以包括意图识别单元301、获取单元302、召回单元303和确定单元304，如下：

(1)意图识别单元301；

意图识别单元，用于获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别。

(2)获取单元302；

获取单元，用于当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果。

(3)召回单元303；

召回单元，用于基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度。

(4)确定单元304；

由上可知，本实施例可以通过意图识别单元301获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，由获取单元302获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；通过召回单元303基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；通过确定单元304根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。本申请能够对用户输入的待搜索内容进行视频问答意图识别，若存在视频问答意图，可以返回更为直观简洁的视频搜索结果，有利于提高搜索结果的精确度。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取当前待搜索的目标内容，并对所述目标内容进行视频问答意图信息的识别；当识别到所述目标内容存在视频问答意图信息时，获取至少一个预设视频问答对，所述预设视频问答对包括搜索内容和所述搜索内容对应的视频搜索结果；基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，所述至少一个维度包括光学字符识别维度、语音识别维度、图像维度、视频标题维度和摘要维度；根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种内容搜索方法中的步骤。例如，该指令可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种内容搜索方法中的步骤，因此，可以实现本申请实施例所提供的任一种内容搜索方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述内容搜索方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种内容搜索方法以及相关设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种内容搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标内容进行视频问答意图信息的识别，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标内容中各个文本单元进行时序特征提取，得到所述目标内容的内容时序特征信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标内容和所述预设视频问答对中搜索内容之间的相似度、以及所述目标内容和所述预设视频问答对中视频搜索结果在至少一个维度下内容信息之间的相似度，对所述预设视频问答对中的视频搜索结果进行召回，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述至少一个维度还包括跨维度；所述对所述预设视频问答对中视频搜索结果在至少一个维度下内容信息进行向量化处理，得到所述至少一个维度下的内容特征向量，包括：

8.根据权利要求5所述的方法，其特征在于，所述至少一个维度下的第二召回结果包括各个维度下的第二召回结果；所述根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据被召回的视频搜索结果对应的召回频次信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果，包括：

获取被召回的视频搜索结果在至少一个维度上的质量信息；

10.根据权利要求9所述的方法，其特征在于，所述基于被召回的视频搜索结果对应的召回频次信息和在所述至少一个维度上的质量信息，从被召回的视频搜索结果中确定所述目标内容对应的目标视频搜索结果，包括：

11.根据权利要求1所述的方法，其特征在于，所述对所述目标内容进行视频问答意图信息的识别，包括：

12.根据权利要求11所述的方法，其特征在于，所述通过意图识别模型，对所述目标内容进行视频问答意图信息的识别之前，还包括：

13.一种内容搜索装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至12任一项所述的内容搜索方法中的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12任一项所述的内容搜索方法中的步骤。

16.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至12任一项所述的内容搜索方法中的步骤。