CN114003772A

CN114003772A - 一种视频搜索方法、装置、电子设备及存储介质

Info

Publication number: CN114003772A
Application number: CN202111307580.5A
Authority: CN
Inventors: 黄腾玉
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-01

Abstract

本发明实施例提供了一种视频搜索方法、装置、电子设备及存储介质，所述方法包括：获取用户输入的搜索信息，确定搜索信息对应的特征向量，作为目标特征向量；基于预先建立的特征向量与评论信息之间的对应关系，确定目标特征向量对应的评论信息，作为目标评论信息；对目标评论信息所属的视频进行排序，得到排序结果；基于排序结果，输出视频搜索结果。由于视频的评论信息相较于视频名称来说，所包含的信息更多且准确，可以全面准确地描述视频的真实内容，所以目标评论信息所属的视频的内容与搜索信息即为相近的，这样，得到的视频搜索结果即为能够与用户的搜索需要相匹配的视频，可以大大提高视频搜索结果的准确度。

Description

一种视频搜索方法、装置、电子设备及存储介质

技术领域

本发明涉及信息搜索技术领域，特别是涉及一种视频搜索方法、装置、电子设备及存储介质。

背景技术

用户在浏览视频时往往会需要搜索自己喜爱的类型的视频进行观看，此时用户会输入搜索信息。服务器便可以获取到该搜索信息，进而将该搜索信息与平台中的大量视频的视频标题进行匹配，从中找到用户所要搜索的视频结果。

由于当下短视频、小视频空前繁荣，视频的主要创作人群由专业制作人逐渐转变为普通用户。而普通用户赋予视频的视频标题通常不够全面，甚至与视频内容毫无关系，这就会导致用户输入的搜索信息和视频标题难以匹配，无法提供准确的视频搜索结果。

例如，用户A拍摄了一段小狗的玩耍视频a，为其命名的视频标题为“真可爱”。那么当用户B输入搜索信息“小狗”时，由于“真可爱”和“小狗”在文本内容上无法匹配，因此也就无法向用户B推荐视频a，显然，视频搜索结果的准确度不高。

发明内容

本发明实施例的目的在于提供一种视频搜索方法、装置、电子设备及存储介质，以提高视频搜索结果的准确度。具体技术方案如下：

第一方面，本发明实施例提供了一种视频搜索方法，所述方法包括：

获取用户输入的搜索信息，并确定所述搜索信息对应的特征向量，作为目标特征向量；

基于预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息，作为目标评论信息；

对所述目标评论信息所属的视频进行排序，得到排序结果；

基于所述排序结果，输出视频搜索结果。

第二方面，本发明实施例提供了一种视频搜索装置，所述装置包括：

特征向量确定模块，用于获取用户输入的搜索信息，并确定所述搜索信息对应的特征向量，作为目标特征向量；

评论信息确定模块，用于基于关系建立模块预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息，作为目标评论信息；

视频排序模块，用于对所述目标评论信息所属的视频进行排序，得到排序结果；

搜索结果确定模块，用于基于所述排序结果，输出视频搜索结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读缓存介质，所述计算机可读缓存介质内缓存有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

本发明实施例提供的方案中，电子设备可以获取用户输入的搜索信息，并确定搜索信息对应的特征向量，作为目标特征向量，基于预先建立的特征向量与评论信息之间的对应关系，确定目标特征向量对应的评论信息，作为目标评论信息，对目标评论信息所属的视频进行排序，得到排序结果，基于排序结果，输出视频搜索结果。电子设备基于搜索信息对应的特征向量和评论信息对应的特征向量可以确定出与搜索信息相似的目标评论信息，由于视频的评论信息相较于视频名称来说，所包含的信息更多且准确，可以全面准确地描述视频的真实内容，所以目标评论信息所属的视频的内容与搜索信息即为相近的，这样，得到的视频搜索结果即为能够与用户的搜索需要相匹配的视频，可以大大提高视频搜索结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的一种视频搜索方法的流程图；

图2为图1所示实施例中的对应关系的建立方式的一种流程图；

图3为图2所示实施例中的内容理解模型的训练方式的一种流程图；

图4为图1所示实施例中的步骤S103的一种具体流程图；

图5为基于图1所示实施例的视频搜索方法的一种示意图；

图6为本发明实施例所提供的一种视频搜索装置的结构示意图；

图7为基于图6所示实施例的关系建立模块的一种具体结构示意图；

图8为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了能够提高视频搜索结果的准确度，本发明实施例提供了一种视频搜索方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。下面对本发明实施例所提供的一种视频搜索方法进行介绍。

本发明实施例所提供的一种视频搜索方法可以应用于任意需要进行视频搜索的电子设备，例如，可以为服务器、终端、处理器、电脑等电子设备，在此不做具体限定。

如图1所示，一种视频搜索方法，所述方法包括：

S101，获取用户输入的搜索信息，并确定所述搜索信息对应的特征向量，作为目标特征向量。

用户在想要观看视频时，可以进行视频搜索，具体来说，用户可以在搜索界面中的搜索框中输入想要搜索的搜索信息，电子设备便可以获取到用户输入的搜索信息。例如，用户想要观看搞笑视频时，可以在搜索界面中的搜索框中输入“搞笑”，那么电子设备便可以获取到用户输入的搜索信息“搞笑”。应当理解，搜索信息是用户可以自定义确定的，本发明实施例对此无特别限制。

为了进行视频匹配，电子设备获取到上述搜索信息后，可以确定该搜索信息对应的特征向量，作为目标特征向量，目标特征向量即为可以描述搜索信息的含义特点的向量。其中，确定搜索信息对应的特征向量的具体方式可以为通过深度学习模型或其他任意方式确定，在此不做具体限定。

S102，基于预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息，作为目标评论信息。

目标评论信息所属的视频可以包括但不限于如下至少一种：短视频、综艺视频、电视剧、电影等各种视频，在此不做具体限定。示例性的，在短视频的视频搜索场景中，短视频名称一般是用户自定义命名的，各用户的命名方式不同，以短视频名称为基础进行搜索很难得到准确的搜索结果，那么，考虑到短视频的评论信息较多，且评论信息较为丰富，本发明实施例创造性的采用评论信息实现短视频搜索，其搜索准确率较高，换言之，本方案应用于短视频的搜索效果较佳。

S103，对所述目标评论信息所属的视频进行排序，得到排序结果。

S104，基于所述排序结果，输出视频搜索结果。

本申请实施例中，考虑到视频的评论信息相较于视频名称来说，所包含的信息更多且准确，可以全面准确地描述视频的真实内容，所以目标评论信息所属的视频的内容与搜索信息即为相近的，这样，得到的视频搜索结果即为能够与用户的搜索需要相匹配的视频，可以大大提高视频搜索结果的准确度。

在上述步骤S102中，电子设备可以基于预先建立的特征向量与评论信息之间的对应关系，确定目标特征向量对应的评论信息，并将该评论信息作为目标评论信息。

为了方便确定目标评论信息，电子设备可以预先建立特征向量与评论信息之间的对应关系。如果该电子设备为终端，该对应关系可以存储于终端通信连接的服务器中、终端本地或者其他可读存储位置，例如云存储器；如果该电子设备为服务器，该对应关系可以存储于服务器本地或者其他可读存储位置。其中，评论信息可以为预先获取的平台中发布的视频的评论信息，可以包括用户发布的针对各个视频的评论区域的信息、弹幕消息以及其他评论性的信息等能够描述视频内容的信息。电子设备获取到这些评论信息后，可以确定每个评论信息对应的特征向量。同理的，每个评论信息对应的特征向量可以描述该评论信息的含义特点。

这样，电子设备确定目标特征向量后，便可以查找特征向量与评论信息之间的对应关系，从而找出与目标特征向量相似度较高的特征向量，其中，特征向量与评论信息之间的对应关系可以为一个特征向量与一个评论信息对应，也可以为一个特征向量与多个评论信息对应，这都是合理的。多个评论信息的含义特点如果相同或者相近，那么该多个评论信息即可以对应一个特征向量。例如，评论信息“这个视频真好看”和评论信息“这个视频太好看了”可以对应于一个特征向量。

由于视频的评论信息的数量巨大，所以为了减少视频搜索时的计算量，可以预先建立特征向量与评论信息之间的对应关系，而不是在进行视频搜索时实时进行计算，可以提高视频搜索速度。

电子设备确定目标特征向量后，可以计算目标特征向量与上述对应关系所包括的各个特征向量之间的相似度，从而找出与目标特征向量相似度较高的特征向量，由于对应的特征向量相似度高说明评论信息与搜索信息之间匹配程度高，那么该评论信息所属的视频符合用户的搜索需求的可能性也就更高，因此，电子设备可以将这些评论信息确定为目标评论信息，继续执行上述步骤S103。

其中，特征向量之间的相似度可以采用特征向量之间的距离来表示，例如，可以为余弦距离、欧氏距离、曼哈顿距离、切比雪夫距离等至少一种，在此不做具体限定。

接下来，在上述步骤S103中，电子设备可以对上述目标评论信息所属的视频进行排序，得到排序结果。其中，具体排序方式可以根据视频搜索的实际需要等因素确定。

在第一种实施方式中，可以从每条评论信息的维度出发，先计算每个特征向量与目标特征向量之间的相似度，再基于相似度得到视频排序结果。具体来说，电子设备可以按照各个目标评论信息对应的特征向量与上述目标特征向量之间的相似度进行排序，将得到的排序结果作为目标评论信息所属的视频的排序结果。

例如，目标评论信息对应的特征向量与上述目标特征向量之间的相似度如下表所示：

序号	目标评论信息	所属视频	相似度
				1	目标评论信息A	视频a	90％
2	目标评论信息B	视频b	82％
				3	目标评论信息C	视频c	85％
4	目标评论信息D	视频d	95％
				5	目标评论信息E	视频e	88％

那么按照目标评论信息对应的特征向量与上述目标特征向量之间的相似度从高到低的顺序进行排序，可以得到95％、90％、88％、85％、82％。进而可以确定目标评论信息所属的视频的排序结果为：视频d、视频a、视频e、视频c、视频b。

在第二种实施方式中，可以从每条视频的维度出发，先计算每个视频对应的特征向量整体与目标特征向量之间的相似度，再基于相似度得到视频排序结果。具体来说，电子设备可以计算各个目标评论信息所属视频的多个评论信息所对应的特征向量与上述目标特征向量之间的相似度，进而采用每个视频对应的多个相似度的综合结果来进行排序，得到目标评论信息所属的视频的排序结果。其中，综合结果可以为每个视频对应的多个相似度的平均值、加权平均值、加和或采用其他自定义算法计算得到的结果，在此不做具体限定。

例如，目标评论信息1-目标评论信息3所属的视频分别为视频A-视频C。电子设备可以获取视频A-视频C的多个评论信息，进而计算每个评论信息所对应的特征向量与目标特征向量之间的相似度，并计算多个相似度的平均值。

举例来说，电子设备可以获取视频A的多个评论信息，分别为评论信息P1、评论信息P2以及目标评论信息1，然后可以分别计算评论信息P1、评论信息P2以及目标评论信息1对应的特征向量与目标特征向量之间的相似度，得到相似度1、相似度2以及相似度3，然后计算相似度1、相似度2以及相似度3的平均值。

同理的，可以计算得到视频B和视频C所对应的相似度的平均值，具体可以如下表所示：

进而，电子设备可以采用每个视频对应的多个相似度的平均值来进行排序，例如，可以按照平均值都从高到底的顺序进行排序，将得到目标评论信息所属的视频的排序结果：视频A、视频C、视频B。

在第三种实施方式中，由于一个视频可以具有多条评论信息，一个评论信息也可能属于多个视频，所以电子设备可以采用上述第一种实施方式确定备选视频，再通过第二种实施方式针对每个备选视频进行相似度的计算，从而基于相似度确定视频的排序结果。

序号	目标评论信息	所属视频	相似度
				1	目标评论信息A	视频a	90％
2	目标评论信息B	视频b	82％
				3	目标评论信息C	视频c	20％
4	目标评论信息D	视频a	95％
				5	目标评论信息E	视频b	88％

那么按照目标评论信息对应的特征向量与上述目标特征向量之间的相似度从高到低的顺序进行排序，可以得到95％、90％、88％、82％、20％。进而可以确定备选视频为：视频a和视频b。进而，针对视频a，对应的多个相似度的平均值为(95％+90％)/2＝92.5％，针对视频b，对应的多个相似度的平均值为(88％+82％)/2＝85％，那么可以得到视频排序结果：视频a、视频b。

另一种实施方式中，在上述三种方式的基础上，确定视频排序结果时还可以考虑视频类型、视频发布者、视频中包括的人物等因素。

视频类型可以包括短视频、电影、电视剧、综艺等，那么如果用户指定了搜索的视频的类型，可以结合相似度和视频类型进行排序，可以分别根据相似度和视频类型排序后，再结合二者得到最终的视频排序结果，例如，将视频中符合该类型的视频排列在排序结果的前面。也可以基于相似度和视频类型进行综合排序，这都是合理的。

如果用户指定了搜索的视频的视频发布者，可以结合相似度和视频发布者进行排序，可以分别根据相似度和视频发布者排序后，再结合二者得到最终的视频排序结果，例如，将视频中视频发布者的视频排列在排序结果的前面。也可以基于相似度和视频发布者进行综合排序，这都是合理的。

如果用户指定了搜索的视频中包括的人物，可以结合相似度和人物进行排序，可以分别根据相似度和视频发布者排序后，再结合二者得到最终的视频排序结果，例如，将视频中包括该人物的视频排列在排序结果的前面。也可以基于相似度和人物进行综合排序，这都是合理的。

作为本发明实施例的一种实施方式，如图4所示，上述对所述目标评论信息所属的视频进行排序，得到排序结果的步骤，可以包括：

S401，在所述目标评论信息所属的视频具有的评论信息的数量达到预设数量的情况下，从所有评论信息中选择所述预设数量个评论信息，作为备选评论信息；

目标评论信息所属的视频可能具有大量的评论信息，如果采用所有的评论信息进行计算可能会导致计算速度较慢，如果采用数量很少的评论信息进行计算可能会导致计算结果准确度不够高，所以为了确定参与计算的合适数量的评论信息，针对每个目标评论信息所属的视频，电子设备可以判断该视频具有的评论信息的数量是否达到预设数量。

其中，预设数量可以根据评论信息的实际情况以及处理结果准确度的要求等设定，例如，可以为10、20、35等，在此不做具体限定。

如果该视频具有的评论信息的数量达到预设数量，说明该视频的评论信息较多，那么电子设备便可以从所有评论信息中选择预设数量个评论信息，作为备选评论信息。具体选择方式可以为随机选择，也可以为按照一定规则选择，例如，按照发布时间、按照评论信息被点赞的数量或者按照评论信息被回复的数量等，这都是合理的，在此不做具体限定。

例如，目标评论信息T1所属的视频P1具有100个评论信息，预设数量为30，那么由于100大于30，所以电子设备可以从该100个评论信息中选择30个作为备选评论信息。具体可以选择被点赞的数量最高的30个作为备选评论信息。

S402，在所述目标评论信息所属的视频具有的评论信息的数量未达到所述预设数量的情况下，将所有评论信息确定为备选评论信息；

如果该视频具有的评论信息的数量未达到预设数量，说明该视频的评论信息较少，那么电子设备便可以将所有评论信息确定为备选评论信息。例如，目标评论信息T2所属的视频P2具有27个评论信息，预设数量为30，那么由于27小于30，所以电子设备可以从该27个评论信息全部作为备选评论信息。

S403，基于所述目标特征向量与所述备选评论信息对应的特征向量之间的相似度，对所述目标评论信息所属的视频进行排序，得到排序结果。

目标特征向量与备选评论信息对应的特征向量之间的相似度的高低可以表示备选评论信息与用户输入的搜索信息之间的相似度，也就可以表示备选评论信息所属的视频的具体内容与用户搜索需求之间的匹配程度，所以电子设备可以基于计算得到的相似度，对目标评论信息所属的视频进行排序，得到排序结果。

在一种实施方式中，电子设备可以按照相似度从高到低或者从低到高的顺序对目标评论信息所属的视频进行排序，得到排序结果。当然，还可以同时考虑其他因素的影响，例如，视频的热度、视频的发布时间、视频的发布用户等，在此不做具体。

可见，在本实施例中，电子设备可以在目标评论信息所属的视频具有的评论信息的数量达到预设数量的情况下，从所有评论信息中选择预设数量个评论信息，作为备选评论信息；在目标评论信息所属的视频具有的评论信息的数量未达到预设数量的情况下，将所有评论信息确定为备选评论信息，进而基于目标特征向量与备选评论信息对应的特征向量之间的相似度，对目标评论信息所属的视频进行排序，得到排序结果。这样，可以根据评论信息数量的不同，选择合适数量的评论信息参与计算，可以保证合适的计算量同时保证排序结果的准确度。

得到了上述排序结果后，电子设备可以执行上述步骤S104，即基于排序结果确定视频搜索结果。电子设备可以确定排序结果中靠前的N个视频作为视频搜索结果，呈现给用户观看。也可以将排序结果中靠前的N个视频中热度较高的视频作为视频搜索结果，呈现给用户观看，这都是合理的，在此不做具体限定。其中，N为正整数。

本发明实施例提出了一套结合内容理解和用户评论行为的信息搜索实现方案，电子设备基于搜索信息对应的特征向量和评论信息对应的特征向量可以确定出与搜索信息相似的目标评论信息，由于视频的评论信息相较于视频名称来说，所包含的信息更多且准确，可以全面准确地描述视频的真实内容，所以目标评论信息所属的视频的内容与搜索信息即为相近的，这样，得到的视频搜索结果即为能够与用户的搜索需要相匹配的视频，可以大大提高视频搜索结果的准确度，提升用户搜索体验。

作为本发明实施例的一种实施方式，如图2所示，在上述任一实施例所述的方法的基础上，上述方法还可以包括：

S201，利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理，得到各评论信息的特征向量；

电子设备可以获取视频平台中发布的多个候选视频的各个评论信息，这样，也就可以获取到大量的评论信息。为了能够获得准确的特征向量，可以预先训练完成内容理解模型，该内容理解模型即为用于对输入的文本内容进行处理，输出对应的特征向量的深度学习模型，对于其具体结构和类型等，在此不做具体限定。为了布局清晰和方案清楚，对于内容理解模型的训练方式，后续会进行举例介绍。

电子设备获取上述评论信息后，可以将每个评论信息输入预先训练完成的内容理解模型，内容理解模型便可以对输入的该评论信息进行处理，提取该评论信息的特征，进而确定该评论信息的特征向量并输出该特征向量。这样，电子设备也就可以获取到每个评论信息对应的特征向量。其中，每输入一个评论信息，内容理解模型便可以输出这一个评论信息对应的一个特征向量。

其中，内容理解模型的预设损失函数满足收敛条件时，用于使得内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度呈正相关关系。内容理解模型在训练完成后，即预设损失函数满足收敛条件时，内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度是呈正相关关系的，评论信息之间的相似度越高，各评论信息对应的特征向量之间的相似度也越高。

由于特征向量用于表示对应的评论信息的含义特点，如果内容理解模型输出的特征向量不准确，那么其表示的含义特点也就不准确，进而内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度就不可能呈正相关关系，所以，内容理解模型的预设损失函数满足收敛条件时，内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度呈正相关关系，此时，说明内容理解模型输出的特征向量是准确的，内容理解模型输出的特征向量可以准确标识对应的评论信息。

S202，对应记录所述特征向量及其对应的评论信息，得到特征向量与评论信息之间的对应关系。

确定了每个评论信息以及对应的特征向量后，电子设备便可以对应记录特征向量及其对应的评论信息，也就可以得到特征向量与评论信息之间的对应关系。例如，特征向量与评论信息之间的对应关系可以如下表所示，其中，n为正整数：

序号	特征向量	评论信息
			1	特征向量1	评论信息1
2	特征向量2	评论信息2
			3	特征向量3	评论信息3
…	…	…
			n	特征向量n	评论信息n

可见，在本实施例中，电子设备可以利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理，得到各评论信息对应的特征向量，进而对应记录特征向量及其对应的评论信息，得到特征向量与评论信息之间的对应关系。这样，电子设备可以建立准确的特征向量与评论信息之间的对应关系，以便后续确定准确的目标评论信息，保证视频搜索结果的准确度。

作为本发明实施例的一种实施方式，如图3所示，在图2所示实施例所述的方法的基础上，上述方法还可以包括：

S301，获取初始模型以及多个评论信息样本；

电子设备可以获取初始模型以及多个评论信息样本，其中，评论信息样本可以为视频平台中发布的多个视频的评论信息，电子设备可以获取这些评论信息，作为评论信息样本。评论信息样本即为初始模型的输入，初始模型的输出为基于当前模型参数预测的输入的评论信息样本对应的特征向量。

进而可以对评论信息样本进行标记，得到评论信息样本的标签。由于内容理解模型用于输出文本对应的特征向量，所以评论信息样本的标签可以为评论信息样本对应的特征向量，也可以为根据预设损失函数的具体形式确定的特征向量之间的差值等。其中，初始模型可以为单模型，也可以为多模型的混合模型，在此不做具体限定。例如，可以为transformer模型等。

在一种实施方式中，电子设备还可以获取评论信息样本对应的发布时间、视频等信息，以便后续使用，在此不做具体限定。

S302，基于所述多个评论信息样本以及所述预设损失函数对所述初始模型进行训练，直到所述预设损失函数的值达到收敛条件，得到所述内容理解模型。

获取了上述初始模型以及多个评论信息样本后，电子设备便可以利用该多个评论信息样本对初始模型进行训练，在训练过程中可以不断调整初始模型的模型参数，以使预设损失函数的值逐渐减小。

在训练过程中，初始模型可以不断学习到评论信息样本对特征向量之间的对应关系，直到预设损失函数的值达到预设值，即满足收敛条件，此时，初始模型已经收敛，便可以输出准确的特征向量了，那么便可以停止训练，得到上述内容理解模型。其中，对初始模型进行训练的方式具体可以采用梯度下降算法、随机梯度下降算法等，在此不做具体限定及说明。

上述预设损失函数满足收敛条件的状态可以包括但不限于下述至少一种：

第一种：预设损失函数表示所属同一视频的每个评论信息对应的特征向量与该视频的视频内容向量之间的相似度，针对所属同一视频的多个评论信息，该多个评论信息对应的特征向量与该视频的视频内容向量之间的相似度不小于第一预设阈值。也就是说，针对所属同一视频的多个评论信息，其中每个评论信息对应的特征向量与该视频的视频内容向量之间的相似度均不小于第一预设阈值。

由于评论信息是用户针对视频内容发布的自己的感受和评价，所以评论信息与视频内容是息息相关的，也就是说，二者对应的特征向量应该是比较接近的。例如，视频内容为小孩子在公园玩耍的相关内容，那么评论信息可能为“这个孩子真可爱”、“公园里的小孩子真多呀”、“孩子玩的真开心”等。所以在构建预设损失函数时，可以以在该预设损失函数满足收敛条件时，使得所属同一视频的多个评论信息对应的特征向量与该视频的视频内容向量之间的相似度不小于第一预设阈值为目标。

其中，视频内容向量为能够标识视频的具体内容的向量，其中，视频内容向量可以自定义设计，示例性的一种场景中，视频内容向量可以来自于针对视频的文字描述、视频中的字幕等文本进行处理(包括但不限于：特征提取、特征向量化处理等，在此不作限制)得到的向量，或者，视频内容向量也可以为用户自主设置的。可以根据视频ID(identification，唯一编码)初始化视频内容向量，然后将上述文本输入内容理解模型中，内容理解模型便可以输出对应的视频内容向量。

在一种实施方式中，可以构建预设损失函数，该损失函数用于表示评论信息对应的特征向量与该视频的视频内容向量之间差异，这样，在内容理解模型的训练过程中，损失函数的值逐渐减小，则说明内容理解模型输出的特征向量之间的相似度越高，内容理解模型输出的特征向量的准确度也就越来越高。

例如，假设视频1对应的视频内容为comment a1，视频1的评论信息为comment b1，那么内容理解模型针对输入的comment a1的文本，可以输出特征向量embdding a1，针对输入的comment b1的文本，可以输出特征向量embdding b1，可以构建预设损失函数loss＝sum((embdding b1-embdding a1)^2)。可见，loss的值越小，表明embdding a1与embddingb1之间的差值越小，那么embdding a1与embdding b1之间的相似度也就越高，可以达到模型训练的目标。

当loss的值小于某个值时，embdding a1与embdding b1之间的差值也就非常小了，可以使得embdding a1与embdding b1之间的相似度不小于第一预设阈值，此时内容理解模型输出的特征向量即为足够准确的了，内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度即呈正相关关系。

第二种：预设损失函数表示所属同一视频的多个评论信息，该多个评论信息对应的特征向量之间的相似度，针对所属同一视频的多个评论信息，该多个评论信息对应的特征向量之间的相似度不小于第二预设阈值。

由于评论信息是用户针对视频内容发布的自己的感受和评价，所以同一视频的多个评论信息之间应该是相关的，也就是说，评论信息对应的特征向量应该是比较接近的。例如，视频内容为遛狗的相关内容，那么评论信息可能为“这个小狗真可爱”、“这个狗是什么狗”、“小狗看上去很开心”等。所以在构建损失函数时，可以以在该预设损失函数满足收敛条件时，使得所属同一视频的多个评论信息对应的特征向量之间的相似度不小于第二预设阈值为目标。

在一种实施方式中，可以构建预设损失函数，该损失函数用于表示评论信息对应的特征向量之间的差异，这样，在内容理解模型的训练过程中，损失函数的值逐渐减小，则说明内容理解模型输出的特征向量之间的相似度越高，内容理解模型输出的特征向量的准确度也就越来越高。

例如，假设视频1对应的评论信息分别为comment a2和comment b2，那么内容理解模型针对输入的comment a2的文本，可以输出特征向量embdding a2，针对输入的commentb2的文本，可以输出特征向量embdding b2，可以构建预设损失函数loss＝sum((embddinga2-embdding b2)^2)。可见，loss的值越小，表明embdding a2与embdding b2之间的差值越小，那么embdding a2与embdding b2之间的相似度也就越高，可以达到上述模型训练的目标。

当loss的值小于某个值时，embdding a2与embdding b2之间的差值也就非常小了，可以使得embdding a2与embdding b2之间的相似度不小于第二预设阈值，此时内容理解模型输出的特征向量即为足够准确的了，内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度即呈正相关关系。

第三种：预设损失函数表示所属同一视频的目标评论信息对应的特征向量之间的相似度，针对所属同一视频的目标评论信息，目标评论信息对应的特征向量之间的相似度不小于第三预设阈值。

有一些视频包括的内容可能比较多，在不同时间段内容的重点可能不同，那么其评论信息可能在不同时间段内内容会出现不同的侧重点，所以为了提高内容理解模型输出的特征向量的准确度，可以按照评论时间或评论数量对视频的评论信息进行划分，从而得到多组评论信息，即为上述目标评论信息。

作为一种实施方式，可以按照评论时间对视频的评论信息进行划分，电子设备可以将预设时间段内发布的评论信息划分为一组，得到目标评论信息。例如，可以将每5分钟内发布的评论信息划分为一组。

作为另一种实施方式，可以按照评论数量对视频的评论信息进行划分，电子设备可以将一定数量个评论信息划分为一组，得到目标评论信息。例如，视频s共有30条评论信息，那么可以将第1-10个评论信息划分为一组；将第11-20个评论信息划分为一组；将第21-30个评论信息划分为一组。

又例如，也可以将第1-10个评论信息划分为一组；将第2-12个评论信息划分为一组；将第3-13个评论信息划分为一组，依此类推，最后将第21-30个评论信息划分为一组。这样可以得到更多组目标评论信息，便于进行内容理解模型的训练。

针对这种情况，电子设备可以构建预设损失函数，该损失函数用于表示每组目标评论信息对应的特征向量之间的差异，这样，在内容理解模型的训练过程中，损失函数的值逐渐减小，则说明内容理解模型输出的特征向量之间的相似度越高，内容理解模型输出的特征向量的准确度也就越来越高。

例如，假设目标评论信息a包括的评论信息分别为comment a3和comment b3，那么内容理解模型针对输入的comment a3的文本，可以输出特征向量embdding a3，针对输入的comment b3的文本，可以输出特征向量embdding b3，可以构建损失函数loss＝sum|embdding a3-embdding b3|。可见，loss的值越小，表明embdding a3与embdding b3之间的差值越小，那么embdding a3与embdding b3之间的相似度也就越高，可以达到上述模型训练的目标。

当loss的值小于某个值时，embdding a3与embdding b3之间的差值也就非常小了，可以使得embdding a3与embdding b3之间的相似度不小于第三预设阈值，此时内容理解模型输出的特征向量即为足够准确的了，内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度即呈正相关关系。

可见，在本实施例中，预设损失函数满足收敛条件时的状态满足上述任一一种状态，电子设备可以根据该状态构建预设损失函数，进而基于多个评论信息样本以及预设损失函数对初始模型进行训练，直到预设损失函数的值达到收敛条件，得到内容理解模型。这样，本实施例基于用户对视频的评论行为，构建训练数据，提出了一种理解评论内容的模型(内容理解模型)以及其构建方案，训练得到的内容理解模型可以对输入的文本进行准确的处理，进而输出准确的特征向量。

作为本发明实施例的一种实施方式，在上述利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理的步骤之前，上述方法还可以包括：

在候选视频的各评论信息中存在相同的评论信息的情况下，对所述各评论信息进行去重处理，得到处理后的评论信息。

由于候选视频可以为多个，每个候选视频又存在多个评论信息，所以在大量的候选视频的各评论信息中可能会存在相同的评论信息，例如，可能为一些网络热词、常用的短语、名言名句等。

相同的评论信息所对应的特征向量应该也是相同的，而利用内容理解模型的目的为得到特征向量，所以相同的评论信息对于利用内容理解模型来确定特征向量是没有意义的，反而会增加计算量而影响搜索效率，所以电子设备可以对各评论信息进行去重处理，得到处理后的评论信息。进而利用预先训练完成的内容理解模型，对处理后的各评论信息分别进行处理。

其中，去重处理即为针对相同的评论信息仅保留一个，以实现去除重复的评论信息的目的。例如，候选视频的各评论信息中包括20条“磕到了”，那么电子设备可以对各评论信息进行去重处理，得到处理后的评论信息中仅包括一条“磕到了”。

可见，在本实施例中，在利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理之前，电子设备可以在候选视频的各评论信息中存在相同的评论信息的情况下，对各评论信息进行去重处理，得到处理后的评论信息，可以减少计算量，提高搜索效率。

作为本发明实施例的一种实施方式，上述基于预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息的步骤，可以包括：

计算所述目标特征向量与候选特征向量之间的相似度；基于所述相似度以及所述对应关系，确定所述目标特征向量对应的评论信息。

其中，候选特征向量为预先建立的特征向量与评论信息之间的对应关系所包括的特征向量。

具体来说，作为一种实施方式，电子设备可以计算目标特征向量与候选特征向量之间的相似度，候选特征向量即为上述预先建立的特征向量与评论信息之间的对应关系中，所包括的特征向量。进而，选择对应的相似度较高的候选特征向量所对应的评论信息作为目标评论信息。例如，候选特征向量共有100个，电子设备可以分别计算目标特征向量与这100个候选特征向量之间的相似度，然后选择相似度最高的10个候选特征向量所对应的评论信息作为目标特征向量对应的评论信息等，在此不做具体限定。

作为另一种实施方式，由于特征向量与评论信息之间的对应关系所包括的候选特征向量的数量往往是非常多的，所以为了降低计算量提高效率，电子设备可以对该对应关系所包括的候选特征向量进行聚类，确定每个聚类中心对应的中心特征向量，针对每个中心特征向量，根据目标特征向量与每个中心特征向量之间的距离，确定目标特征向量所属的目标类别。进而计算目标特征向量与其所属目标类别所包括的每个候选特征向量之间的距离，将对应的距离不大于预设阈值的候选特征向量所对应的评论信息，确定为目标评论信息。这样，可以提高特征向量查找的效率，进而提高目标评论信息的确定效率。

可见，在本实施例中，电子设备可以计算目标特征向量与候选特征向量之间的相似度，进而基于相似度以及该对应关系，确定目标特征向量对应的评论信息。无论采用上述哪种实施方式，均可以确定准确的目标评论信息，保证后续确定的视频搜索结果的准确度。

作为本发明实施例的一种实施方式，上述确定所述搜索信息对应的特征向量，作为目标特征向量的步骤，可以包括：

将所述搜索信息输入预先训练完成的向量确定模型，得到所述向量确定模型输出的特征向量，作为目标特征向量。

向量确定模型可以为上述内容理解模型，也可以为另一个能够对输入的文本进行准确处理，进而输出文本对应的特征向量的模型，所以作为一种实施方式，电子设备可以将用户输入的搜索信息输入该预先训练完成的向量确定模型。

该向量确定模型便可以对搜索信息进行处理，提取其特征，确定搜索信息对应的特征向量，进而输出该特征向量。从而达到对搜索信息进行内容理解的目的。这样，电子设备也就可以获取到向量确定模型输出的特征向量，并将该特征向量作为搜索信息对应的目标特征向量。

可见，在本实施例中，电子设备可以将搜索信息输入预先训练完成的向量确定模型，得到向量确定模型输出的特征向量，作为目标特征向量。由于向量确定模型可以对输入的文本进行准确处理，所以这样电子设备可以获取到能够准确表示搜索信息的内容特点的目标特征向量，从而保证后续流程的准确性，进而确保最终确定的视频搜索结果的准确度。

作为本发明实施例的一种实施方式，上述基于所述目标特征向量与所述备选评论信息对应的特征向量之间的相似度，对所述目标评论信息所属的视频进行排序，得到排序结果的步骤，可以包括：

至少将所述目标评论信息及其对应的相似度输入预先训练完成的排序模型，获得所述排序模型输出的排序结果。

为了能够快速准确地对目标评论信息所属的视频进行排序，可以预先训练用于对目标评论信息所属的视频进行打分排序的排序模型，其中，该排序模型可以为卷积神经网络、循环神经网络、注意力机制模型等，在此不做具体限定。由于排序模型的具体结构以及训练过程均可以采用深度学习模型领域的相应方式实现，因此在此不做具体限定和说明。

电子设备可以将目标评论信息及其对应的相似度输入预先训练完成的排序模型，排序模型便可以基于目标评论信息及其对应的相似度确定该目标评论信息对应的分数或者排名并输出，电子设备也久可以获得排序模型输出的排序结果。

为了使排序结果所对应的因素更加全面，电子设备还可以视频的热度、视频的发布时间、视频的发布用户等信息一同输入排序模型，以使排序模型根据这些信息进行综合处理，确定目标评论信息对应的分数或者排名并输出。只要在排序模型的训练过程中采用对应的样本进行训练即可，在此不做具体说明。

可见，在本实施例中，电子设备可以至少将目标评论信息及其对应的相似度输入预先训练完成的排序模型，获得排序模型输出的排序结果。这样，可以快速准确地确定目标评论信息所属的视频对应的排序结果。

作为本发明实施例的一种实施方式，在上述任一实施例所述的方法的基础上，上述方法还可以包括：

记录每个评论信息与所属的视频之间的对应关系。

为了方便确定目标评论信息所属的视频，电子设备在获取到上述评论信息后，可以记录每个评论信息与所属的视频之间的对应关系。记录每个评论信息与所属的视频之间的对应关系的具体方式可以表格、数组等形式，在此不做具体限定。

例如，评论信息1所属视频为视频a，可以采用数组(评论信息1，视频a)记录二者的对应关系。获取评论信息时还可以获取评论信息相关的其他信息，例如，评论信息的发布者和发布时间等。电子设备可以将这些信息也记录到上述数组中，即得到数组(发布者，发布时间，评论信息1，视频a)。

相应的，上述对所述目标评论信息所属的视频进行排序，得到排序结果的步骤，可以包括：

基于所记录的评论信息与所属的视频之间的对应关系，确定所述目标评论信息所属的视频，作为目标视频；对所述目标视频进行排序，得到排序结果。

确定了目标评论信息后，电子设备便可以基于所记录的评论信息与所属的视频之间的对应关系，确定目标评论信息所属的视频，作为目标视频，进而，便可以对目标视频进行排序，得到排序结果。

在一种情况下，所记录的评论信息与所属的视频之间的对应关系中可能存在同一个评论信息对应视频的情况，例如，评论信息YYDS对应的视频既包括视频1又包括视频2，那么在这种情况下，电子设备可以确定视频1和视频2均为目标视频。

可见，在本实施例中，电子设备可以记录每个评论信息与所属的视频之间的对应关系，进而可以基于所记录的评论信息与所属的视频之间的对应关系，确定目标评论信息所属的视频，作为目标视频，对目标视频进行排序，得到排序结果。这样可以采用多种方式记录评论信息与所属的视频之间的对应关系，方便后续准确确定目标视频，保证视频搜索结果的准确性。

下面结合图5所示的本发明实施例所提供的视频搜索方法的示意图，对本发明实施例所提供的视频搜索方法进行举例介绍。

在离线过程中，电子设备可以收集平台中发布的视频510的评论信息，作为评论信息样本，图5中以评论1、评论2、评论3表示。然后可以对评论信息样本进行标记，得到评论信息样本的标签，这样也就得到了用于模型训练的训练数据520。进而电子设备可以利用训练数据520对初始模型进行训练，得到内容理解模型530，该内容理解模型530可以对文本进行处理，输出准确的特征向量。

电子设备可以将各个评论信息输入内容理解模型530，得到对应的特征向量540。由于训练过程中最后一次迭代时，内容理解模型530已经收敛，所以也可以将训练过程中最后一次迭代时确定的各个评论信息对应的特征向量作为最终的特征向量540，即图5中的embd 1、embd 2以及embd 3。

进而，电子设备可以基于各个评论信息对应的特征向量540建立向量索引550，也就是建立特征向量与评论信息之间的对应关系，以便在线过程中进行视频搜索时使用。

针对在线过程，用户在视频搜索界面中输入搜索信息后，电子设备便可以获取到该搜索信息560，即图5中的query。接下来，可以将query输入内容理解模型530，得到内容理解模型530输出的query对应的目标特征向量570，即图5中的Query embd。

确定了特征向量570后，电子设备便可以查找上述向量索引550，确定目标特征向量570对应的目标评论信息，进而对目标评论信息所属的视频进行排序，得到排序结果，并基于排序结果输出视频搜索结果580，即图5中的视频1、视频2以及视频3，从而完成视频搜索过程，提出了一种基于视频的多个评论内容进行索引构建、向量召回的方案，为用户提供满足搜索需求的准确度高的视频搜索结果。

需要说明的是，图5中的评论信息、特征向量以及视频搜索结果所包括的视频的数量均是作为一种示例，并不能构成对本发明实施例所提供的视频搜索方法中的评论信息、特征向量以及视频搜索结果所包括的视频的数量的限定。

相应于上述视频搜索方法，本发明实施例还提供了一种视频搜索装置。下面对对本发明实施例所提供的视频搜索装置进行介绍。

如图6所示，一种视频搜索装置，所述装置包括：

特征向量确定模块610，用于获取用户输入的搜索信息，并确定所述搜索信息对应的特征向量，作为目标特征向量；

评论信息确定模块620，用于基于关系建立模块预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息，作为目标评论信息；

视频排序模块630，用于对所述目标评论信息所属的视频进行排序，得到排序结果；

搜索结果确定模块640，用于基于所述排序结果，输出视频搜索结果。

作为本发明实施例的一种实施方式，如图7所示，上述关系建立模块可以包括：

特征向量确定单元701，用于利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理，得到各评论信息对应的特征向量；

对应关系建立单元702，用于对应记录所述特征向量及其对应的评论信息，得到特征向量与评论信息之间的对应关系。

其中，所述内容理解模型的预设损失函数满足收敛条件时，用于使得所述内容理解模型输出的特征向量之间的相似度，与各特征向量对应的评论信息之间相似度，呈正相关关系。

作为本发明实施例的一种实施方式，上述装置还可以包括：

样本获取模块，用于获取初始模型以及多个评论信息样本；

模型训练模块，用于基于所述多个评论信息样本以及所述预设损失函数对所述初始模型进行训练，直到所述预设损失函数的值达到收敛条件，得到所述内容理解模型。

作为本发明实施例的一种实施方式，上述预设损失函数满足收敛条件的状态包括以下至少一种：

针对所属同一视频的多个评论信息，该多个评论信息对应的特征向量与所述视频的视频内容向量之间的相似度不小于第一预设阈值；或，

针对所属同一视频的多个评论信息，该多个评论信息对应的特征向量之间的相似度不小于第二预设阈值；或，

针对所属同一视频的目标评论信息，所述目标评论信息对应的特征向量之间的相似度不小于第三预设阈值，其中，所述目标评论信息为按照评论时间或评论数量对所述视频的评论信息进行划分得到的多组评论信息。

作为本发明实施例的一种实施方式，上述装置还可以包括：

去重模块，用于在所述利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理之前，在候选视频的各评论信息中存在相同的评论信息的情况下，对所述各评论信息进行去重处理，得到处理后的评论信息。

作为本发明实施例的一种实施方式，上述评论信息确定模块620可以包括：

相似度计算单元，用于计算所述目标特征向量与候选特征向量之间的相似度；

其中，所述候选特征向量为预先建立的特征向量与评论信息之间的对应关系所包括的特征向量。

评论信息确定单元，用于基于所述相似度以及所述对应关系，确定所述目标特征向量对应的评论信息。

作为本发明实施例的一种实施方式，上述视频排序模块630可以包括：

第一备选信息确定单元，用于在所述目标评论信息所属的视频具有的评论信息的数量达到预设数量的情况下，从所有评论信息中选择所述预设数量个评论信息，作为备选评论信息；

第二备选信息确定单元，用于在所述目标评论信息所属的视频具有的评论信息的数量未达到所述预设数量的情况下，将所有评论信息确定为备选评论信息；

第一视频排序单元，用于基于所述目标特征向量与所述备选评论信息对应的特征向量之间的相似度，对所述目标评论信息所属的视频进行排序，得到排序结果。

作为本发明实施例的一种实施方式，上述评论信息可以包括以下至少一种：评论区域的信息、弹幕消息、其他评论性的信息。

作为本发明实施例的一种实施方式，上述装置还可以包括：

对应关系记录模块，用于记录每个评论信息与所属的视频之间的对应关系；

上述视频排序模块630可以包括：

目标视频确定单元，用于基于所记录的评论信息与所属的视频之间的对应关系，确定所述目标评论信息所属的视频，作为目标视频；

第二视频排序单元，用于对所述目标视频进行排序，得到排序结果。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述任一实施例所述的视频搜索方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的缓存装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读缓存介质，该计算机可读缓存介质中缓存有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频搜索方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频搜索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以缓存在计算机可读缓存介质中，或者从一个计算机可读缓存介质向另一个计算机可读缓存介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读缓存介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据缓存设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频搜索方法，其特征在于，所述方法包括：

对所述目标评论信息所属的视频进行排序，得到排序结果；

基于所述排序结果，输出视频搜索结果。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理，得到各评论信息对应的特征向量；

对应记录所述特征向量及其对应的评论信息，得到特征向量与评论信息之间的对应关系；

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

获取初始模型以及多个评论信息样本；

基于所述多个评论信息样本以及所述预设损失函数对所述初始模型进行训练，直到所述预设损失函数的值达到所述收敛条件，得到所述内容理解模型。

4.如权利要求2所述的方法，其特征在于，所述预设损失函数满足收敛条件的状态，包括以下至少一种：

5.如权利要求2所述的方法，其特征在于，在所述利用预先训练完成的内容理解模型，对候选视频的各评论信息分别进行处理的步骤之前，所述方法还包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于预先建立的特征向量与评论信息之间的对应关系，确定所述目标特征向量对应的评论信息的步骤，包括：

计算所述目标特征向量与候选特征向量之间的相似度，其中，所述候选特征向量为预先建立的特征向量与评论信息之间的对应关系所包括的特征向量；

基于所述相似度以及所述对应关系，确定所述目标特征向量对应的评论信息。

7.如权利要求1-5任一项所述的方法，其特征在于，所述对所述目标评论信息所属的视频进行排序，得到排序结果的步骤，包括：

在所述目标评论信息所属的视频具有的评论信息的数量达到预设数量的情况下，从所有评论信息中选择所述预设数量个评论信息，作为备选评论信息；

在所述目标评论信息所属的视频具有的评论信息的数量未达到所述预设数量的情况下，将所有评论信息确定为备选评论信息；

基于所述目标特征向量与所述备选评论信息对应的特征向量之间的相似度，对所述目标评论信息所属的视频进行排序，得到排序结果。

8.如权利要求1-5任一项所述的方法，其特征在于，所述评论信息包括以下至少一种：评论区域的信息、弹幕消息、其他评论性的信息。

9.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

记录每个评论信息与所属的视频之间的对应关系；

所述对所述目标评论信息所属的视频进行排序，得到排序结果的步骤，包括：

基于所记录的评论信息与所属的视频之间的对应关系，确定所述目标评论信息所属的视频，作为目标视频；

对所述目标视频进行排序，得到排序结果。

10.一种视频搜索装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

12.一种计算机可读缓存介质，其特征在于，所述计算机可读缓存介质内缓存有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。