CN115017361A

CN115017361A - 一种视频搜索方法、装置、电子设备及存储介质

Info

Publication number: CN115017361A
Application number: CN202210580645.1A
Authority: CN
Inventors: 宋祺鹏
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-06
Anticipated expiration: 2042-05-25
Also published as: CN115017361B

Abstract

本发明实施例提供了一种视频搜索方法、装置、电子设备及存储介质。包括：获得目标查询词；基于每个视频预设分配权重，将目标查询词与各视频进行匹配，得到各候选视频；其中，指定类型视频分配权重高于非指定类型视频分配权重；按文字顺序将目标查询词分为头部以及尾部，计算候选视频与尾部相似性，对候选视频排序，得到视频搜索结果输出给用户。应用本发明实施例，通过为指定类型的视频设置较高分配权重，使得指定类型视频更容易被搜索到，避免一些视频不能被搜索到，提高视频搜索准确性以及全面性。通过基于候选视频与目标搜索词尾部部分相似性对各候选视频进行排序，在保证排序准确性的同时，提高排序效率。

Description

一种视频搜索方法、装置、电子设备及存储介质

技术领域

本发明涉及视频搜索技术领域，特别是涉及一种视频搜索方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展和网络带宽的提升，网络视频数据量高速增长，因此，视频检索技术在当下有极为广泛的应用。用户在观看视频时，可以通过在搜索框键入一定的内容来得到相关视频的链接。而视频检索就是通过对大量的非结构化的视频数据进行结构化分析，来提取视频内容的特征，并将符合用户搜索的内容的特征对应的视频呈现给用户，以供用户点击观看。

目前，在视频搜索中，通过具有大量视频资源的召回系统，经过粗排和精排，加上搜索引擎的过滤、去重、Packer打包等操作，以及语义、点击等相关性匹配，在用户查询的时效、查询场景的交互表现都有了重大突破，且已经取得了较好的效果。

然而，在实际应用中，依旧会出现有些原创视频或经典视频不能被搜索到的情况，也就是说视频搜索的准确性仍有待进一步提高。

发明内容

本发明实施例的目的在于提供一种视频搜索方法、装置、电子设备及存储介质，以提高视频搜索的准确性。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种视频搜索方法，应用于视频搜索系统，所述方法包括：

获得当前用户确定的待搜索目标查询词；

基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；

按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；

基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；

将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。

在本发明的一种实施例中，所述指定类型的视频为原创视频和/或预先确定的经典视频。

在本发明的一种实施例中，在所述获得当前用户确定的待搜索目标查询词之前，还包括：

显示推荐视频的标识信息；

所述推荐视频的标识信息，通过如下步骤获得：

基于当前用户的用户信息，确定当前用户所属的至少一个用户桶；其中，每个用户桶中包含观看了同一视频桶中视频的用户；每个视频桶对应一个类型的视频；

基于预设算法，从所述当前用户所属的至少一个用户桶对应的视频桶中，选择推荐视频，得到推荐视频的标识信息。

在本发明的一种实施例中，所述用户桶和视频桶，通过以下方式生成：

将各个视频按照视频类型划分至不同的视频桶中；

基于已知的各用户信息，将各用户划分至不同的用户桶中；

针对所述各用户桶，基于所述用户桶中各用户的新用户权值系数，设置所述用户桶的权值系数；其中，所述各用户的新用户权值系数基于所述已知的各用户信息得到；

将所述不同视频桶中的视频以及热门视频推送给所述视频桶对应的用户桶中的用户；其中，所述热门视频为第二预设数量个所述热度最高的视频；所述热度基于视频的搜索次数、浏览次数以及点击次数确定；

分别基于各用户桶的权值系数，计算所述各用户桶中的用户对于所述热门视频以及相应视频桶中的视频的行为数据的熵值差；

基于所述行为数据的熵值差，为所述不同视频桶中的视频设置分配系数；

所述基于预设算法，从当前用户所属的至少一个用户桶对应的视频桶中，选择推荐视频，得到推荐视频的标识信息的步骤，包括：

获得当前用户所属的各个目标用户桶的权值系数；

基于所述目标用户桶对应的视频桶中的视频的分配系数，按照预设推荐视频数量，将所述分配系数最高的视频以及所述热门视频作为推荐视频，得到所述推荐视频的标识信息。

在本发明的一种实施例中，每个用户桶的加权系数通过如下方式定时更新：

针对所述每个用户桶，基于所述用户桶中的用户数量占视频搜索系统当天的用户总数量的比例，按照预设时间定时更新所述用户桶的权值系数。

在本发明的一种实施例中，在所述基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频之前，还包括：

对所述目标查询词的语义正确性进行判断；

若所述目标查询词的语义正确，则执行所述基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤；

若所述目标查询词的语义不正确，则按照预设纠错规则对所述目标查询词中的错误进行纠错，得到纠错后的查询词；

若所述纠错后的查询词的置信率小于预设阈值，则将所述纠错后的查询词作为目标查询词，返回所述基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤；

若所述纠错后的查询词的置信率大于所述预设阈值，则将所述纠错后的查询词显示给用户，使得用户对所述纠错后的查询词进行确认；

若用户选择所述纠错后的查询词，则将所述纠错后的查询词作为所述目标查询词，返回所述基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤。

在本发明的一种实施例中，所述对所述目标查询词的语义正确性进行判断的步骤，包括：

将所述目标查询词进行分词，得到至少一个词语；

在预设纠错词库中查找所述词语；所述预设纠错词库中存储错误词语与相应正确词语的对应关系；

若在所述预设纠错词库中查找到所述词语，则判定所述词语为错误词语，所述目标查询词的语义不正确；

若未在所述预设纠错词库中查找到所述词语，则按照预设条件对所述词语进行处理，并采用预设检测模型检测处理后的目标查询词是否正确；其中，所述预设条件包括近似字型替换、同字音替换、输入码相近字替换。

在本发明的一种实施例中，所述按照预设纠错规则对所述目标查询词中的错误进行纠错，得到纠错后的查询词的步骤，包括：

用所述词语在预设纠错词库中对应的正确词语替换所述词语，得到纠错后的查询词；

和/或按照所述预设条件对所述词语进行处理后，得到纠错后的查询词。

在本发明的一种实施例中，所述基于每个视频预设的分配权重，将所述查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤，包括：

获取不同质量等级的视频内容的点击数据；所述质量等级为根据视频的属性划分的；所述视频属性包括视频编码方式、视频分辨率、视频的FPS(Frames Per Second，每秒传输帧数)；

根据所述视频内容的点击数据，重新设置不同质量等级的优先级；

提取各个视频的内容特征信息，基于各个视频的内容特征信息、质量等级优先级以及所述视频的预设分配系数，计算各个视频与所述目标查询词的相似度；

基于所述各个视频与所述目标查询词的相似度以及所述各个视频的质量等级优先级，确定多个候选视频。

在本发明实施的第二方面，还提供了一种视频搜索装置，应用于视频搜索系统，所述装置包括：

目标查询词获取模块，用于获得当前用户确定的待搜索目标查询词；

候选视频获取模块，用于基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；

相似性计算模块，用于按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；

排序模块，用于基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；

搜索结果输出模块，用于将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频搜索方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频搜索方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频搜索方法。

本发明实施例提供的视频搜索方法，获得当前用户确定的待搜索目标查询词；基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。应用本发明实施例，通过为指定类型的视频设置较高分配权重，使得指定类型视频更容易被搜索到，避免一些视频不能被搜索到，提高视频搜索准确性以及全面性。此外，由于通常情况下，搜索词的重点内容出现在尾部的概率较高，因此通过计算候选视频与目标搜索词尾部部分相似性，并基于该相似性对各候选视频进行排序，在保证排序准确性的同时，提高排序效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的视频搜索方法的一种流程示意图；

图2为本发明实施例中确定推荐视频的一种流程示意图；

图3为本发明实施例中生成用户桶以及视频桶的一种流程示意图；

图4为本发明实施例提供的视频搜索方法的第二种流程示意图；

图5为本发明实施例提供的视频搜索方法的第三种流程示意图；

图6为本发明实施例中确定目标查询词语义是否正确的一种流程示意图；

图7为本发明实施例提供的视频搜索装置的一种结构示意图；

图8为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了提高视频搜索的准确性，本发明实施例提供了一种视频搜索方法、装置、电子设备以及存储介质。

下面首先对本发明实施例提供的视频搜索方法进行示例性说明。

本发明实施例提供的视频搜索方法可以应用于视频搜索系统。该视频搜索系统可以包括搜索引擎、视频库等等。

如图1所示，图1为本发明实施例提供的视频搜索方法的一种流程示意图，该方法可以包括：

步骤S110，获得当前用户确定的待搜索目标查询词；

步骤S120，基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；

其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；

步骤S130，按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；

步骤S140，基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；

步骤S150，将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。

下面对上述步骤S110-S150进行示例性说明：

本发明实施例中，上述待搜索的目标查询词为用户输入，可以是一个句子，也可以是一个或多个词语等等，本发明对此不做具体限定。

上述各视频的分配权重可以人为基于各视频的曝光量、类型、视频来源等等预先设置。目前，对于原创视频、年代较为久远的视频或刚刚上传至视频平台的视频等等，由于观看人数较少，很难较为准确地确定这些视频的特征，这也导致了这些特征较弱的视频较难被搜索到。因此，作为一种具体实施方式，可以为这些特征较弱的视频设置较高的分配系数，使得这些视频可以更为容易地被搜索到，使得搜索结果更加丰富，提高用户的搜索体验，同时，可以根据用户对于这些视频的行为数据，更好地确定这些视频的特征。上述特征较弱的视频可以包括原创视频或预先确定的经典视频等等。上述预先确定的经典视频可以是年代较为久远的视频、观看人数较少的视频等等。在下文会具体对视频的分配权重进行示例性说明，此处仅作简单说明，暂不赘述。

在进行视频召回时，可以通过计算目标查询词与各视频的视频信息的语义相似度，来确定各视频与目标查询词的相似度。上述各视频的视频信息可以是人为预设的Doc文档。该文档中可以包括视频的标识、时长、类型、演员名称等等。上述视频的标识可以包括视频ID以及视频名称等等。一个视频可以对应多种类型。例如，对于某视频来说，其类型可以包括剧情、惊悚、动画等等。

作为一种具体实施方式，在计算目标查询词与各视频的视频信息相似度时，可以通过隐式模型或翻译模型等进行计算。隐式模型即将目标查询词Query、视频信息Doc映射到同一级别分类下的隐式向量空间，通过向量相似度来计算Query-Doc相关性。翻译模型则是通过统计机器翻译方法将Doc进行改写后与Query进行匹配。计算各视频与目标查询词的相似度时，各相似度的加权系数即相应视频的分配系数。

在本发明的一种实施例中，可以预设相似度阈值，并将与目标查询词相似度高于上述相似度阈值的视频作为候选视频。也可以预设候选视频数量，并按照与目标查询词相似度由高到低的顺序对各视频进行排序，并选择排名靠前的预设候选视频数量个视频作为候选视频。

在确定候选视频后，即可进行视频排序。本发明实施例中，在视频排序时，可以采用知识蒸馏的方式，知识蒸馏是通过迁移知识，从而通过训练好的大模型得到更加适合推理的小模型。本发明实施例中，可以对上述目标查询词进行切分，将视频切分为头部部分以及尾部部分。通常，在实际的视频搜索场景中，用户输入的目标查询词中，重点内容在目标查询词尾部部分的概率较高。因此，在视频排序时，可以通过将头部部分缓存，并计算候选视频的视频信息与目标查询词尾部部分的相似性，来对候选视频进行排序。

本发明实施例中，在进行视频排序时，可以使用LambdaDNN、TransformerDNN、MultiTaskDNN等深度学习模型来进行视频排序。使用上述模型对目标搜索词进行切分时，还可以过滤去除掉无意义的单词。例如，对于目标查询词“姐妹们的茶话会”，可以将其切分为“姐妹们”以及“茶话会”，对于单词“的”，则可将其过滤。之后可以将头部部分“姐妹们”缓存，仅计算尾部部分“茶话会”与各候选视频的相似性，来对候选视频进行排序。

作为一种具体实施方式，可以预设目标查询词的切分字数阈值。例如，对于字数在5个字以下的目标查询词，可以不进行切分，而是直接基于候选视频与目标查询词的相似度，来对候选视频进行排序。本发明对此不做具体限定。

对候选视频进行排序后，则可将排序后的结果显示给上述当前用户。在显示搜索结果时，可以预设搜索结果数量，如可以是150、200等等，并将与目标搜索词尾部部分相似度最高的前150或200个候选视频作为搜索结果，显示给用户。这样，可以避免向用户呈现冗余的视频搜索结果，节省算力。在实际应用中，在1-2万QPS(Queries-per-second，每秒查询率)下，TP99(满足99％的网络请求所需要的最低耗时)可以升高5ms。

在本公开的一种实施例中，在所述获得当前用户确定的待搜索目标查询词之前，还可以包括：

显示推荐视频的标识信息。

如图2所示，所述推荐视频的标识信息，可以通过如下步骤获得：

步骤S210，基于当前用户的用户信息，确定当前用户所属的至少一个用户桶；

其中，每个用户桶中包含观看了同一视频桶中视频的用户；每个视频桶对应一个类型的视频。

步骤S220，基于预设算法，从所述当前用户所属的至少一个用户桶对应的视频桶中，选择推荐视频，得到推荐视频的标识信息。

在本发明的一种实施例中，如图3所示，上述视频桶以及用户桶可以采用以下方式生成：

步骤S310，将各个视频按照视频类型划分至不同的视频桶中；

步骤S320，基于已知的各用户信息，将各用户划分至不同的用户桶中；

步骤S330，针对所述各用户桶，基于所述用户桶中各用户的新用户权值系数，设置所述用户桶的权值系数；其中，所述各用户的新用户权值系数基于所述已知的各用户信息得到；

步骤S340，将所述不同视频桶中的视频以及热门视频推送给所述视频桶对应的用户桶中的用户；其中，所述热门视频为第二预设数量个所述热度最高的视频；所述热度基于视频的搜索次数、浏览次数以及点击次数确定；

步骤S350，分别基于各用户桶的权值系数，计算所述各用户桶中的用户对于所述热门视频以及相应视频桶中的视频的行为数据的熵值差；

步骤S360，基于所述行为数据的熵值差，为所述不同视频桶中的视频设置分配系数。

下面对上述步骤S310-S360进行示例性说明：

如上所述，各个视频均存在对应的视频信息，上述视频信息中包含各视频的视频类型。各视频的视频类型为人为预设，可以包括恐怖、爱情、搞笑、战争、科幻等等。每种视频类型对应一个视频桶。作为本发明实施例的一种具体实施方式，可以通过基于熵值差空间的多粒度计算的K-means算法对视频做聚类，把初始聚类中熵值差按照各自占比分为不同的粒度空间，通过观察不同熵空间下类簇的结构信息，为K-means提供初始中心类，并对结构信息的不完整边缘进行擦除，完整边缘进行优化修补，以此来消除初始中心的不确定性对K-means的影响。从而较为准确地得到不同类型的视频簇，并将各视频簇中的视频分配至相应类型的视频桶中。

作为一种具体实施方式，对于各视频，可以将各视频先随机划分至各视频桶，每个视频桶与一视频类型相对应。对于一个聚类Pi，假设某个视频桶中包含的视频个数是m，所有视频桶的个数是N。因为熵值代表视频有序程度的度量水平，如果在一个视频桶中，变异程度越大，视频桶中的视频类型越是有序，那么该属性的信息熵值就会越小，反之，视频桶的熵值越大，提供的视频信息量就越小，权重值也就越小。

针对任一视频桶的属性熵值的聚类计算公式是：

P＝-pΣ(i＝1,2,…,m)H_iK_iL_i

其中：p是i维属性的差异性系数，H_i是在i处的熵值，K_i是聚类成员中属于N桶的视频的概率，L_i是计算第i维属性的时候，对应第i个对象的属性比重值，该值可以人为预设。上述各维属性可以包括视频编码方式、分辨率、视频所有权、视频与其他视频之间的交互情况以及视频语言等等。

各视频桶可以定时更新，如可以是每天0时或12时更新。当然，也可以当有新的视频上传时，更新相应的视频桶。本发明对此不做具体限定。

上述用户桶与视频桶相对应，每个用户桶都是观看用户桶对应的视频桶中的视频的用户集合。例如，A桶是都市生活类型视频的用户集合，B桶是母婴类型视频的用户集合，C桶是武打类型视频的用户集合等等。

通常，在视频推荐领域，存在对用户信息知之甚少，不能很好地基于用户的历史行为数据来推荐视频。这种没有掌握用户的足够信息的情况下为用户推荐视频，即用户冷启动。为了带给用户更好的搜索体验，提高用户的留存率和推荐系数，对于特征较弱的新用户分配冷启动空间就显得十分必要了。

本发明实施例中，对于还未产生任何视频观看、点击以及收藏等行为的新用户，可以基于其注册账号时填写的信息将其划分至相应用户桶。具体的，可以通过机器学习的方式，基于用户注册账号时填写的信息，计算新用户的新用户权值系数。该新用户权值系数有多个，为新用户喜欢各视频类型的概率。本实施例中，还可以预设新用户权值系数阈值，并可以将上述用户的新用户权值系数中，超过上述新用户权值系数阈值的新用户权值系数对应的视频类型，确定为该用户喜欢的视频类型，并将该用户划分至相应的用户桶中。

例如，用户A在注册时填写的信息为男，北京人。通过机器学习的方式，计算出其喜欢大都市生活类视频的概率为0.7，喜欢母婴类型视频的概率为0.3，喜欢玄幻类型视频的概率为0.6，预设的新用户权值系数阈值为0.5，那么该用户A就会被划分至大都市生活类视频对应的用户桶，以及玄幻类型视频对应的用户桶。

对于已产生观看行为的用户，则可按照其历史行为数据为其划分用户桶。例如，可以通过机器学习的方式，基于用户的历史数据确定用户喜欢各类型视频的概率，进而为用户划分用户桶。

本发明实施例中，每次为新用户划分完用户桶后，可以基于新用户对于该用户桶的新用户权值系数，设置该用户桶的权值系数。基于上述举例，上述用户A对玄幻类型视频对应的用户桶的新用户权值系数为0.6，那么就可以基于该新用户权值系数以及该桶中之前已有的用户的新用户权值系数，设置该用户桶当前的权值系数。

当然，每个用户桶的加权系数还可以通过如下方式定时更新：

本发明实施例中，各用户桶的系数即计算用户桶中的用户与相应视频桶中的视频相似度的加权系数。可以理解为用户桶中的用户对于相应视频桶中的视频桶的优先级。

本发明实施例中，也可以基于AB测试，为各视频桶中的视频设置分配系数。作为一种具体实施方式，可以是将各视频桶中的视频以及预设的热门视频推荐给视频桶对应的用户桶中的用户。例如，可以将玄幻视频桶中的视频以及热门视频推荐给玄幻视频对应的用户桶中的用户。之后基于各用户桶的权值系数，计算各用户桶中的用户对相应视频桶中的各视频以及热门视频的行为熵值差，并基于该行为熵值差设置各视频的分配系数。上述行为可以包括观看、点击、收藏、点赞以及评分等等。

作为一种具体实施方式，若用户桶有ki个，可以在每个用户桶中随机选择一个用户，再利用选择的ki个用户作为聚类种子中心进行初始聚类，计算各类别的价值函数并将其从小到大进行排序，最后选择中心类对应的数据值作为熵值差。当然，也可以将用户集均分为ki个子集，在每个子集里随机选择一个数据对象，再利用选择的ki个数据对象作为聚类种子中心进行初始聚类，计算各类别的价值函数并将其从小到大进行排序，最后选择中心类对应的数据值作为熵值差。

上述价值函数的计算公式如下：

W＝dm(xi)/Ti，

其中，dm(xi)是第i个数据对象与中心种子的欧氏距离，Ti是第i个桶所含的数据对象的个数。

之后可以通过以下步骤基于熵值差设置各视频分配系数：

(1)扫描所有数据对象，根据其与种子聚类中心的相似度，把其归入最相似的聚类。

(2)计算每个类的质心，并按照价值函数从大到小进行排序。

(3)在各个用户桶中，通过标准差来衡量聚类的客观性，如果标准差存在非数值型数据，则重新进行聚类操作。

(4)将视频的热度进行排序，把计算出来的价值函数按照从大到小分配到各个热门视频的降序排序组合中，作为视频的分配系数。

上述视频的热度可以基于视频的曝光量确定。例如，可以通过视频24小时内被点击、观看以及评论的次数，加权计算得到。

(5)每天动态更新这个分配系数。

当然，本发明实施例中，还可以在此基础上调高上述特征较弱的视频的分配系数。以使特征较弱的视频更容易被推荐。

相应的，上述步骤S220，基于预设算法，从所述当前用户所属的至少一个用户桶对应的视频桶中，选择推荐视频，得到推荐视频的标识信息的步骤，可以包括：

获得当前用户所属的各个目标用户桶的权值系数；

本发明实施例中，还可以预设热门视频与相应视频桶中的视频的比例。例如，可以是2:8，3:7等等。以2:8为例，若预设推荐视频数量为10，那么就可以推荐2个热门视频以及8个用户桶对应的视频桶中的视频。

如上所述，一个用户可能被划分至多个用户桶中。作为一种具体实施方式，对于该用户，可以平均从其所述的各个用户桶对应的视频桶中选择分配系数最高的视频，直至与热门视频数量满足上述预设推荐视频数量以及比例。

在本公开的一种实施例中，基于图1，如图4所示，上述步骤S120，基于每个视频预设的分配权重，将所述查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤，可以包括：

步骤S121，获取不同质量等级的视频内容的点击数据。

所述质量等级为根据视频的属性划分的；所述视频属性包括视频编码方式、视频分辨率、视频的FPS(Frames Per Second，每秒传输帧数)。

当然，视频的属性还可以包括视频所有权、视频与其他视频之间的交互情况以及视频语言等等。本发明实施例中对此不做具体限定。

上述视频内容的点击数据可以包括视频被点击、观看、收藏等数据。

步骤S122，根据所述视频内容的点击数据，重新设置不同质量等级的优先级。

本发明实施例中，可以动态调整各视频质量等级的优先级。例如，针对视频分辨率，若720P的视频的点击数据较高，1080P的视频的点击数据较低，那么就可以设置720P的优先级较高，1080P的优先级较低。

如上所述，视频属性包括多个方面。作为一种具体实施方式，可以为各属性设置不同权重，并基于各视频属性综合确定视频的质量等级的优先级。例如，若视频属性包括视频编码方式以及视频分辨率。则可设置视频编码方式的权重为0.4，视频分辨率的权重为0.6。并可具体设置H.264编码方式值为c1，MPEG编码方式值为c2，其中优先级高的视频编码方式对应的值较大。480P值为c3，720P的值为c4，1080P的值为c5，其中，优先级高的视频分辨率对应的值较大。若某视频编码方式为H.264，分辨率为480P，那么该视频的质量等级就是0.4*c1+0.6*c3。

本发明实施例中，可以针对各种视频组合方式，计算对应的质量等级，并对各质量等级进行排序，质量等级高的优先级高。

步骤S123，提取各个视频的内容特征信息，基于各个视频的内容特征信息、质量等级优先级以及所述视频的预设分配系数，计算各个视频与所述目标查询词的相似度。

步骤S124，基于所述各个视频与所述目标查询词的相似度，确定多个候选视频。

上述内容特征信息可以基于视频的视频信息得到。上述内容特征信息可以包括视频的类型、时长等等。之后可以通过内容特征信息与目标查询词的语义相似度，来计算视频与目标查询词的相似度。该过程已在步骤S120部分实施例进行示例性说明，此处不再赘述。

如上所述，各视频的分配系数可以基于AB测试得到，同时可将指定类型的视频分配系数调高。本发明实施例中，还可以再基于各视频的质量等级优先级对视频的分配系数进行调整。并将调整后的分配系数作为相应的相似度加权系数。

用户在搜索过程中，可能由于先验知识掌握不够或输入过程引入噪音，从而导致输入的搜索查询词会存在一定的错误。因此，本发明实施例中，可以对用户输入的目标查询词进行纠错。纠错任务主要包含错误检测和错误纠正两个子任务，其中错误检测用于识别错误词语的位置，错误纠正是在检测出query存在错误的基础上对错误部分进行纠正的过程。

在本公开的一种实施例中，基于图1，如图5所示，在所述步骤S120，基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频之前，还可以包括：

步骤S520，对所述目标查询词的语义正确性进行判断；若所述目标查询词的语义正确，则执行步骤S120；若所述目标查询词的语义不正确，则执行步骤S530；

步骤S530，按照预设纠错规则对所述目标查询词中的错误进行纠错，得到纠错后的查询词；

步骤S540，判断纠错后的查询词的置信率是否小于预设阈值；若小于，则将所述纠错后的查询词作为目标查询词，返回步骤S120；若不小于，则执行步骤S550；

步骤S550，将所述纠错后的查询词显示给用户，使得用户对所述纠错后的查询词进行确认；

步骤S560，若用户选择所述纠错后的查询词，则将所述纠错后的查询词作为所述目标查询词，返回步骤S120。

下面对上述步骤S520-S560进行示例性说明：

作为一种具体实施方式，如图6所示，可以通过以下步骤判断目标查询词语义是否正确：

步骤S521，将所述目标查询词进行分词，得到至少一个词语；

步骤S522，在预设纠错词库中查找所述词语；

所述预设纠错词库中存储错误词语与相应正确词语的对应关系。

本发明实施例中，上述纠错词库可以是自定义词表或挖掘积累的常见纠错对。

步骤S523，若在所述预设纠错词库中查找到所述词语，则判定所述词语为错误词语，所述目标查询词的语义不正确；

步骤S524，若未在所述预设纠错词库中查找到所述词语，则按照预设条件对所述词语进行处理，并采用预设检测模型检测处理后的目标查询词是否正确；其中，所述预设条件包括近似字型替换、同字音替换、输入码相近字替换。

即本发明实施例中，可以通过对输入目标查询词进行切分后检查各个词语是否在维护的自定义词表或挖掘积累的常见纠错对中。作为一种具体实施方式，可以将上述纠错词库中，出现频率较高的错误词语与相应正确词语的对应关系在线存储，以提高错误检测效率。如可以将qv(query view，搜索次数)在前20％的纠错对在线存储。

若在上述纠错词库中未查找到上述目标查询词的切分词语，则根据可以字型、字音或输入码相近字进行替换构造候选并结合ngram语言模型输出的语义正确概率来判断其是否存在错误。

本发明实施例中，若用户输入的目标查询词存在错误，则可以用所述词语在预设纠错词库中对应的正确词语替换所述词语，得到纠错后的查询词；

对于置信率小于初始阈值的纠错后查询词，可以透传给引擎侧召回并做二次检索，对于置信率大于初始阈值的纠错后查询词，可以给到用户搜索词确认提示。

若用户未选择上述纠错后的查询词，则可以按照用户之前输入的目标查询词进行视频召回。此时用户的反馈行为也可以用于进一步优化query纠错，针对用户想要表达和交互的切入点做深度学习预估后，能更加准确的表达和展示用户想要搜索的内容，同时也可以提升搜索效率，给用户带来更好的使用体验。

在本发明的一种实施例中，在视频召回时可以对目标查询词query进行切分，即进行query切词。在搜索中的query切词一般会做粒度控制，分为细粒度和phrase(段落)粗粒度两个级别。例如，query“姐妹们的茶话会”按phrase粗粒度切分可以为“姐妹们的茶话会”，按细粒度切分为“姐妹”、“们”、“的”、“茶话”、“会”。在进行召回时可以优先用phrase粗粒度的切词结果进行召回能得到更精准相关的结果同时减少多个词语拉链合并的计算量。当phrase粗粒度分词进行召回结果不够时，可以采用拆分后的细粒度分词进行二次重查扩召回。

可见，本发明实施例中，对于特征较弱的视频动态分配冷启动空间；基于熵值差空间的多粒度计算的K-means算法对文本做聚类，提高识别以及冷启动推荐的准确性；通过向量相似度来计算Query-Doc相关性，相似度的加权系数按照视频质量等级级进行动态调整分配，统计机器翻译方法将视频信息Doc进行改写后与Query进行匹配；采取知识蒸馏的方式，将头部Query进行缓存只对尾部Query进行在线打分，线上预估结合本地+缓存两种方式同时进行，即节约了GPU资源又提升了线上预估速度；通过多路召回纠错，把离线挖掘好query纠错pair后按搜索频率优先对前20％的query进行预判准入，并引入置信率的概念，针对用户想要表达和交互的切入点做深度学习。使搜索过程更加流畅，搜索结果更加准确，提升搜索质量以及用户的使用感受。

本发明实施例还提供了一种视频搜索装置，应用于视频搜索系统，如图7所示，所述装置可以包括：

目标查询词获取模块710,，用于获得当前用户确定的待搜索目标查询词；

候选视频获取模块720，用于基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；

相似性计算模块730，用于按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；

排序模块740，用于基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；

搜索结果输出模块750，用于将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。

本发明实施例提供的视频搜索装置，获得当前用户确定的待搜索目标查询词；基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频；其中，为指定类型的视频预设的分配权重高于非指定类型的视频预设的分配权重；按照文字顺序，将所述目标查询词分为头部部分以及尾部部分，对所述头部部分进行缓存，计算所述多个候选视频与所述尾部部分的相似性；基于所述多个候选视频与所述目标查询词的尾部部分的相似性，对所述多个候选视频进行排序；将排序最前的第一预设数量个候选视频作为视频搜索结果输出给当前用户。应用本发明实施例，通过为指定类型的视频设置较高分配权重，使得指定类型视频更容易被搜索到，避免一些视频不能被搜索到，提高视频搜索准确性以及全面性。此外，由于通常情况下，搜索词的重点内容出现在尾部的概率较高，因此通过计算候选视频与目标搜索词尾部部分相似性，并基于该相似性对各候选视频进行排序，在保证排序准确性的同时，提高排序效率。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

获得当前用户确定的待搜索目标查询词；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的视频搜索方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频搜索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质以及程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频搜索方法，其特征在于，应用于视频搜索系统，所述方法包括：

获得当前用户确定的待搜索目标查询词；

2.根据权利要求1所述的方法，其特征在于，所述指定类型的视频为原创视频和/或预先确定的经典视频。

3.根据权利要求1所述的方法，其特征在于，在所述获得当前用户确定的待搜索目标查询词之前，还包括：

显示推荐视频的标识信息；

所述推荐视频的标识信息，通过如下步骤获得：

4.根据权利要求3所述的方法，其特征在于，

所述用户桶和视频桶，通过以下方式生成：

将各个视频按照视频类型划分至不同的视频桶中；

基于已知的各用户信息，将各用户划分至不同的用户桶中；

获得当前用户所属的各个目标用户桶的权值系数；

5.根据权利要求4所述的方法，其特征在于，

每个用户桶的加权系数通过如下方式定时更新：

6.根据权利要求1所述的方法，其特征在于，

在所述基于为每个视频预设的分配权重，将所述目标查询词与各视频的视频信息进行相似度匹配，得到多个候选视频之前，还包括：

对所述目标查询词的语义正确性进行判断；

7.根据权利要求6所述的方法，其特征在于，所述对所述目标查询词的语义正确性进行判断的步骤，包括：

将所述目标查询词进行分词，得到至少一个词语；

8.根据权利要求7所述的方法，其特征在于，所述按照预设纠错规则对所述目标查询词中的错误进行纠错，得到纠错后的查询词的步骤，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于每个视频预设的分配权重，将所述查询词与各视频的视频信息进行相似度匹配，得到多个候选视频的步骤，包括：

10.一种视频搜索装置，其特征在于，应用于视频搜索系统，所述装置包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。