CN113127686B

CN113127686B - 视频搜索方法、装置、设备及存储介质

Info

Publication number: CN113127686B
Application number: CN202110437681.8A
Authority: CN
Inventors: 罗川; 胡晨
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2024-02-02
Anticipated expiration: 2041-04-22
Also published as: CN113127686A

Abstract

本申请涉及一种视频搜索方法、装置、设备及存储介质。该方法包括获取用户输入的搜索信息；从预设视频库中获取与搜索信息相对应的候选视频；获取目标后验特征，目标后验特征是基于用户的历史观看行为得到；获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。由于在确定搜索信息与候选视频的相关性时，引入了用户对候选视频的反馈信息，借助该反馈信息辅助计算相关性，由于反馈信息可以反映用户对视频的满意程度等真实感受，因此所确定的相关性性比较准确。

Description

视频搜索方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种视频搜索方法、装置、设备及存储介质。

背景技术

在视频搜索场景下，用户在搜索界面输入查询词，搜索系统计算查询词与视频库中各视频之间的相关性，基于该相关性，从视频库中查找与查询词对应的相关视频，并向用户返回相关视频。

然而，现有技术中基于查询词与视频之间的相关性来查找到的视频，很可能不是用户想看的视频。

发明内容

本申请提供了一种相关性分数确定方法、装置、设备及存储介质，用以解决相关技术中相关性分数计算结果误差较大的问题。

第一方面、提供一种视频搜索方法，包括：

获取用户输入的搜索信息；

从预设视频库中获取与所述搜索信息相对应的候选视频；

获取目标先验特征，所述目标先验特征包括所述搜索信息与所述候选视频之间的交叉特征、从所述搜索信息中提取的特征和从所述候选视频的附属信息中提取的特征；

获取目标后验特征，所述目标后验特征是基于所述用户的历史观看行为得到；

获取所述目标先验特征和所述目标后验特征之间的相关性，并基于所述相关性生成所述用户的视频搜索结果。

可选地，获取目标后验特征，包括：

从所述用户的历史观看行为对应的历史日志数据中，提取所述用户对所述候选视频的反馈信息；

利用所述反馈信息生成所述目标后验特征。

可选地，从所述用户的历史观看行为对应的历史日志数据中，提取所述用户对所述候选视频的反馈信息，包括：

从所述历史日志数据中，提取所述用户对所述候选视频的点赞信息和播放信息；

将所述点赞信息和所述播放信息确定为所述反馈信息。

可选地，提取所述用户对所述候选视频的播放信息，包括：

获取所述用户对所述候选视频的至少一个观看时长；

确定与所述至少一个观看时长对应的观看时长中值和观看时长均值；

将所述观看时长中值和所述观看时长均值确定为所述播放信息。

可选地，获取所述目标先验特征和所述目标后验特征之间的相关性，包括：

确定与所述目标先验特征对应的第一特征向量、以及与所述目标后验特征对应的第二特征向量；

生成与所述第一特征向量和所述第二特征向量对应的第三特征向量；

将所述第三特征向量输入训练后的决策树模型，得到所述搜索信息与所述候选视频之间的相关性分数；

将所述相关性分数确定为所述目标先验特征和所述目标后验特征之间的相关性。

第二方面、提供一种视频搜索装置，包括：

第一获取单元，用于获取用户输入的搜索信息；

第二获取单元，用于从预设视频库中获取与所述搜索信息相对应的候选视频；

第三获取单元，用于获取目标先验特征，所述目标先验特征包括所述搜索信息与所述候选视频之间的交叉特征、从所述搜索信息中提取的特征和从所述候选视频的附属信息中提取的特征；

第四获取单元，用于获取目标后验特征，所述目标后验特征是基于所述用户的历史观看行为得到；

第五获取单元，用于获取所述目标先验特征和所述目标后验特征之间的相关性，并基于所述相关性生成所述用户的视频搜索结果。

可选地，所述第四获取单元包括：

提取子单元，用于从所述用户的历史观看行为对应的历史日志数据中，提取所述用户对所述候选视频的反馈信息；

第一生成子单元，用于利用所述反馈信息生成所述目标后验特征。

可选地，所述提取子单元包括：

提取模块，用于从所述历史日志数据中，提取所述用户对所述候选视频的点赞信息和播放信息；

确定模块，用于将所述点赞信息和所述播放信息确定为所述反馈信息。

可选地，所述提取模块包括：

获取子模块，用于获取所述用户对所述候选视频的至少一个观看时长；

确定子模块，用于确定与所述至少一个观看时长对应的观看时长中值和观看时长均值；

可选地，所述第五获取单元包括：

第一确定子单元，用于确定与所述目标先验特征对应的第一特征向量、以及与所述目标后验特征对应的第二特征向量；

第二生成子单元，用于生成与所述第一特征向量和所述第二特征向量对应的第三特征向量；

计算子单元，用于将所述第三特征向量输入训练后的决策树模型，得到所述搜索信息与所述候选视频之间的相关性分数；

第二确定子单元，用于将所述相关性分数确定为所述目标先验特征和所述目标后验特征之间的相关性。

第三方面、提供一种电子设备，包括：处理器、存储器和通信总线，其中，处理器和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现第一方面所述的方法。

第四方面、提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请实施例提供的技术方案，在进行视频搜索时，获取用户输入的搜索信息以及搜索信息对应的候选视频，获取与搜索信息和候选视频对应的目标先验特征以及基于用户的历史观看行为得到的目标后验特征，获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。由于在确定搜索信息与候选视频的相关性时，引入了用户对候选视频的反馈信息，借助该反馈信息辅助计算相关性，由于反馈信息可以反映用户对视频的满意程度等真实感受，因此所确定的相关性性比较准确，进一步基于该相关性确定的视频搜索结果不易受到视频标题党等噪音数据的干扰。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本申请实施例中一种视频搜索方法的流程示意图；

图2为本申请实施例中又一种视频搜索方法的流程示意图；

图3为本申请实施例中视频搜索装置的结构示意图；

图4为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

为便于对本申请实施例的理解，先对本申请涉及的系统架构进行举例描述：

参见图1，为本申请实施例示出的一种视频搜索系统的系统架构示意图。

视频搜索系统包括：终端101和服务器102。

其中服务器102通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如视频服务)，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。

基于图1所示的系统架构，相关技术中，服务器在计算查询词与各候选视频之间的相关度时，并未考虑用户以往对各候选视频的反馈信息，因此最终确定的相关视频容易受到标题党等噪音数据的干扰，导致出现该相关视频很可能不是用户想看的视频的情况。

比如，得到的某一相关视频的标题(如：“天龙八部精彩片段”)和用户输入的查询词(如：“天龙八部“)在文本维度上十分相关，但实际上该相关视频的视频内容与查询词毫不相关，这种情况下即使用户播放了该相关视频，也很快发现视频内容并不满足需求而快速退出播放。

为了解决相关技术中的相关度计算结果误差较大，导致基于相关性所查找的相关视频很可能不是用户想看的视频的问题，本申请实施例提供一种视频搜索方法，该方法可以应用于服务器102，如图2所示，该方法可以包括以下步骤：

步骤201、获取用户输入的搜索信息。

可选地，该搜索信息包括但不限于搜索词或搜索文本。

实际应用中，终端通过APP向用户显示搜索框，从搜索框中获取用户输入的搜索信息，并基于用户的搜索指示，向服务器发送搜索信息，从而使得服务器获取用户所输入的搜索信息。

步骤202、从预设视频库中获取与搜索信息相对应的候选视频。

具体地，在获取候选视频时，获取与搜索信息对应的至少一个搜索词，并获取与至少一个搜索词对应的候选视频。

当搜索信息为搜索文本时，可以使用分词工具对搜索文本进行分词处理，例如，采用jieba分词对搜索文本进行分词，得到分词结果，并从分词结果中提取至少一个搜索词。当然，具体采用的分词工具并不限于jieba分词，也可以是其他分词工具，此处并不限制具体采用何种分词工具。

例如，当搜索文本为“天龙八部”时，得到的分词结果可以为“天龙”“八部”，因此搜索词可以为“天龙”和/或“八部”。

可以理解的是，与搜索信息相对应的候选视频可以为一个或多个。

例如，当搜索信息为“天龙八部”时，与该搜索信息对应的候选视频可以为“天龙八部精彩片段”、类型为电视剧的“天龙八部”和/或类型为电影的“新天龙八部”等。

步骤203、获取目标先验特征。

目标先验特征包括搜索信息与候选视频之间的交叉特征、从搜索信息中提取的特征和从候选视频的附属信息中提取的特征。

具体地，本实施例中，目标先验特征可以为对搜索信息与候选视频之间的交叉特征、从搜索信息中提取的特征和从候选视频的附属信息中提取的特征进行拼接所构成的特征向量。

关于从搜索信息中提取的特征：

该特征可以根据搜索信息的字符长度、是否包含专有名词、是否包含人名等得到。

其中，专有名词可以为搜索信息中所包括的影视剧的名字、综艺节目的名字等；

人名可以为演员的名字，影视剧中角色的名字等。

例如，当搜索信息为“韦小宝鹿鼎记”时，搜索信息的字符长度为6，包含专有名词(即“鹿鼎记”)，包含人名(即“韦小宝”)。

关于从候选视频的附属信息中提取的特征：

候选视频的附属信息可以包括候选视频的标题、类型、导演等信息。

基于上述附属信息，从候选视频的附属信息中提取的特征可以根据候选视频的标题长度、标题中是否包含专有名词、标题中是否包含人名、候选视频的类型、候选视频的导演等得到。

其中，专有名词可以为影视剧的名字、综艺节目的名字等；

人名可以为演员的名字，影视剧中角色的名字等；

类型可以包括电视剧、影视剧、综艺、动漫等。

以候选视频为电视剧“天龙八部”为例，候选视频的附属信息可以为剧名：天龙八部；类型：电视剧；该剧的导演：A；

相应地，所确定的从候选视频的附属信息中提取的特征为，标题的长度为4个字符、包含专有名词(即“天龙八部”)，不包含人名，类型为电视剧，导演为A。

关于搜索信息与候选视频之间的交叉特征：

该交叉特征可以根据搜索信息与候选视频的标题是否完全一致、搜索信息与候选视频的标题的编辑距离等确定。

可选地，在确定搜索信息与候选视频的标题是否一致时，可以获取搜索信息对应的文本和候选视频的标题对应的文本，并对搜索信息对应的文本和搜索视频的标题对应的文本进行匹配，以确定搜索信息与候选视频的标题是否完全一致。

编辑距离为两个字符串之间，由一个字符串转成另一个字符串所需要的最少编辑次数。

以字符串a＝'love'，b＝'lolpe'为例，那么计算a和b的编辑距离，就是要算出从a变化到b需要经过多少个步骤。

1.love->lolve(插入l)

2.lolve->lolpe(用v替换成p)

那么我们就说他们的编辑距离为2。

对应到本实施例，搜索信息与候选视频的标题的编辑距离为搜索信息对应的字符串(或候选视频的标题对应的字符串)转换成候选视频的标题对应的字符串(或搜索信息对应的字符串)所需要的最小编辑次数。

步骤204、获取目标后验特征。

目标后验特征是基于用户的历史观看行为得到。

其中，历史观看行为为用户在以往观看候选视频的过程中，对候选视频的反馈行为，如对候选视频的点赞行为、评论行为和/或操作行为等。

其中，点赞行为包括但不限于用户对候选视频的点赞信息；评论行为包括但不限于在候选视频的历史播放过程中用户所发表的弹幕信息和/或在特定评论区域所发表的评论信息；操作行为包括但不限于用户对候选视频的播放信息、是否存在重复观看、以及观看过程中是否存在快进等。

其中点赞信息包括但不限于点赞次数；播放信息包括但不限于观看时长。

由于用户的操作行为和点赞行为更能反映用户对视频内容的真实满意程度，因此本实施例采用与用户的点赞行为对应的点赞信息和与操作行为对应的播放信息作为用户对候选视频的反馈信息。

可选地，当点赞信息表现为点赞次数时，反馈信息中的点赞信息可以为历史播放过程中预设时间内的总点赞次数；相应地，播放信息为统计地预设时间内的所有观看时长。

可选地，服务器可以获取反映用户的历史观看行为的历史日志数据，并从历史日志数据提取用户对候选视频的反馈信息，将该反馈信息确定为目标后验特征。

历史日志数据中包括用户以往输入的历史搜索信息、与历史搜索信息对应的历史视频搜索结果，以及用户对历史视频搜索结果中的视频的反馈信息。

可选地，为了使得到的用户的反馈信息更精准体现用户的真实满意度，本实施例用户对候选视频的反馈信息还可以与用户输入的搜索信息相对应，因此服务器在从历史日志数据中提取用户对候选视频的反馈信息时，将与搜索信息一致的历史搜索信息所对应的反馈信息作为用户对候选视频的反馈信息。

为了提高得到的相关性计算结果的准确性，本实施例中的播放信息采用候选视频的播放时长的中值和均值实现。

具体地，获取用户对候选视频的至少一个观看时长；确定与至少一个观看时长对应的观看时长中值和观看时长均值；将观看时长中值和观看时长均值确定为播放信息。

其中，观看时长中值为将至少一个观看时长按大小顺序排列后，处于中间位置的观看时长。

观看时长均值为至少一个观看时长平均值。

例如，当至少一个观看时长为30min、20min、35min、40min、10min时，所确定的观看时长中值可以为30min，观看时长均值可以为(30+20+35+40+10)/5＝26.4min。

可选地，目标后验特征可以为反馈信息所构成的特征向量。

步骤205、获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。

当目标先验特征和目标后验特征分别以特征向量的形式实现时，在获取目标先验特征和目标后验特征之间的相关性时，确定目标先验特征对应的第一特征向量和目标后验特征对应的第二特征向量，生成与第一特征向量和第二特征向量对应的第三特征向量，将第三特征向量预先训练得到的决策树模型，得到搜索信息和候选视频之间的相关性分数，将相关性分数确定为目标先验特征和目标后验特征之间的相关性。

可选地，可以对第一特征向量和第二特征向量进行拼接生成第三特征向量。例如，记第一特征向量为V1，第二特征向量为V2，那么第三特征向量V3＝[V1,V2]。

可选地，本实施例所采用的决策树模型包括但不限于梯度提升树模型(GBDT，Gradient Boosting Decision Tree)。

可选地，在基于相关性生成用户的视频搜索结果时，按相关性对候选视频进行排序，并将不小于相关性阈值的相关性对应的候选视频确定为视频搜索结果。

相关性阈值可以设置为经验值，或基于经验值确定，或由人为预设，本实施例对此不作具体限定。

本申请实施例提供的技术方案，在进行视频搜索时，获取用户输入的搜索信息以及搜索信息对应的候选视频，获取与搜索信息和候选视频对应的目标先验特征以及基于用户的历史观看行为得到的目标后验特征，获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。由于在确定搜索信息与候选视频的相关性时，引入了用户对候选视频的反馈信息，借助该反馈信息辅助计算相关性，由于反馈信息可以反映用户对视频的满意程度等真实感受，因此所确定的相关性性比较准确，进一步基于该相关性确定的视频搜索结果不易受到视频标题党等噪音数据的干扰。

基于同一构思，本申请实施例中提供了一种视频搜索装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述。如图3所示，该装置主要包括：

第一获取单元301，用于获取用户输入的搜索信息；

第二获取单元302，用于从预设视频库中获取与搜索信息相对应的候选视频；

第三获取单元303，用于获取目标先验特征，目标先验特征包括搜索信息与候选视频之间的交叉特征、从搜索信息中提取的特征和从候选视频的附属信息中提取的特征；

第四获取单元304，用于获取目标后验特征，目标后验特征是基于用户的历史观看行为得到；

第五获取单元305，用于获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。

可选地，第四获取单元用于：

从用户的历史观看行为对应的历史日志数据中，提取用户对候选视频的反馈信息；

利用反馈信息生成目标后验特征。

第四获取单元包括：

提取子单元，用于从用户的历史观看行为对应的历史日志数据中，提取用户对候选视频的反馈信息；

第一生成子单元，用于利用反馈信息生成目标后验特征。

可选地，提取子单元包括：

提取模块，用于从历史日志数据中，提取用户对候选视频的点赞信息和播放信息；

确定模块，用于将点赞信息和播放信息确定为反馈信息。

可选地，提取模块包括：

获取子模块，用于获取用户对候选视频的至少一个观看时长；

确定子模块，用于确定与至少一个观看时长对应的观看时长中值和观看时长均值；

将观看时长中值和观看时长均值确定为播放信息。

可选地，第五获取单元包括：

第一确定子单元，用于确定与目标先验特征对应的第一特征向量、以及与目标后验特征对应的第二特征向量；

第二生成子单元，用于生成与第一特征向量和第二特征向量对应的第三特征向量；

计算子单元，用于将第三特征向量输入训练后的决策树模型，得到搜索信息与候选视频之间的相关性分数；

第二确定子单元，用于将相关性分数确定为目标先验特征和目标后验特征之间的相关性。

基于同一构思，本申请实施例中还提供了一种电子设备，如图4所示，该电子设备主要包括：处理器401、存储器402和通信总线403，其中，处理器401和存储器402通过通信总线403完成相互间的通信。其中，存储器402中存储有可被至处理器401执行的程序，处理器401执行存储器402中存储的程序，实现如下步骤：

获取用户输入的搜索信息；从预设视频库中获取与搜索信息相对应的候选视频；获取目标先验特征，目标先验特征包括搜索信息与候选视频之间的交叉特征、从搜索信息中提取的特征和从候选视频的附属信息中提取的特征；获取目标后验特征，目标后验特征是基于用户的历史观看行为得到；获取目标先验特征和目标后验特征之间的相关性，并基于相关性生成用户的视频搜索结果。

上述电子设备中提到的通信总线403可以时外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线403可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器402可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器401的存储装置。

上述的处理器401可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等，还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的视频搜索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频搜索方法，其特征在于，包括：

获取用户输入的搜索信息；

从预设视频库中获取与所述搜索信息相对应的候选视频；

2.根据权利要求1所述的方法，其特征在于，获取目标后验特征，包括：

利用所述反馈信息生成所述目标后验特征。

3.根据权利要求2所述的方法，其特征在于，从所述用户的历史观看行为对应的历史日志数据中，提取所述用户对所述候选视频的反馈信息，包括：

将所述点赞信息和所述播放信息确定为所述反馈信息。

4.根据权利要求3所述的方法，其特征在于，提取所述用户对所述候选视频的播放信息，包括：

获取所述用户对所述候选视频的至少一个观看时长；

5.根据权利要求1-4任一项所述的方法，其特征在于，获取所述目标先验特征和所述目标后验特征之间的相关性，包括：

6.一种视频搜索装置，其特征在于，包括：

第一获取单元，用于获取用户输入的搜索信息；

7.根据权利要求6所述的装置，其特征在于，所述第四获取单元包括：

8.根据权利要求7所述的装置，其特征在于，所述提取子单元包括：

9.根据权利要求8所述的装置，其特征在于，所述提取模块包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述第五获取单元包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和通信总线，其中，处理器和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现权利要求1-5任一项所述的方法。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。