CN110737799B

CN110737799B - 视频搜索的方法、装置、设备和介质

Info

Publication number: CN110737799B
Application number: CN201810713840.0A
Authority: CN
Inventors: 王志斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2023-06-27
Anticipated expiration: 2038-07-03
Also published as: CN110737799A

Abstract

一种视频搜索的方法、装置、设备和介质，所述方法包括：依据历史观看视频和输入的搜索词，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征；确定与所述搜索词对相匹配的多个视频向量特征；将所述视频向量特征对应的视频，作为所述搜索词相匹配的视频。采用本发明实施例后，可以实现有针对性的搜索视频。

Description

视频搜索的方法、装置、设备和介质

技术领域

本发明涉及计算机领域，尤其涉及一种视频搜索的方法、装置、设备和计算机可读存储介质。

背景技术

搜索是帮助用户快速找到感兴趣的信息的重要手段。目前，搜索主要是以关键词等文本作为搜索词。对于两个不同的用户，搜索词相同则搜索结果是相同。

但用户的偏好是不同的，由于搜索词的局限，搜索得到的视频与用户期望存在偏差。因此，无法进行有针对性的搜索视频。

发明内容

本发明实施例提供了一种视频搜索的方法、装置、设备和计算机可读存储介质，对于不同的用户实现有针对性的搜索视频。

一种视频搜索的方法，包括：

依据历史观看视频和输入的搜索词，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征；

确定与所述搜索词对相匹配的多个视频向量特征；

将所述视频向量特征对应的视频，作为所述搜索词相匹配的视频。

所述历史观看视频包括用户的历史观看视频；所述输入的搜索词是所述用户输入的搜索词。

所述依据历史观看视频和所述用户所输入的搜索词，构建搜索词对，包括：

采用用户深度神经网络学习所述历史观看视频，得到历史视频向量特征；

采用搜索词深度神经网络学习所述输入的搜索词，得到搜索词向量特征；

依据所述历史视频向量特征与所述搜索词向量特征，构建搜索词对。

所述搜索词对包括所述历史视频相对应的向量特征与所述搜索词相对应的向量特征相加后的向量特征。

所述搜索词对包括所述历史视频相对应的向量特征与所述搜索词相对应的向量特征拼接后的向量特征。

所述确定与所述搜索词对相匹配的多个视频向量特征，包括：

采用视频深度神经网络学习视频，确定所述视频向量特征；

按照所述搜索词对的向量特征与所述视频向量特征之间的距离，确定所述多个视频向量特征。

所述方法还包括：

预先联合训练所述用户深度神经网络、所述搜索词深度神经网络和所述视频深度神经网络。

所述历史观看视频相对应的向量特征的维度、所述搜索词对应的向量特征的维度和所述视频向量特征的维度均相同。

一种视频搜索的装置，包括：

构建模块，用于依据历史观看视频和输入的搜索词，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征；

匹配模块，用于确定与所述搜索词对相匹配的多个视频向量特征；

内容模块，用于将所述视频向量特征对应的视频，作为所述搜索词相匹配的视频。

一种视频搜索的设备，存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行如上述的方法。

一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现如上述的方法。

一种视频搜索的方法，包括：

接收输入的搜索词；

显示与所述搜索词相匹配的视频，所述视频是基于历史观看视频和所述搜索词而确定的。

一种视频搜索的装置，包括：

接收模块，用于接收输入的搜索词；

显示模块，用于显示与所述搜索词相匹配的视频，所述视频是基于历史观看视频和所述搜索词而确定的。

一种视频搜索的设备，

存储器，用于存储程序；

从上述技术方案中可以看出，依据历史观看视频和输入的搜索词，构建搜索词对。搜索词对可以表征历史观看视频的同时，表征输入的搜索词。在确定与搜索词对相匹配的视频向量特征后，可以确定与搜索词相匹配的视频。实现针对性的搜索视频。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1是本发明实施例中视频搜索中深度神经网络的示意图；

图2是本发明实施例中采用视频搜索的点击率统计图；

图3是本发明实施例中采用视频搜索的观看时间统计图；

图4是本发明实施例中视频搜索的方法流程示意图；

图5是本发明实施例中视频搜索的装置结构示意图；

图6是本发明另一个实施例中视频搜索的方法流程示意图；

图7是本发明另一个实施例中视频搜索的装置结构示意图；

图8是本发明又一个实施例中视频搜索的装置结构示意图；

图9是本发明再一个实施例中视频搜索的装置结构示意图。

图10是本发明实施例的视频搜索的方法和装置的计算设备的示例性硬件架构的结构图；

图11是本发明另一个实施例中的视频搜索的方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

信息过载是在信息时代信息过于丰富的一种现象，也就是个人所接受的信息超过了所能接受、处理或有效利用的范围，导致的一种无所适从的问题。

对用户而言，面对海量的信息时，如何快速找到自己感兴趣的信息确实是件耗费时间和精力的事情，尤其是在没有明确意图的情况。作为一个示例，信息可以包括资讯、商品、视频、音乐等各种服务。

用户搜索商品时，在很多情况下，由于商品之间的相关性，如商品所属分支类别，商品所属总类别。即，基于商品、商品所属分支类别和商品所属总类别，可以获知与用户搜索词相类似的商品搜索结果。

但用户在搜索视频时，由于视频之间的相关性较弱，仅能将视频按照视频所属列表，得到与用户搜索词相仿的视频搜索结果。如，搜索词是：动画片，则视频搜索结果几乎均是动画片。考虑到，动画片有很多种类，以及不同的受众。如，《喜洋洋与灰太狼》属于内容容易理解的动画片，受众是低幼儿童；《狮子王》的内容多样化，不同年龄段的观众均可以理解，受众是全年龄段的观众。

也就说，目前用户在搜索视频时，难以获得符合用户自身需要的视频。

深度学习是机器学习研究中的一个新领域，目的在于模拟人脑对数据进行分析的学习过程，通过模仿人脑认知的机制来解释数据。作为一个示例，深度学习包括但不限于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)、深度神经网络(Deep Neural Network，DNN)和长短期记忆网络(LongShort-Term Memory，LSTM)或上述神经网络之间组合。

在本发明实施例中，以深度神经网络为例进行说明。深度神经网络是一种由多个映射层逐级排列组成的网络模型结构，其中每个映射层包含一对彼此对应的显层及隐层结构，用以对低层数据进行特征提炼以获得高层表示的数据属性或类别。构建深度神经网络的首先需要进行训练，即使用大量的样本数据作为深度神经网络的输入，对深度神经网络进行有监督式的训练或无监督式的训练。在训练过程中，样本数据进入深度神经网络的输入层，成为首个映射层中显层的输入。在该映射层中，显层神经元建立与隐层神经元之间的映射关系，获得映射权重，完成本层中的特征抽象，然后将该映射层隐层的输出作为下一个映射层显层的输入，继续进行下一映射层的映射关系建立。

深度神经网络通常包含1个输入层、1个输出层以及至少1个映射层；在层级顺序上，深度神经网络从底层到上层依次为：输入层、映射层、输出层。可以根据实际需要设置各层的数量及顺序。

深度神经网络是逐层进行训练的，输入参数输入深度神经网络的输入层，即在对前一映射层进行训练之后，将其输出的训练结果作为下一映射层的输入，对下一映射层进行训练。最终，在输出层输出与输入参数对应的输出结果。

在本发明的一个实施例中，考虑到视频搜索的过程中，可能需要涉及历史观看视频和输入的搜索词。需要说明的是，历史观看视频可以是指定范围内的历史观看视频，作为一个示例，在10小时内所有用户观看视频作为历史观看视频。输入的搜索词可以是用户输入的搜索词，还可以是通过其他方式获取的搜索词。

在下述技术方案中，以历史观看视频是用户的历史观看视频，输入的搜索词是该用户所输入的搜索词为例进行说明。

在本发明的一个实施例中，可以依据用户的历史观看视频和用户所输入的搜索词，构建搜索词对。也就是说，搜索词对可以是受用户的历史观看视频和用户所输入的搜索词两个参数影响的。

为了能够利用深度神经网络进行视频搜索，搜索词对可以包括与历史观看视频以及搜索词相对应的向量特征。换言之，搜索词对是以向量特征表征的参数。

可以将用户的历史观看视频和用户输入的搜索词，分别作为深度神经网络的输入。作为一个示例，用户的历史观看视频是已观看的第一视频和已观看的第二视频；用户输入的搜索词是“枪战”。进而，可以依据第一视频、第二视频和“枪战”进行视频搜索。

在本发明的一个实施例中，参见图1，图1是本发明实施例中视频搜索中深度神经网络的示意图。其中，包括：用户深度神经网络、搜索词深度神经网络和视频深度神经网络。作为一个示例，用户深度神经网络可以包括三层，即输入层、映射层和输出层。多个历史观看视频作为输入至映射层的输入。作为一个示例，搜索词深度神经网络可以包括三层，即输入层、映射层和输出层。搜索词的词向量矩阵和搜索词的向量矩阵作为输入层向映射层的输入。作为一个示例，视频深度神经网络可以包括三层，即输入层、映射层和输出层。视频的词向量矩阵和视频的向量矩阵作为输入层向映射层的输入。

可以采用用户深度神经网络学习用户的历史观看视频，得到用户的历史观看视频向量特征；采用搜索词深度神经网络学习用户输入的搜索词，得到搜索词向量特征；采用视频深度神经网络学习视频，得到视频向量特征。也就是说，可以采用三个不同的深度神经网络基于不同的输入参数分别进行学习。

需要说明的是，上述三个不同的深度神经网络，即：用户深度神经网络、搜索词深度神经网络和视频深度神经网络需要进行联合训练。

在本发明的一个实施例中，联合训练是根据实际的搜索日志实现的。联合训练的输入可以是搜索日志，联合训练的输出是正样本和负样本。正样本是用户实际点击的视频；负样本是用户实际未点击的视频。其中，正样本和负样本的比例可以依据实际情况设置。

搜索日志可以包括用户的历史观看视频、搜索词和搜索范围内的视频。作为一个示例，用户的历史观看视频可以是用户在预设周期内所观看的视频；搜索词可以是该用户在进行视频搜索时涉及的搜索词，搜索范围内的视频可以是一个视频网站中涉及的视频。

在联合训练的过程中，用户深度神经网络的输入是用户的历史观看视频，搜索词深度神经网络的输入是用户所输入的搜索词，以及视频深度神经网络的输入是搜索范围内的视频。用户深度神经网络、搜索词深度神经网络和视频深度神经网络联合输出：用户可能点击的视频。然后，依据用户可能点击的视频、用户实际点击的视频和用户实际未点击的视频训练上述三个深度神经网络。

下面就用户深度神经网络、搜索词深度神经网络和视频深度神经网络进行分别的说明。

用户的历史观看视频可以是用户的历史观看视频的名称。用户的历史观看视频可以以多种方式记录。作为一个示例，可以以文字的方式记录用户的历史观看视频。另外，还可以将用户的历史观看视频以视频序列V表示。作为一个示例，视频序列V＝{V1，V2，……，VN}，其中，V1是用户的第一个已观看视频对应的标号，V2是用户的第二个已观看视频的标号，VN是用户的第N个已观看视频的标号，N是大于等于1的整数。已观看视频以标号标记，如，标号1用于标记观看第一视频，标号N用于标记观看第N视频。

用户的历史观看视频随着时间的推移而改变，为了能够学习用户的兴趣偏好的迁移和变化，可以周期性更新历史观看视频，即周期性更新视频序列V，其中，更新视频序列V的周期是可以依据实际需求进行设置。作为一个示例，更新视频序列V的周期为7天，那么视频序列V中记录用户在7天内的所观看的视频。

用户的历史观看视频输入用户深度神经网络的输入层，即在对前一映射层进行训练之后，将其输出的训练结果作为下一映射层的输入，对下一映射层进行训练。最终，在输出层输出用户的历史视频向量特征。

在本发明的一个实施例中，用户的历史观看视频可以是用户在一定的时间范围内和/或区域内涉及的视频。作为一个示例，用户的历史观看视频为：用户7天内在某视频网站，观看时间超过10分钟的视频。

对于搜索词深度神经网络和视频深度神经网络，考虑到搜索词和视频自身是由于字和/或词组成，那么需要对搜索词和视频进行词向量化，即以向量的形式表示搜索词，以及以向量的形式表示视频。

一般来说，可以通过用户输入的搜索词进行搜索，进而从搜索范围的视频中找到匹配该搜索词的视频。作为一个示例，可以以用户输入的搜索词直接进行视频搜索。此外，为了提高视频搜索的速度，还可以对用户输入的搜索词进行分词，然后利用分词结果再进行视频搜索。

在本发明的一个示例中，可以对用户输入的搜索词进行分词得到分词结果，过滤掉与搜索词对应主题无关的分词结果，再将剩下的分词结果与预设的关键词库中的词语匹配，根据匹配出分词结果，使搜索时的搜索词更加贴近主题，减少无关信息。

为了简化视频搜索过程中的编码逻辑，对于用户输入的搜索词可以先进行分词得到匹配出的分词结果。然后，在分词结果的基础上以独热码进行编码。

独热码(one-hot code)是多位编码中，有且仅有一位为1，其它全部为0的一种编码方式。独热码相对于其它编码最大的优势在于比较状态时仅仅需要比较一位，在一定程度上简化了译码逻辑。作为一个示例有6个状态的独热码状态编码为：000001，000010，000100，001000，010000，100000。

作为一个示例，用户输入的搜索词为“迪士尼狮子王”。

首先，对于“迪士尼狮子王”先进行分词，得到匹配出的分词结果为：{迪士尼，狮子王}。

分词词典中包括“迪士尼”和“狮子王”，在词汇中“迪士尼”的编码标识(ID)是5001，“狮子王”的编码ID是7788。

那么，用户输入的搜索词为“迪士尼狮子王”对应的编码ID是{5001，7788}。

用户输入的搜索词为“迪士尼狮子王”的独热码标识为{0，0，0，…，1，0…，0，1，…，0，0}，向量长度为分词词典中词总数。其中，第5001位和第7788位，均为1，其他位为0。

将用户输入的搜索词的独热码和搜索词的词向量矩阵相乘后，输入搜索词深度神经网络的输入层，即在对前一映射层进行训练之后，将其输出的训练结果作为下一映射层的输入，对下一映射层进行训练。最终，在输出层输出搜索词向量特征。其中，搜索词的词向量矩阵可以预先设置。

搜索范围内的视频是指一定范围内所包括的视频。其中，一定范围可以是在一段时间、一个地理范围和/或一个逻辑范围。作为一个示例，搜索范围的视频可以是截止日期之前某网站涉及的视频。

搜索范围的视频可以是视频的名称。同样的，也可以，对搜索范围内的视频的名称进行分词，然后以独热码进行编码。

作为一个示例，用搜索范围内的视频的名称为“NBA花絮集锦”，视频ID为232311。

首先，对于“NBA花絮集锦”先进行分词，得到匹配出的分词结果为：{NBA，花絮，集锦}。

分词词典中包括“NBA”、“花絮”和“集锦”，在词汇中“NBA”的编码标识(ID)是1001、“花絮”的编码ID是12345和“集锦”的编码ID是678。

那么，用户输入的搜索词为“NBA花絮集锦”对应的编码ID是{001，12345，678}。

视频ID的独热码标识为{0，0，0，....，1，0，…，0，0}，向量长度为视频ID总数，第232311位为1，其他位为0.

用户输入的搜索词为“NBA花絮集锦”的独热码标识为{0，0，0，…，1，0…，0，1，…，0，1，…，0，0},向量长度为分词词典中词总数。其中，第1001位，第12345位和第678位，均为1，其他位为0。

也就是说，对于用户输入的搜索词和搜索范围内的视频，可以先进行分词，然后以独热码进行编码。

将搜索范围内的视频的独热码和视频的词向量矩阵相乘后，输入视频深度神经网络的输入层，即在对前一映射层进行训练之后，将其输出的训练结果作为下一映射层的输入，对下一映射层进行训练。最终，在输出层输出视频向量特征。其中，视频的词向量矩阵可以预先设置。作为一个示例，视频的词向量矩阵可以是视频标识。将一定范围内的视频依次标记，每个视频均有对应的视频标识。

作为一个示例，搜索词的词向量矩阵可以与视频的词向量矩阵相同，这样，在深度学习过程中，能够减少网络参数，训练效果更佳，深度神经网络的收敛性更好。

在本发明的一个实施例中，考虑到用户的历史观看视频是在一定周期内发生的，若该周期比较长，则可以在线下对用户的历史观看视频采用用户深度神经网络进行学习。相应的，搜索范围内的视频的数量较大，同样也可以在线下，对搜索范围内的视频采用视频深度神经网络进行学习。这样，可以减少实时采用深度神经网络进行学习所造成的资源紧张。在计算资源宽裕的时间段，可以线下采用神经网络分别学习用户的历史观看视频和搜索范围内的视频。

基于用户的历史观看视频和用户所输入的搜索词，可以从用户的历史观看视频的角度，以及用户所输入的搜索词的角度，构建搜索词对。作为一个示例，即使两个用户的搜索词是相同的，由于不同的用户的历史观看视频几乎难以一致，因此两个用户的搜索词对是不同的。

在本发明的一个实施例中，用户搜索词对等于用户的历史视频向量特征与搜索词向量特征之和。即，搜索词对包括用户的历史视频向量特征与搜索词向量特征相加后的向量特征。考虑到用户行为向量特征和搜索词向量特征均是矩阵，那么，用户搜索词对也是矩阵。作为一个示例，用户的历史视频向量特征为{A，B，C}，搜索词向量特征为{1，2，3}，用户的历史视频向量特征与搜索词向量特征相加后，得到{A+1，B+2，C+3}，即搜索词对是{A+1，B+2，C+3}。可见，用户的历史视频向量特征的维度、搜索词向量特征的维度与视频向量特征的维度相同，则用户搜索词对的维度与用户的历史视频向量特征的维度相同。在确定视频向量特征的过程中，由于用户搜索词对的维度与用户的历史视频向量特征的维度相同，计算过程简单。

在本发明的一个实施例中，还可以拼接用户的历史视频向量特征与搜索词向量特征，得到用户搜索词对。即，搜索词对包括用户的历史视频向量特征与搜索词向量特征拼接后的向量特征。作为一个示例，用户的历史视频向量特征为{A，B，C}，搜索词向量特征为{1，2，3}，拼接用户的历史视频向量特征与搜索词向量特征，得到{A，B，C，1，2，3}，即搜索词对是{A，B，C，1，2，3}。可见，用户搜索词对的维度等于用户的历史视频向量特征的维度与搜索词向量特征的维度的和。

依据本发明实施例中的技术方案确定视频的视频向量特征后，就可以在搜索范围内包括多个视频中，确定与搜索词对相匹配的多个视频向量特征。

在本发明的一个实施例中，可基于搜索词对与视频向量特征之间的距离，确定与搜索词对相匹配的多个视频向量特征。作为一个示例，基于搜索词对计算与每个视频向量特征之间的距离，按照距离由近至远的顺序，确定该距离小于预设阈值的视频向量特征。将所确定的视频向量特征，作为与搜索词对相匹配的视频向量特征。

在本发明的一个实施例中，搜索词对与视频向量特征之间的距离可以等于但不限于采用下述方式计算获得的距离。欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦相似度和汉明距离。

由于视频向量特征与视频是对应的，那么可以基于与搜索词对相匹配的视频向量特征，确定出与该搜索词相匹配的视频。

下面结合具体的实施例进行说明。

视频矩阵采用50维，即用户的历史观看视频对应的矩阵是50维；搜索范围内的视频对应的矩阵是50维。搜索词的词向量矩阵是64维；视频的词向量矩阵是64维。

用户的历史观看视频所采用的用户深度神经网络、用户所输入的搜索词所采用的搜索词深度神经网络和搜索范围内的视频所采用的视频深度神经网络，上述三个深度神经网络均采用3层DNN，映射层节点数均为128。

其中，每层深度神经网络可以理解为一个线性函数。利用映射层的128个节点可以将输入层50维的输入参数映射到128维；在输出层则将映射层128维的参数映射到64维。

在输出层，用户的历史观看视频向量特征h_uo、搜索词向量特征h_qo和视频向量特征均映射到64维，即用户的历史观看视频向量特征、搜索词向量特征和视频向量特征均映射到相同的特征空间。

首先，基于用户的历史视频向量特征h_uo和搜索词向量特征h_qo计算搜索词对h_(u，q)。

h_(u，q)＝h_uo+h_qo (1)

第i个视频向量特征h_io基于与搜索词对h_(u，q)的距离p(v|u，q)可以按照公式(2)计算获得。

p(v|u，q)＝f(h_io，h_(u，q)) (2)

f()是距离计算函数，作为一个示例，f()可以是余弦相似度函数。

最后，基于视频向量特征，确定与搜索词相匹配的多个视频。

在本发明的一个实施例中，可以采用某视频网站上实际7天的搜索日志作为联合训练的输入数据，得到用户深度神经网络、搜索词深度神经网络和视频深度神经网络。

结合用户深度神经网络和搜索词深度神经网络，依据用户的历史观看视频和用户输入的搜索词，构建搜索词对。

确定与搜索词对相匹配的结合视频深度神经网络的多个视频向量特征。最后，基于视频向量特征，确定与搜索词相匹配的多个视频。

参见图2，图2是本发明实施例中采用视频搜索的点击率统计图，其中，曲线A是未采用本发明实施例进行视频搜索的点击率统计；曲线B是采用本发明实施例进行视频搜索的点击率统计。由图2可知，采用本发明实施例中的技术方案，点击率提高约4％。

参见图3，图3是本发明实施例中采用视频搜索的观看时间统计图，其中，曲线C是未采用本发明实施例进行视频搜索的观看时间统计；曲线D是采用本发明实施例进行视频搜索的观看时间统计。由图3可知，采用本发明实施例中的技术方案，观看时间提高约5％。

基于上述的过程，本发明实施例提供的视频搜索的方法可以归纳为图4所示的步骤。图4是本发明实施例中视频搜索的方法流程示意图，可以包括：

S401、依据历史观看视频和输入的搜索词，构建搜索词对，搜索词对包括互相匹配的历史观看视频和搜索词相对应的向量特征。

用户在利用搜索词进行视频搜索之前，一般来说，对于用户而言，存在已观看过的视频，即历史观看视频。历史观看视频能够体现用户特征。作为一个示例，用户A的历史观看视频多是家庭电视剧，则说明用户A是女性的可能性比较大。

进而可以从用户的历史观看视频和搜索词两个方面，构建得到搜索词对。

S402、确定与搜索词对相匹配的多个视频向量特征。

通常，在一定范围内进行视频的搜索，其中包括多个视频。每个视频可以用视频向量特征标识。基于搜索词对，可以确定与之相匹配的视频向量特征。与搜索词对相匹配，则说明用户有可能会观看该视频向量特征对应的视频。

S403、将视频向量特征对应的视频，作为搜索词相匹配的视频。

在确定与搜索词对相匹配的多个视频向量特征后，由于视频向量特征与视频是一一对应关系，这样就可以确定与搜索词相匹配的视频。

本发明实施例中，依据历史观看视频和输入的搜索词，构建搜索词对。搜索词对可以表征历史观看视频的同时，表征输入的搜索词。在确定与搜索词对相匹配的视频向量特征后，可以确定与搜索词相匹配的视频。实现了针对性的搜索视频。

参见图5是本发明实施例中视频搜索的装置结构示意图，视频搜索的装置与视频搜索的方法相对应，视频搜索的装置具体包括：

构建模块501，用于依据历史观看视频和输入的搜索词，构建搜索词对，搜索词对包括相互匹配的历史观看视频和搜索词所对应的向量特征。

匹配模块502，用于确定与搜索词对相匹配的多个视频向量特征。

内容模块503，用于将视频向量特征对已的视频，作为搜索词相匹配的视频。

在本发明的一个实施例中，历史观看视频包括用户的历史观看视频；输入的搜索词是所述用户输入的搜索词。

在本发明的一个实施例中，构建模块501，具体用于采用用户深度神经网络学习历史观看视频，得到历史视频向量特征；

采用搜索词深度神经网络学习输入的搜索词，得到搜索词向量特征；

依据历史视频向量特征与搜索词向量特征，构建搜索词对。

在本发明的一个实施例中，搜索词对包括历史视频相对应的向量特征与搜索词相对应的向量特征相加后的向量特征。

在本发明的一个实施例中，搜索词对包括历史视频相对应的向量特征与搜索词相对应的向量特征拼接后的向量特征。

在本发明的一个实施例中，匹配模块502，具体用于采用视频深度神经网络学习视频，确定视频向量特征；

按照搜索词对的向量特征与视频向量特征之间的距离，确定多个视频向量特征。

在本发明的一个实施例中，还包括训练模块(图中未示出)，用于预先联合训练用户深度神经网络、搜索词深度神经网络和视频深度神经网络。

在本发明的一个实施例中，历史观看视频相对应的向量特征的维度、搜索词对应的向量特征的维度和视频向量特征的维度均相同。

参见图6，图6是本发明另一个实施例中视频搜索的方法流程示意图，具体包括：

S601、接收输入的搜索词。

在本发明的一个实施例中，在视频搜索的过程中，需要接收用户输入的搜索词。用户可以以多种方式输入搜索词。作为一个示例，用户可以通过输入设备-键盘，输入搜索词。作为另一个示例，用户还可以直接输入语音，通过识别用户的输入语音，识别出搜索词。

此外，用户的输入可以不局限于键盘输入和语音输入，包括但不限于，图片输入、手势输入等。

简而言之，在本发明实施例中，能够接收以各种输入方式输入的搜索词。

S602、显示与搜索词相匹配的视频，视频是基于历史观看视频和搜索词而确定的。

在接收用户输入的搜索词后，可以显示与搜索词相匹配的视频。需要说明的是，与搜索词相匹配的视频，不仅基于搜索词，而且同时依据该用户的历史观看视频。

也就是说，视频从历史观看视频和搜索词两个角度确定的。具体的，基于历史观看视频和搜索词，确定视频的技术方案，具体的可以参见本发明的实施例。

在本发明实施例中，通过接收输入的搜索词，可以显示与该搜索词相匹配的视频。其中，相匹配的视频不仅仅与搜索词相关，而且还与历史观看视频相关。因此，实现有针对性的视频搜索。

参见图7，图7是本发明另一个实施例中视频搜索的装置结构示意图，视频搜索的装置与视频搜索的方法相对应，视频搜索的装置具体包括：

接收模块701，用于接收输入的搜索词

显示模块702，用于显示与搜索词相匹配的视频，视频是基于历史观看视频和搜索词而确定的。

参见图8，图8是本发明又一个实施例中视频搜索的装置结构示意图。

图8中，视频搜索的装置可以是位于用户面前的电脑。接收模块801可以是图8中的键盘，显示模块802可以是图8中的显示器。

用户通过键盘输入搜索词，键盘接收用户输入的搜索词。显示器可以显示与搜索词相匹配的视频，需要说明的是视频是基于历史观看视频和搜索词而确定的。

参见图9，图9是本发明再一个实施例中视频搜索的装置结构示意图。

图9中，视频搜索的装置可以是位于用户面前的移动终端。接收模块901可以是图9中的虚拟键盘或麦克风等，显示模块902可以是图9中移动终端的屏幕。

用户通过虚拟键盘或麦克风输入搜索词，虚拟键盘或麦克风接收用户输入的搜索词。移动终端的显示器可以显示与搜索词相匹配的视频，需要说明的是视频是基于历史观看视频和搜索词而确定的。

需要说明的是，基于历史观看视频和搜索词，确定视频的技术方案，可以参加本发明的实施例。

图10是示出能够实现根据本发明实施例的视频搜索的方法和装置的计算设备的示例性硬件架构的结构图。

如图10所示，计算设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中，输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接，输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接，进而与计算设备1000的其他组件连接。

具体地，输入设备1001接收来自外部(例如，手机终端的摄像头)的输入信息，并通过输入接口1002将输入信息传送到中央处理器1003；中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1004中，然后通过输出接口1005将输出信息传送到输出设备1006；输出设备1006将输出信息输出到计算设备1000的外部供用户使用。

也就是说，图10所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图5描述的视频搜索的方法和装置。

在一个实施例中，图10所示的计算设备1000可以被实现为一种设备，该设备可以包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行视频搜索的方法中的步骤。

图11是示出能够实现根据本发明实施例的视频搜索的方法和装置的计算设备的示例性硬件架构的结构图。

如图11所示，计算设备1100包括输入设备1101、输入接口1102、中央处理器1103、存储器1104、输出接口1105、以及输出设备1106。其中，输入接口1102、中央处理器1103、存储器1104、以及输出接口1105通过总线1110相互连接，输入设备1101和输出设备1106分别通过输入接口1102和输出接口1105与总线1110连接，进而与计算设备1100的其他组件连接。

具体地，输入设备1101接收来自外部(例如，手机终端的摄像头)的输入信息，并通过输入接口1102将输入信息传送到中央处理器1103；中央处理器1103基于存储器1104中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1104中，然后通过输出接口1105将输出信息传送到输出设备1106；输出设备1106将输出信息输出到计算设备1100的外部供用户使用。

也就是说，图11所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图6至图9描述的视频搜索的方法和装置。

在一个实施例中，图11所示的计算设备1100可以被实现为一种设备，该设备可以包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行视频搜索的方法中的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频搜索的方法，其特征在于，包括：

依据历史观看视频的历史视频向量特征和输入的搜索词的搜索词向量特征，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征，所述历史视频向量特征通过将所述历史观看视频输入至用户深度神经网络得到，所述搜索词向量特征通过将所述输入的搜索词输入至搜索词深度神经网络得到；

确定与所述搜索词对相匹配的多个视频向量特征，所述多个视频向量特征与所述搜索词对之间的距离小于预设阈值，所述多个视频向量特征为搜索范围内的视频的向量特征中的视频向量特征，所述搜索范围内的视频的向量特征通过将所述搜索范围内的视频输入至视频深度神经网络得到；

将所述多个视频向量特征对应的视频，作为所述搜索词相匹配的视频。

2.根据权利要求1所述视频搜索的方法，其特征在于，所述历史观看视频包括用户的历史观看视频；

所述输入的搜索词是所述用户输入的搜索词。

3.根据权利要求1所述视频搜索的方法，其特征在于，所述搜索词对包括所述历史观看视频相对应的向量特征与所述搜索词相对应的向量特征相加后的向量特征。

4.根据权利要求1所述视频搜索的方法，其特征在于，所述搜索词对包括所述历史观看视频相对应的向量特征与所述搜索词相对应的向量特征拼接后的向量特征。

5.根据权利要求1所述视频搜索的方法，所述方法还包括：

6.根据权利要求1所述视频搜索的方法，其特征在于，所述历史观看视频相对应的向量特征的维度、所述搜索词对应的向量特征的维度和所述视频向量特征的维度均相同。

7.一种视频搜索的装置，其特征在于，包括：

构建模块，用于依据历史观看视频的历史视频向量特征和输入的搜索词的历史视频向量特征，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征，所述历史视频向量特征通过将所述历史观看视频输入至用户深度神经网络得到，所述搜索词向量特征通过将所述输入的搜索词输入至搜索词深度神经网络得到；

匹配模块，用于确定与所述搜索词对相匹配的多个视频向量特征，所述多个视频向量特征与所述搜索词对之间的距离小于预设阈值，所述多个视频向量特征为搜索范围内的视频的向量特征中的视频向量特征，所述搜索范围内的视频的向量特征通过将所述搜索范围内的视频输入至视频深度神经网络得到；

内容模块，用于将所述多个视频向量特征对应的视频，作为所述搜索词相匹配的视频。

8.一种视频搜索的方法，其特征在于，包括：

接收输入的搜索词；

依据历史观看视频的历史视频向量特征和所述输入的搜索词的搜索词向量特征，构建搜索词对，所述搜索词对包括互相匹配的所述历史观看视频和所述搜索词所对应的向量特征，所述历史视频向量特征通过将所述历史观看视频输入至用户深度神经网络得到，所述搜索词向量特征通过将所述输入的搜索词输入至搜索词深度神经网络得到；

将所述多个视频向量特征对应的视频，作为所述搜索词相匹配的视频；

显示与所述搜索词相匹配的视频。

9.一种视频搜索的装置，其特征在于，包括：

接收模块，用于接收输入的搜索词；

内容模块，用于将所述多个视频向量特征对应的视频，作为所述搜索词相匹配的视频；

显示模块，用于显示与所述搜索词相匹配的视频。

10.一种视频搜索的设备，其特征在于，

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行如权利要求1-6中任一项所述的方法，或如权利要求8所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述的方法，或如权利要求8所述的方法。