CN109299328A

CN109299328A - 一种视频搜索方法、服务器、客户端及存储介质

Info

Publication number: CN109299328A
Application number: CN201811466938.7A
Authority: CN
Inventors: 廖成才; 孔维斌
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-02-01

Abstract

本发明公开了一种视频搜索方法、服务器、客户端及存储介质，其中方法包括：接收第一关键词；根据所述第一关键词确定至少一个第二关键词，其中所述第一关键词属于第一文档，第二关键词属于第二文档，所述第一文档对应于第一类别，所述第二文档对应于第二类别，所述第一类别与所述第二类别相同；确定目标视频列表，其中所述目标视频列表包括多个目标视频链接，每个所述目标视频链接与所述第一文档或所述第二文档相对应；向客户端发送所述目标视频列表，通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

Description

一种视频搜索方法、服务器、客户端及存储介质

技术领域

本发明涉及文本处理领域，尤其涉及一种视频搜索方法、服务器、客户端及存储介质。

背景技术

短视频又称为短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频传播内容，随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。短视频平台具有如下特征：社交属性强，发布数量多、内容时效性强。优质的内容依旧是移动短视频发展的重要手段和内容创作者的核心竞争力。

用户在进行短视频的搜索时，需要在输入想要查看的短视频的关键词，相关的搜索引擎在接收到该关键词后，会通过快速获取视频文字简介中包含这个关键词的视频列表，并反馈给客户端。

然而，在一些场景下，一个关键词通常包括多个语义意思相近的词，如果搜索引擎只能向客户端反馈包含用户输入的关键词的视频列表，则有可能使得用户的视频搜索结果较少，降低了用户的体验性。

发明内容

本发明提供了一种视频搜索方法、服务器、客户端及存储介质，服务器，增加了用户的视频搜索结果数量，提高了用户的体验性。

本发明的第一方面提供了一种视频搜索方法，包括：

接收第一关键词；

根据所述第一关键词确定至少一个第二关键词，其中所述第一关键词属于第一文档，第二关键词属于第二文档，所述第一文档对应于第一类别，所述第二文档对应于第二类别，所述第一类别与所述第二类别相同；

确定目标视频列表，其中所述目标视频列表包括多个目标视频链接，每个所述目标视频链接与所述第一文档或所述第二文档相对应；

向客户端发送所述目标视频列表。

可选地，所述方法还包括：

对所述第一文档进行分词得到第一分词集合，所述第一分词集合包括第二预设数量的第一分词；

对所述第一文档进行分词得到第二分词集合，所述第二分词集合包括第三预设数量的第二分词。

可选地，所述方法还包括：

确定第一分词集合中的第一分词子集合，所述第一分词子集合包括第四预设数量的第一分词，其中所述第一分词子集合中每个所述第一分词满足如下条件中的至少一种：

词频TF大于或等于第一预设词频、或所述第一分词的逆向文件频率IDF大于或等于第二预设词频；

确定第二分词集合中的第二分词子集合，所述第二分词子集合包括第五预设数量的第二分词，其中所述第二分词子集合中每个所述第二分词满足如下条件中的至少一种：

词频TF大于或等于第一预设词频、或所述第一分词的逆向文件频率IDF大于或等于第二预设词频。

可选地，所述第一类别为所述第一分词子集合，所述第二类别为所述第二分词子集合；

相应的，所述第一类别与所述第二类别相同包括：

所述第一分词子集合为所述第二分词子集合的子集；或，

所述第二分词子集合为所述第一分词子集合的子集。

相应的，所述第一类别与所述第二类别相同包括：

所述第一分词子集合为所述第二分词子集合的子集；或，

所述第二分词子集合为所述第一分词子集合的子集。

可选地，所述方法还包括：

通过相似哈希simhash算法确定所述第一文档的第一文档指纹信息；

通过所述simhash算法确定所述第二文档的第二文档指纹信息；

相应的，所述所述第一类别与所述第二类别相同包括：

所述第一文档指纹信息与所述第二文档指纹信息相同。

可选地，所述方法还包括：

获取第一预设数量的文档集合，所述文档集合包括所述第一文档和所述第二文档；

根据所述文档集合通过聚类算法确定所述第一文档的第一类别；

根据所述文档集合通过聚类算法确定所述第二文档的第二类别。

可选地，所述第一类别包括第一类别集合，所述第二类别包括第一类别集合，所述第一类别集合包括至少一个第一子类别，所述第二类别集合包括至少一个第二子类别；

相应的，所述第一类别与所述第二类别相同包括：

所述第一类别集合为所述第二类别集合的子集；或，

所述第二类别集合为所述第一类别集合的子集。

本发明的第二方面提供了一种视频搜索方法，包括：

接收第一关键词；

向服务器发送第一关键词，以使得所述服务器根据所述第一关键词确定至少一个第二关键词，其中所述第一关键词属于第一文档，第二关键词属于第二文档，所述第一文档对应于第一类别，所述第二文档对应于第二类别，所述第一类别与所述第二类别相同；

接收所述目标视频列表，其中所述目标视频列表包括多个目标视频链接，每个所述目标视频链接与所述第一文档或至少一个所述第二文档相对应。

本发明的第三方面提供了一种服务器，包括：

接收模块，用于接收第一关键词；

处理模块，用于根据所述第一关键词确定至少一个第二关键词，其中所述第一关键词属于第一文档，第二关键词属于第二文档，所述第一文档对应于第一类别，所述第二文档对应于第二类别，所述第一类别与所述第二类别相同；

确定模块，用于确定目标视频列表，其中所述目标视频列表包括多个目标视频链接，每个所述目标视频链接与所述第一文档或所述第二文档相对应；

发送模块，用于向客户端发送所述目标视频列表。

本发明的第四方面提供了一种服务器，包括：处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述任一项视频搜索方法。

本发明的第五方面提供了一种客户端，包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述文档搜索方法。

本发明的第六方面提供了一种视频搜索系统，所述视频搜索系统包括服务器以及客户端；

接收第一关键词；

向客户端发送所述目标视频列表。

本发明的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明中提供了一种视频搜索方法，首先由服务器接收第一关键词；根据所述第一关键词确定至少一个第二关键词，其中所述第一关键词属于第一文档，第二关键词属于第二文档，所述第一文档对应于第一类别，所述第二文档对应于第二类别，所述第一类别与所述第二类别相同；确定目标视频列表，其中所述目标视频列表包括多个目标视频链接，每个所述目标视频链接与所述第一文档或所述第二文档相对应；向客户端发送所述目标视频列表。通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

附图说明

图1为本发明中一种视频搜索方法的一个实施例的流程示意图；

图2为本发明中一种视频搜索方法的另一个实施例的流程示意图；

图3为本发明中服务器的一个实施例的结构示意图；

图4为本发明中服务器的一个实施例的结构示意图；

图5为本发明中客户端的一个实施例的结构示意图；

图6为本发明中一种视频搜索系统的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种视频搜索方法、服务器、客户端及存储介质，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先介绍一下本申请实施例应用的场景，本申请实施例可以应用在多个客户端与服务器交互的架构中，其中一个服务器可以同时与多个客户端交互，一个客户端可以发送一个关键词到服务器，服务器通过遍历数据库查询与关键词相关的视频列表，并将该视频列表发送到客户端，客户端在接收到视频列表后可以通过点击视频列表中的一个视频链接来访问对应的视频。

下面将从服务器的角度，对本发明中文档搜索方法进行介绍，请参阅图1，本发明提供了一种视频搜索方法一个实施例，包括：

101、服务器接收第一关键词；

本实施例中，服务器在进行文档搜索时，首先需要接收第一关键词，具体的，服务器可以接收到客户端发送的第一关键词，具体的，用户首先可以通过诸如键盘、触摸屏、语音输入装置与客户端所在的用户设备进行交互，输入其希望搜索的信息，从而发起搜索。该搜索发起过程可以是用户首先通过用户设备的浏览器软件访问一些搜索网站，在该搜索网站首页的搜索栏中发起搜索；也可以在客户端的一些视频搜索软件的搜索栏中发起搜索。本领域技术人员应能理解本发明不限于上述两种搜索发起方式，任何已有的或今后可能出现的搜索发起方式均适用于本发明。

需要说明的是，用户设备可以包括但不限于，计算机、智能手机、PDA等任何具有上网浏览功能的设备。服务器可以包括但不限于，网络服务器、网络主机、云计算模式下的其他用户设备等可以提供搜索服务的任何设备，其中服务器可以包括集中各种功能的单个服务器，或由多个分别完成单独功能的物理分离的服务器的组合，例如执行搜索的服务器与保存索引信息的服务器相互分离。此外，用户设备与服务器之间的通信可以是基于诸如TCP/IP协议、UDP协议等的分组数据传输。但本领域技术人员应理解本发明不限于这两种通信传输协议。

本实施例中，示例性的，以在客户端的一些视频搜索软件的搜索栏中发起搜索的场景为例，当客户端的用户想查询和跳舞相关的视频时，用户可以在客户端的搜索栏中输入第一关键词“跳舞”，客户端所在的用户设备可以将包含第一关键词“跳舞”的搜索请求发送到服务器，在一种实施例中，可以将包含第一关键词“跳舞”的搜索请求封装为https请求消息并通过http或https协议发送到服务器。相应的，服务器可以实时监听并接收该搜索请求，之后解析并提取搜索请求中的第一关键词，相当于，服务器接收第一关键词“跳舞”。

102、服务器根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；

本实施例中，服务器在接收第一关键词后，需要根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同。

本实施例中，可以理解的，每一个视频可以包括一个对应的标题或文字介绍，服务器可以根据该视频对应的标题或文字介绍来获取该视频包含的信息，例如若视频A的视频标题为“小朋友在跳舞，台下的观众在鼓掌”，视频A的文字介绍为“A学校的小明在元旦晚会上跳街舞，各位小朋友的家长都到场了，看到小明的精彩表演，台下掌声雷动”，则“小朋友在跳舞，台下的观众在鼓掌”和“A学校的小明在元旦晚会上跳街舞，各位小朋友的家长都到场了，看到小明的精彩表演，台下掌声雷动”为该视频对应的文档信息。需要说明的是，以上的视频标题和文字介绍仅为一种示意，实际应用中与视频相对应的还可以是其他文档信息，这里并不限定。

本实施例中，第一关键词属于第一文档，相当于认为第一关键词与第一文档具有一定的关联，该关联可以是语义的关联，具体的，在上述的例子中，第一关键词“跳舞”属于第一文档“A学校的小明在元旦晚会上跳街舞，各位小朋友的家长都到场了，看到小明的精彩表演，台下掌声雷动”、“A学校的小明在元旦晚会上跳街舞，各位小朋友的家长都到场了，看到小明的精彩表演，台下掌声雷动”，相当于可以认为视频A与第一关键词相对应，换一种表述方式，可以认为该视频中的视频内容与第一关键词相关联。

本实施例中，大量视频的文档信息可以存储在服务器的索引库中，该索引库可以存储各个文档信息，以及与各种文档信息相对应的视频链接，每个视频链接对应有一个视频。该索引库由服务器维护，服务器可以实时更新索引库中包含的文档信息。

本实施例中，当客户端向服务器发送的搜索请求中携带有“跳舞”时，服务器可以在索引库中搜索包含该第一关键词“舞蹈”的文档信息，例如可以搜索到视频A对应的文档信息。

本实施例中，服务器可以根据第一关键词确定至少一个第二关键词，当客户端向服务器发送的搜索请求中携带有“跳舞”时，服务器可以在索引库中搜索包含该第一关键词“舞蹈”的文档信息，例如可以搜索到视频A对应的文档信息，若服务器只将视频A对应的视频链接发送到客户端，由于一个关键词通常包括多个语义意思相近的词，例如与第一关键词跳舞语义相近的词语可以有：“舞蹈”、“街舞”、“芭蕾舞”、“广场舞”等等，如果搜索引擎只能向客户端反馈包含用户输入的第一关键词“跳舞”的视频链接列表，则有可能使得用户的视频搜索结果较少，降低了用户的体验性。因此服务器可以根据第一关键词确定至少一个第二关键词，其中第一关键词和第二关键词的语音相近或相同。

在一种实施例中，第一关键词属于第一文档，第二关键词属于第二文档，由于服务器的索引库中可以包含大量文档信息，每个文档可以对应有一个类别，本实施例中，文档的“类别”可以是文档包含最多的几个关键词的集合，或者是通过无监督训练得到得类别，例如通过聚类算法得到的类别。

本实施例中，在短视频的应用场景中，由于每个视频对应的文档信息包括的文字数量比较少，即每个视频对应的文档信息包括的关键词比较少，如果第一文档的类别和第二文档的类别相同，则第一文档和第二文档包括的关键词之间很可能是相同或语义相似的。

本实施例中，服务器可以根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同，在短视频的应用场景中，若第一类别与第二类别相同，则可以认为第一关键词和第二关键词是语义相似或相同的关键词。

本实施例中，服务器可以将第一关键词以及与第一关键词语义相近的第二关键词之间的关联关系保存在一个数据库中，之后当客户端发送了一个第一关键词后，服务器可以在该数据库中很快遍历到与第一关键词语义相近的第二关键词。

103、确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或至少一个第二文档相对应；

本实施例中，在根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同之后，可以确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或至少一个第二文档相对应。

本实施例中，服务器可以确定目标视频列表，其中，目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应，每个目标视频链接对应有一个视频，而每个视频对应有一个视频链接，且每个视频对应有一个文档信息，因此每个目标视频链接与第一文档或第二文档相对应。

104、向客户端发送目标视频列表；

本实施例中，服务器在确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应之后，可以向客户端发送目标视频列表。

其次，本发明实施例中，服务器接收第一关键词；根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；向客户端发送目标视频列表。通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

进一步地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的视频搜索方法第二个可选实施例中，方法还包括：对第一文档进行分词得到第一分词集合，第一分词集合包括第二预设数量的第一分词；对第二文档进行分词得到第二分词集合，第二分词集合包括第三预设数量的第二分词。

本实施例中，可以通过分词算法对第一文档进行分词得到第一分词集合，通过分词算法对第二文档进行分词得到第二分词集合，其中分词算法可以有很多种，例如：n元语法分词、二元分词、最大匹配分词方法、基于统计或语义分析的分词方法，其中，n元语法分词是一种不需要词典的机械分词方法，实现容易。二元分词方法是将句子中任意出现的两个紧邻的字都分出来，建立倒排索引。最大匹配分词方法是一种按照最长词优先的原则匹配分词的方法。基于统计或语义分析的分词方法得到的结果不一定是全面的，但比较准确。需要说明的是，以上分词算法仅为一种示意，实际应用中可采用其他分词算法，这里并不限定。

本实施例中，对第一文档进行分词得到第一分词集合，第一分词集合包括第二预设数量的第一分词；对第二文档进行分词得到第二分词集合，第二分词集合包括第三预设数量的第二分词，其中第二预设数量和第三预设数量和第一文档以及第二文档的字数有关。

进一步地，方法还包括：确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，其中第一分词子集合中每个第一分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频；确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，其中第二分词子集合中每个第二分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频。

本实施例中，确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，本实施例中，当两个文档之间包括的关键词或分词是相同的，则可以认为两个文档是相似的，若两个文档之间是相似的，则其对应的视频内容也应该是相似的。

本实施例中，进一步的，为了提高文档之间相似度判别的准确性，可以确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，其中第一分词子集合中每个第一分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率(inverse document frequency，IDF)大于或等于第二预设词频，且第二分词子集合中每个第二分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频。即，不是将文档中的每一个分词选出来作为文档的特征，而是选取分词中具有代表性的词。

在一种实施例中，第一分词和第二分词满足：词频TF大于或等于第一预设词频，本实施例中，表示该分词在文档中的出现频率较高，可以作为文档的特征。其中词频(termfrequency，TF)表示分词在文档中出现的频率。

在另一种实施例中，第一分词和第二分词满足：逆向文件频率IDF大于或等于第二预设词频。需要说明的是，如果某个词或短语在一篇文档中出现的词频(term frequency，TF)高，并且在其他文档中很少出现，则认为此词或者短语具有很好的类别区分能力。IDF的主要思想是：如果包含某一个分词的文档越少，则IDF越大，则说明该分词具有很好的类别区分能力。如果某一类文档中包含该分词的文档数为m，而其它类包含该分词的文档总数为k，显然所有包含该分词的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个分词在一个类的文档中频繁出现，则说明该分词能够很好代表这个类的文本的特征，这样的分词应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

本实施例中，对第一文档进行分词得到第一分词集合，第一分词集合包括第二预设数量的第一分词；对第二文档进行分词得到第二分词集合，第二分词集合包括第三预设数量的第二分词；确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，其中第一分词子集合中每个第一分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频；确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，其中第二分词子集合中每个第二分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频。通过上述方法不是将文档中的每一个分词选出来作为文档的特征，而是选取分词中具有代表性的词，提高了文档之间类别判定的准确性。

进一步地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的视频搜索方法第三个可选实施例中，第一类别为第一分词子集合，第二类别为第二分词子集合；相应的，第一类别与第二类别相同包括：第一分词子集合为第二分词子集合的子集；或，第二分词子集合为第一分词子集合的子集。

本实施例中，在对第一文档进行分词得到第一分词集合，第一分词集合包括第二预设数量的第一分词；对第二文档进行分词得到第二分词集合，第二分词集合包括第三预设数量的第二分词，且确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，其中第一分词子集合中每个第一分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频；确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，其中第二分词子集合中每个第二分词满足如下条件中的至少一种：词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频的基础上，进一步限定了第一文档和第二文档之间类别相同的情况。

本实施例中，第一类别为第一分词子集合，第二类别为第二分词子集合，相当于将第一分词子集合作为第一文档的类别特征，将第二分词子集合作为第二文档的类别特征。相应的，第一类别与第二类别相同包括：第一分词子集合为第二分词子集合的子集；或，第二分词子集合为第一分词子集合的子集。在一种实施例中，若第一分词子集合和第二分词子集合包含的数量不同时，如果第一分词子集合为第二分词子集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同。如果第二分词子集合为第一分词子集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同。

本实施例中，可以理解的是，当第一分词子集合和第二分词子集合包含的数量相同时，同样的，第一类别与第二类别相同包括：第一分词子集合为第二分词子集合的子集或第二分词子集合为第一分词子集合的子集。

本实施例中，第一类别为第一分词子集合，第二类别为第二分词子集合；相应的，第一类别与第二类别相同包括：第一分词子集合为第二分词子集合的子集；或，第二分词子集合为第一分词子集合的子集，通过上述方式，当第一分词子集合和第二分词子集合包含的数量不同时可以通过判断第一分词子集合是否为第二分词子集合的子集，或第二分词子集合是否为第一分词子集合的子集来判断第一文档的第一类别与第二文档的第二类别相同，提升了方案的灵活性。

进一步地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的视频搜索方法第四个可选实施例中，方法还包括：通过相似哈希simhash算法确定第一文档的第一文档指纹信息；通过simhash算法确定第二文档的第二文档指纹信息；相应的，第一类别与第二类别相同包括：第一文档指纹信息与第二文档指纹信息相同。

本实施例中，通过相似哈希simhash算法确定第一文档的第一文档指纹信息；通过simhash算法确定第二文档的第二文档指纹信息，相当于将通过相似哈希simhash算法得到的第一文档指纹信息作为第一文档的类别特征，将通过相似哈希simhash算法得到的第二文档指纹信息作为第二文档的类别特征。

本实施例中，若第一文档指纹信息与第二文档指纹信息相同，则表示第一文档的类别特征与第二文档的类别特征相同，进而可以认为第一类别与第二类别相同。

本实施例中，通过相似哈希simhash算法确定第一文档的第一文档指纹信息；通过simhash算法确定第二文档的第二文档指纹信息；相应的，第一类别与第二类别相同包括：第一文档指纹信息与第二文档指纹信息相同。通过上述方式，若第一文档指纹信息与第二文档指纹信息相同，则表示第一文档的类别特征与第二文档的类别特征相同，进而可以认为第一类别与第二类别相同，提升了方案的灵活性。

进一步地，在上述图1对应的第一个实施例的基础上，本发明实施例提供的视频搜索方法第五个可选实施例中，方法还包括：获取第一预设数量的文档集合，文档集合包括第一文档和第二文档；根据文档集合通过聚类算法确定第一文档的第一类别；根据文档集合通过聚类算法确定第二文档的第二类别。

本实施例中，服务器可以获取第一预设数量的文档集合，具体的，服务器可以在预存的数据库中获取第一预设数量的文档集合。

本实施例中，根据文档集合通过聚类算法确定第一文档的第一类别；根据文档集合通过聚类算法确定第二文档的第二类别，相当于将通过聚类算法得到的第一类别作为第一文档的类别特征，将通过聚类算法得到的第二类别作为第二文档的类别特征。

本实施例中的聚类算法可以是：K-Means聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测聚类等，实际应用中可按照需求选择，这里不做限定。

本实施例中，若第一类别与第二类别相同，则表示第一文档的类别特征与第二文档的类别特征相同，进而可以认为第一文档和第二文档是属于同一类别的文档。

本实施例中，获取第一预设数量的文档集合，文档集合包括第一文档和第二文档；根据文档集合通过聚类算法确定第一文档的第一类别；根据文档集合通过聚类算法确定第二文档的第二类别。通过上述方式，若第一类别与第二类别相同，则表示第一文档的类别特征与第二文档的类别特征相同，进而可以认为第一文档和第二文档是属于同一类别的文档，提升了方案的灵活性。

进一步地，在上述图1对应的第五个实施例的基础上，本发明实施例提供的视频搜索方法第六个可选实施例中，第一类别包括第一类别集合，第二类别包括第一类别集合，第一类别集合包括至少一个第一子类别，第二类别集合包括至少一个第二子类别；相应的，第一类别与第二类别相同包括：第一类别集合为第二类别集合的子集；或，第二类别集合为第一类别集合的子集。

本实施例中，通过聚类算法得到的第一类别可以包括第一类别集合，其中第一类别集合包括至少一个第一子类别，相当于得到了很多细分的子类别，比如，通过聚类算法得到第一文档的类别包括“运动”、“篮球”、“篮球场”。类似的，通过聚类算法得到的第二类别集合可以包括至少一个第二子类别，其中第二类别集合包括至少一个第二子类别。

本实施例中，根据文档集合通过聚类算法确定第一文档的第一类别，且第一类别集合包括至少一个第一子类别；根据文档集合通过聚类算法确定第二文档的第二类别，且第二类别集合包括至少一个第二子类别，相当于将通过聚类算法得到的第一类别集合作为第一文档的类别特征，将通过聚类算法得到的第二类别集合作为第二文档的类别特征。

在一种实施例中，若第一类别集合和第二类别集合包含的子类别数量不同时，如果第一类别集合为第二类别集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同。如果第二类别集合为第一类别集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同。

本实施例中，可以理解的是，当第一类别集合和第二类别集合包含的数量相同时，同样的，第一类别与第二类别相同包括：第一类别集合为第二类别集合的子集；或，第二类别集合为第一类别集合的子集。

本实施例中，第一类别包括第一类别集合，第二类别包括第一类别集合，第一类别集合包括至少一个第一子类别，第二类别集合包括至少一个第二子类别；相应的，第一类别与第二类别相同包括：第一类别集合为第二类别集合的子集；或，第二类别集合为第一类别集合的子集。若第一类别集合和第二类别集合包含的子类别数量不同时，如果第一类别集合为第二类别集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同。如果第二类别集合为第一类别集合的子集，则可以认为第一文档的类别特征与第二文档的类别特征具有一定的相关性，进而可以认为第一类别与第二类别相同提升了方案的灵活性。

接下来从客户端侧介绍本申请实施例提供的视频搜索方法，如图2所示，为本申请另一实施例的一种视频搜索方法流程示意图，主要包括如下步骤：

201、接收第一关键词；

本实施例中，用户首先可以通过诸如键盘、触摸屏、语音输入装置与客户端所在的用户设备进行交互，输入其希望搜索的信息(第一关键词)，从而发起搜索。该搜索发起过程可以是用户首先通过用户设备的浏览器软件访问一些搜索网站，在该搜索网站首页的搜索栏中发起搜索；也可以在客户端的一些视频搜索软件的搜索栏中发起搜索。本领域技术人员应能理解本发明不限于上述两种搜索发起方式，任何已有的或今后可能出现的搜索发起方式均适用于本发明。

本实施例中，用户在客户端输入了第一关键词，从客户端的角度相当于接收第一关键词。

202、向服务器发送第一关键词，以使得服务器根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；

203、接收目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或至少一个第二文档相对应；

本实施例中，服务器在确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应之后，可以向客户端发送目标视频列表。从客户端的角度来说，相当于接收目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或至少一个第二文档相对应。

本实施例中，首先客户端接收第一关键词；然后客户端向服务器发送第一关键词，以使得服务器根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；最后客户端接收目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或至少一个第二文档相对应。通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

下面对本发明中的服务器进行详细描述，请参阅图3，图3为本发明实施例中服务器一个实施例示意图，服务器30包括：

接收模块301，用于接收第一关键词；

处理模块302，用于根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；

确定模块303，用于确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；

发送模块304，用于向客户端发送目标视频列表。

本实施例中，接收模块301接收第一关键词；处理模块302根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；确定模块303确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；发送模块304向客户端发送目标视频列表。

本发明实施例中，提供了一种服务器，首先由服务器接收第一关键词；根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；向客户端发送目标视频列表。通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

进一步地，在上述图3所对应的实施例的基础上，本发明实施例提供的服务器30的另一实施例中，处理模块30还用于：

对第一文档进行分词得到第一分词集合，第一分词集合包括第二预设数量的第一分词；

对第二文档进行分词得到第二分词集合，第二分词集合包括第三预设数量的第二分词。

确定第一分词集合中的第一分词子集合，第一分词子集合包括第四预设数量的第一分词，其中第一分词子集合中每个第一分词满足如下条件中的至少一种：

词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频；

确定第二分词集合中的第二分词子集合，第二分词子集合包括第五预设数量的第二分词，其中第二分词子集合中每个第二分词满足如下条件中的至少一种：

词频TF大于或等于第一预设词频、或第一分词的逆向文件频率IDF大于或等于第二预设词频。

进一步地，在上述图3所对应的实施例的基础上，本发明实施例提供的服务器30的另一实施例中，第一类别为第一分词子集合，第二类别为第二分词子集合；

相应的，第一类别与第二类别相同包括：

第一分词子集合为第二分词子集合的子集；或，

第二分词子集合为第一分词子集合的子集。

通过相似哈希simhash算法确定第一文档的第一文档指纹信息；

通过simhash算法确定第二文档的第二文档指纹信息；

相应的，第一类别与第二类别相同包括：

第一文档指纹信息与第二文档指纹信息相同。

获取第一预设数量的文档集合，文档集合包括第一文档和第二文档；

根据文档集合通过聚类算法确定第一文档的第一类别；

根据文档集合通过聚类算法确定第二文档的第二类别。

进一步地，在上述图3所对应的实施例的基础上，本发明实施例提供的服务器30的另一实施例中，第一类别包括第一类别集合，第二类别包括第一类别集合，第一类别集合包括至少一个第一子类别，第二类别集合包括至少一个第二子类别；

相应的，第一类别与第二类别相同包括：

第一类别集合为第二类别集合的子集；或，

第二类别集合为第一类别集合的子集。

其次，本发明实施例中，提供了一种服务器，首先由服务器接收第一关键词；根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；向客户端发送目标视频列表。通过上述方式，服务器可以通过判断关键词对应的文档之间是否是同一个类别，来确定一个关键词包括的多个语义意思相近的词，增加了用户的视频搜索结果数量，提高了用户的体验性。

图4是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。

CPU 522用于执行如下步骤：

接收第一关键词；

根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同；

确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应；

向客户端发送目标视频列表。

进一步地，CPU 522还用于执行如下步骤：

进一步地，CPU 522还用于执行如下步骤：通过相似哈希simhash算法确定第一文档的第一文档指纹信息；

通过simhash算法确定第二文档的第二文档指纹信息；

相应的，第一类别与第二类别相同包括：

第一文档指纹信息与第二文档指纹信息相同。

进一步地，CPU 522还用于执行如下步骤：获取第一预设数量的文档集合，文档集合包括第一文档和第二文档；

根据文档集合通过聚类算法确定第一文档的第一类别；

根据文档集合通过聚类算法确定第二文档的第二类别。

本发明实施例还提供了一种客户端，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该客户端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明实施例中，该终端所包括的处理器680还具有以下功能：

接收第一关键词；

向客户端发送目标视频列表。

进一步地，处理器680还用于执行如下步骤：

进一步地，处理器680还用于执行如下步骤：通过相似哈希simhash算法确定第一文档的第一文档指纹信息；

通过simhash算法确定第二文档的第二文档指纹信息；

相应的，第一类别与第二类别相同包括：

第一文档指纹信息与第二文档指纹信息相同。

进一步地，处理器680还用于执行如下步骤：获取第一预设数量的文档集合，文档集合包括第一文档和第二文档；

根据文档集合通过聚类算法确定第一文档的第一类别；

根据文档集合通过聚类算法确定第二文档的第二类别。

请参阅图6，图6为本发明实施例中视频搜索系统的一个实施例示意图，如图所示，用户现场展示系统包括服务器701以及客户端702；

本实施例中，客户端702向服务器701发送第一关键词，服务器701根据第一关键词确定至少一个第二关键词，其中第一关键词属于第一文档，第二关键词属于第二文档，第一文档对应于第一类别，第二文档对应于第二类别，第一类别与第二类别相同，服务器701确定目标视频列表，其中目标视频列表包括多个目标视频链接，每个目标视频链接与第一文档或第二文档相对应，服务器701向客户端702发送目标视频列表。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例的一种视频搜索方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例的一种视频搜索方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频搜索方法，其特征在于，包括：

接收第一关键词；

向客户端发送所述目标视频列表。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第二文档进行分词得到第二分词集合，所述第二分词集合包括第三预设数量的第二分词。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第一类别为所述第一分词子集合，所述第二类别为所述第二分词子集合；

相应的，所述第一类别与所述第二类别相同包括：

所述第一分词子集合为所述第二分词子集合的子集；或，

所述第二分词子集合为所述第一分词子集合的子集。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述simhash算法确定所述第二文档的第二文档指纹信息；

相应的，所述所述第一类别与所述第二类别相同包括：

所述第一文档指纹信息与所述第二文档指纹信息相同。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述第一类别包括第一类别集合，所述第二类别包括第一类别集合，所述第一类别集合包括至少一个第一子类别，所述第二类别集合包括至少一个第二子类别；

相应的，所述第一类别与所述第二类别相同包括：

所述第一类别集合为所述第二类别集合的子集；或，

所述第二类别集合为所述第一类别集合的子集。

8.一种视频搜索方法，其特征在于，包括：

接收第一关键词；

9.一种服务器，其特征在于，包括：

接收模块，用于接收第一关键词；

发送模块，用于向客户端发送所述目标视频列表。

10.一种服务器，其特征在于，所述服务器包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的视频搜索方法。

11.一种客户端，其特征在于，所述服务器包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求8所述的文档搜索方法。

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。