CN106033417B - 视频搜索系列剧的排序方法和装置 - Google Patents

视频搜索系列剧的排序方法和装置 Download PDF

Info

Publication number
CN106033417B
CN106033417B CN201510103566.1A CN201510103566A CN106033417B CN 106033417 B CN106033417 B CN 106033417B CN 201510103566 A CN201510103566 A CN 201510103566A CN 106033417 B CN106033417 B CN 106033417B
Authority
CN
China
Prior art keywords
search
search results
seasons
series
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510103566.1A
Other languages
English (en)
Other versions
CN106033417A (zh
Inventor
马中团
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510103566.1A priority Critical patent/CN106033417B/zh
Publication of CN106033417A publication Critical patent/CN106033417A/zh
Application granted granted Critical
Publication of CN106033417B publication Critical patent/CN106033417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种视频搜索系列剧的排序方法和装置。所述方法包括以下步骤:获取包含视频名的搜索词;判断所述搜索词中是否包含季数和/或集数,若是,则获取与所述季数和/或集数匹配的搜索结果,将非首条搜索结果进行聚类处理,并将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条结果和排序后的非首条搜索结果合并在一起;若否,则获取与搜索词匹配的搜索结果,对搜索结果进行聚类处理,并将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序;对排序后的搜索结果进行调序;输出调序后的搜索结果。对搜索结果进行排序和调序,输出的搜索结果更加优化,方便快速查找所需结果,提高查找效率。

Description

视频搜索系列剧的排序方法和装置
技术领域
本发明涉及视频搜索领域,特别是涉及一种视频搜索系列剧的排序方法和装置。
背景技术
随着互联网技术的发展,网络信息飞速增长,导致网络上充斥着大量的冗余信息,用户为了在网络上搜索到所需要的信息,需要借助搜索引擎。搜索引擎是一种在网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理后,为用户提供互联网上的信息搜索服务。搜索引擎通常提供一个网页界面,让用户在客户端通过浏览器提交搜索内容,然后返回一个可能和用户输入的搜索内容相关的信息列表。
然而用户对搜索引擎的要求已不再满足于对文本进行搜索,还希望可以通过搜索引擎对视频进行搜索,进而产生了视频搜索服务。视频搜索作为一种垂直搜索业务,大部分搜索词是以视频名作为搜索主体来搜索相应的视频。对于典型的视频,比如电影、电视剧、动漫等,往往同一个视频存在多个不同系列的文档,比如电影可能有一部或多部续集,电视剧会分不同的季,同一季下面又分不同的集数。在这种情况下,单纯的视频名搜索会将所有这些属于不同季数或者不同集数的文档都召回,召回的文档展示较为混乱,不方便用户快速查找到所需的文档。
发明内容
基于此,有必要针对传统的视频搜索召回的文档展示较为混乱不方便快速查找所需文档的问题,提供一种视频搜索系列剧的排序方法和装置,能较为优化的输出搜索结果,方便快速查找所需结果。
一种视频搜索系列剧的排序方法,包括以下步骤:
获取包含视频名的搜索词;
判断所述搜索词中是否包含季数和/或集数,若是,则获取与所述季数和/或集数匹配的搜索结果,将非首条搜索结果进行聚类处理,并将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条结果和排序后的非首条搜索结果合并在一起;若否,则获取与搜索词匹配的搜索结果,对搜索结果进行聚类处理,并将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序;
对排序后的搜索结果进行调序;
输出调序后的搜索结果。
一种视频搜索系列剧的排序装置,包括:
获取模块,用于获取包含视频名的搜索词;
判断模块,用于判断所述搜索词中是否包含季数和/或集数;
搜索模块,用于当判断出所述搜索词中包含季数和/或集数时,获取与所述季数和/或集数匹配的搜索结果,以及当判断出所述搜索词中不包含季数和/或集数时,获取与搜索词匹配的搜索结果;
聚类模块,用于在获取与所述季数和/或集数匹配的搜索结果后,将非首条搜索结果进行聚类处理,以及在获取与搜索词匹配的搜索结果后,对搜索结果进行聚类处理;
排序模块,用于将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条结果和排序后的非首条搜索结果合并在一起,以及将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序;
调序模块,用于对排序后的搜索结果进行调序;
输出模块,用于输出调序后的搜索结果。
上述视频搜索系列剧的排序方法和装置,获取到包含视频名的搜索词,判断出搜索词中包含季数和/或集数,则获取与季数和/或集数匹配的搜索结果,对非首条搜索结果进行聚类和排序处理,以及对排序后的搜索结果进行调序,判断出搜索词不包含季数和/或集数,获取与搜索词匹配的搜索结果,对搜索结果进行聚类及排序处理,以及对排序后的搜索结果进行调序,然后输出调序后的搜索结果,对搜索结果进行排序和调序,输出的搜索结果更加优化,方便快速查找所需结果,提高查找效率。
附图说明
图1为一个实施例中视频搜索系列剧的排序方法的流程示意图;
图2为一个实施例中视频搜索系列剧的排序装置的结构框图;
图3为另一个实施例中视频搜索系列剧的排序装置的结构框图;
图4为能实现本发明实施例的一个计算机系统的模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中视频搜索系列剧的排序方法的流程示意图。如图1所示,该视频搜索系列剧的排序方法,包括以下步骤:
步骤102,获取包含视频名的搜索词。
本实施例中,该获取包含视频名的搜索词的步骤包括:获取搜索词;对该搜索词进行识别;识别出该搜索词与预先存储的视频的标题字段匹配,则表示该搜索词中包含视频名。
对搜索词进行切分、同义词及纠错和成分识别。对搜索词进行切分是指将搜索词按照词意分割成多个部分,例如搜索词为“越狱第2季第1集”则切分成“越狱”、“第2季”和“第1集”。同义词如2和二等。成分识别主要是根据视频的元数据,通过机器学习和统计等方法来判断,例如用户输入的搜索词为“英语”,而很多视频文档的语言字段出现“英语”,则判断“英语”的成分为“语音”,并采用相应的成分标识标记该搜索词。搜索词的成分可包括视频名、人名、类别、风格、语言等。人名可包括各种演员名称、角色名称等,例如搜索词中包括刘德华,进行成分识别得出“刘德华”的成分为“人名”。视频名可包括各种视频的名称,例如搜索词中包括越狱,进行成分识别得出“越狱”的成分为“视频名”。类别可包括预告片、正片、非正片等。风格可包括爱情、动作、喜剧、战争、记录等。语言可包括各种语言,例如英语、中文、韩语、日语等。可通过QRW基于离线的视频词典对搜索词进行成分识别。QRW是视频搜索的需求分析模块,用于对用户输入的搜索词进行分析和成分识别。
搜索词与预先存储的视频的标题字段匹配是指搜索词能够完全命中视频的标题字段或者搜索词命中视频的标题字段的一部分,并且其余部分为辅助信息。辅助信息可为“完整版”、“未删节版”等。搜索词与视频的标题字段匹配后,则表示该搜索词中包含视频名。
步骤104,判断该搜索词中是否包含季数和/或集数,若是,则执行步骤106,若否,则执行步骤108。
例如搜索词为“越狱第2季第3集”,则搜索词中包含季数2和集数3。搜索词为“越狱第2季”,则搜索词中包含季数。搜索词为“越狱”,则搜索词中不包含季数、集数中任意一种或两种组合。
步骤106,获取与该季数和/或集数匹配的搜索结果,将非首条搜索结果进行聚类处理,并将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条结果和排序后的非首条搜索结果合并在一起。
本实施例中,对搜索结果进行聚类处理包括对搜索结果中文档的属性字段进行分析,得到同一系列剧下不同季数的文档以及同一季数下不同集数的文档。
具体的,属性字段可包括标题字段、季数字段、集数字段、类型字段、语言字段、人名字段等中一种或多种。通过聚类算法对搜索结果进行聚类处理,聚类处理的目的是找出搜索结果中视频文档列表中隶属于同一系列剧的文档集合,例如搜索“破产姐妹”,搜索结果列表中包含破产姐妹的不同季数和不同集数的文档,还有和破产姐妹电视剧相关的文档,例如“破产姐妹xx行”,需要识别出所有不同季数的文档和不同集数的文档。聚类算法可采用k-means和策略结合的算法。
通过聚类算法对搜索结果中文档进行聚类处理的步骤包括:
(1)对文档的属性字段进行分析,输出结构化的文档描述,得到文档的标题。
例如对于破产姐妹第2季,得到的主标题为“破产姐妹”,季数字段为2;对于破产姐妹第2季花絮,得到的标题为“破产姐妹”,季数字段为2,类型为花絮。
(2)对同一标题下的文档,基于文档的时间、类型、风格、语言、人名、摘要描述等字段通过k-means算法进行聚类,得到同一标题下隶属于不同季数的文档。
通过人名字段可防止误分类,避免相同标题,但非同一部视频聚类在一起。
(3)通过策略区分正片、预告片、花絮等不同类型,支持前端页面展示同一系列剧的不同类型文档。
搜索词中包括越狱第2季第3集,首条搜索结果为“越狱第2季第3集”的文档,首条搜索结果不变,对其余的搜索结果进行聚类处理和排序处理。对同一系列剧按季数进行排序可采用由高到低进行排序,因系列剧的季数一般是按照数字从低到高命名,例如越狱第1季、第2季、第3季等。由高到低进行排序,即将最新的季数排在前面。对同一季数下的集数进行排序也可采用由高到低进行排序,例如越狱第1季第1集至13集,则将越狱第1季第13集、12集、11集,……,1集进行排序。然后将首条搜索结果和排序后的非首条搜索结果合并在一起,即将首条搜索结果添加到排序后的非首条搜索结果的最前面,得到排序后的搜索结果。
步骤108,获取与搜索词匹配的搜索结果,对搜索结果进行聚类处理,并将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序。
该对搜索结果进行聚类处理的步骤包括:对搜索结果中文档的属性字段进行分析,得到同一系列剧下不同季数的文档以及同一季数下不同集数的文档。
具体的,属性字段可包括标题字段、季数字段、集数字段、类型字段、语言字段等中一种或多种。通过聚类算法对搜索结果进行聚类处理,聚类处理的目的是找出搜索结果中视频文档列表中隶属于同一系列剧的文档集合,例如搜索“破产姐妹”,搜索结果列表中包含破产姐妹的不同季数和不同集数的文档,还有和破产姐妹电视剧相关的文档,例如“破产姐妹xx行”,需要识别出所有不同季数的文档和不同集数的文档。聚类算法可采用k-means和策略结合的算法。
对同一系列剧按季数进行排序可采用由高到低进行排序,因系列剧的季数一般是按照数字从低到高命名,例如越狱第1季、第2季、第3季等。由高到低进行排序,即将最新的季数排在前面。对同一季数下的集数进行排序也可采用由高到低进行排序,例如越狱第1季第1集至13集,则将越狱第1季第13集、12集、11集,……,1集进行排序。
步骤110,对排序后的搜索结果进行调序。
具体的,调序是指对排序后的搜索结果进行调整和修正。
本实施例中,该对排序后的搜索结果进行调序的步骤包括:结合调序参数对排序后的搜索结果进行调序。
具体的,调序参数包括文档类型、点击量和文本相关性等。文档类型可包括预告片、正片、花絮等。对预告片和花絮可做打压,避免预告片和花絮排首位。点击量越低的文档排序位置不应在首位。文本相关性是指系列剧调序的文档必须满足一定的文本相关性才可以进行调序,避免无关文档参与调序。
步骤112,输出调序后的搜索结果。
上述视频搜索系列剧的排序方法,获取到包含视频名的搜索词,判断出搜索词中包含季数和/或集数,则获取与季数和/或集数匹配的搜索结果,对非首条搜索结果进行聚类和排序处理,以及对排序后的搜索结果进行调序,判断出搜索词不包含季数和/或集数,获取与搜索词匹配的搜索结果,对搜索结果进行聚类及排序处理,以及对排序后的搜索结果进行调序,然后输出调序后的搜索结果,对搜索结果进行排序和调序,输出的搜索结果更加优化,方便快速查找所需结果,提高查找效率。
在一个实施例中,上述视频搜索系列剧的排序方法,在对搜索结果进行聚类处理的步骤之前,还包括:对搜索结果进行分析,判断该搜索结果中是否存在系列剧;若判断出该搜索结果中存在系列剧,则对搜索结果进行聚类处理;若判断出搜索结果不存在系列剧,则不需对搜索结果进行聚类处理。通过判断搜索结果中是否存在系列剧,存在系列剧时进行聚类处理,不存在时不进行聚类处理,可节省计算资源。
进一步的,对搜索结果进行分析,判断该搜索结果中是否存在系列剧的步骤包括:对搜索结果中文档的季数字段、集数字段进行分析,若存在季数字段值或者集数字段值不同,则表示该搜索结果中存在系列剧;若不存在季数字段值或者集数字段值不同,则表示该搜索结果中不存在系列剧。通过季数字段或集数字段判断是否为系列剧,计算简单。
在一个实施例中,上述视频搜索系列剧的排序方法还包括:获取搜索词,该搜索词不为视频名类搜索,则对搜索结果采用普通排序策略进行排序。该普通排序策略是指不考虑视频文档存在系列剧的特征,对各个文档按照调序参数进行排序,即按照文本相关性、点击量等进行排序。文本相关性越高、点击量越大排序的位置越靠前,否则排序的位置越靠后。
图2为一个实施例中视频搜索系列剧的排序装置的结构框图。如图2所示,该视频搜索系列剧的排序装置,包括获取模块210、判断模块220、搜索模块230、聚类模块240、排序模块250、调序模块260和输出模块270。其中:
获取模块210用于获取包含视频名的搜索词。
本实施例中,获取模块210还用于获取搜索词,并对该搜索词进行识别,以及识别出该搜索词与预先存储的视频的标题字段匹配,则表示该搜索词中包含视频名。
对搜索词进行切分、同义词及纠错和成分识别。对搜索词进行切分是指将搜索词按照词意分割成多个部分,例如搜索词为“越狱第2季第1集”则切分成“越狱”、“第2季”和“第1集”。同义词如2和二等。成分识别主要是根据视频的元数据,通过机器学习和统计等方法来判断,例如用户输入的搜索词为“英语”,而很多视频文档的语言字段出现“英语”,则判断“英语”的成分为“语音”,并采用相应的成分标识标记该搜索词。搜索词的成分可包括视频名、人名、类别、风格、语言等。人名可包括各种演员名称、角色名称等,例如搜索词中包括刘德华,进行成分识别得出“刘德华”的成分为“人名”。视频名可包括各种视频的名称,例如搜索词中包括越狱,进行成分识别得出“越狱”的成分为“视频名”。类别可包括预告片、正片、非正片等。风格可包括爱情、动作、喜剧、战争、记录等。语言可包括各种语言,例如英语、中文、韩语、日语等。可通过QRW基于离线的视频词典对搜索词进行成分识别。QRW是视频搜索的需求分析模块,用于对用户输入的搜索词进行分析和成分识别。
搜索词与预先存储的视频的标题字段匹配是指搜索词能够完全命中视频的标题字段或者搜索词命中视频的标题字段的一部分,并且其余部分为辅助信息。辅助信息可为“完整版”、“未删节版”等。搜索词与视频的标题字段匹配后,则表示该搜索词中包含视频名。
判断模块220用于判断该搜索词中是否包含季数和/或集数。例如搜索词为“越狱第2季第3集”,则搜索词中包含季数2和集数3。搜索词为“越狱第2季”,则搜索词中包含季数。搜索词为“越狱”,则搜索词中不包含季数、集数中任意一种或两种组合。
搜索模块230用于当判断出该搜索词中包含季数和/或集数时,获取与该季数和/或集数匹配的搜索结果,以及当判断出该搜索词中不包含季数和/或集数时,获取与搜索词匹配的搜索结果。
聚类模块240用于在获取与该季数和/或集数匹配的搜索结果后,将非首条搜索结果进行聚类处理,以及在获取与搜索词匹配的搜索结果后,对搜索结果进行聚类处理。
本实施例中,聚类模块240还用于对搜索结果中文档的属性字段进行分析,得到同一系列剧下不同季数的文档以及同一季数下不同集数的文档。
具体的,属性字段可包括标题字段、季数字段、集数字段、类型字段、语言字段、人名字段等中一种或多种。通过聚类算法对搜索结果进行聚类处理,聚类处理的目的是找出搜索结果中视频文档列表中隶属于同一系列剧的文档集合,例如搜索“破产姐妹”,搜索结果列表中包含破产姐妹的不同季数和不同集数的文档,还有和破产姐妹电视剧相关的文档,例如“破产姐妹xx行”,需要识别出所有不同季数的文档和不同集数的文档。聚类算法可采用k-means和策略结合的算法。
通过聚类算法对搜索结果中文档进行聚类处理的过程包括:
(1)对文档的属性字段进行分析,输出结构化的文档描述,得到文档的标题。
例如对于破产姐妹第2季,得到的主标题为“破产姐妹”,季数字段为2;对于破产姐妹第2季花絮,得到的标题为“破产姐妹”,季数字段为2,类型为花絮。
(2)对同一标题下的文档,基于文档的时间、类型、风格、语言、人名、摘要描述等字段通过k-means算法进行聚类,得到同一标题下隶属于不同季数的文档。
通过人名字段可防止误分类,避免相同标题,但非同一部视频聚类在一起。
(3)通过策略区分正片、预告片、花絮等不同类型,支持前端页面展示同一系列剧的不同类型文档。
搜索词中包括越狱第2季第3集,首条搜索结果为“越狱第2季第3集”的文档,首条搜索结果不变,对其余的搜索结果进行聚类处理和排序处理。对同一系列剧按季数进行排序可采用由高到低进行排序,因系列剧的季数一般是按照数字从低到高命名,例如越狱第1季、第2季、第3季等。由高到低进行排序,即将最新的季数排在前面。对同一季数下的集数进行排序也可采用由高到低进行排序,例如越狱第1季第1集至13集,则将越狱第1季第13集、12集、11集,……,1集进行排序。然后将首条搜索结果和排序后的非首条搜索结果合并在一起,即将首条搜索结果添加到排序后的非首条搜索结果的最前面,得到排序后的搜索结果。
排序模块250用于将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条结果和排序后的非首条搜索结果合并在一起,以及将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序。
调序模块260用于对排序后的搜索结果进行调序。
本实施例中,调序模块260还用于结合调序参数对排序后的搜索结果进行调序。该调序参数包括文档类型、点击量和文本相关性。具体的,调序参数包括文档类型、点击量和文本相关性等。文档类型可包括预告片、正片、花絮等。对预告片和花絮可做打压,避免预告片和花絮排首位。点击量越低的文档排序位置不应在首位。文本相关性是指系列剧调序的文档必须满足一定的文本相关性才可以进行调序,避免无关文档参与调序。
输出模块270用于输出调序后的搜索结果。
上述视频搜索系列剧的排序装置,获取到包含视频名的搜索词,判断出搜索词中包含季数和/或集数,则获取与季数和/或集数匹配的搜索结果,对非首条搜索结果进行聚类和排序处理,以及对排序后的搜索结果进行调序,判断出搜索词不包含季数和/或集数,获取与搜索词匹配的搜索结果,对搜索结果进行聚类及排序处理,以及对排序后的搜索结果进行调序,然后输出调序后的搜索结果,对搜索结果进行排序和调序,输出的搜索结果更加优化,方便快速查找所需结果,提高查找效率。
图3为另一个实施例中视频搜索系列剧的排序装置的结构框图。如图3所示,该视频搜索系列剧的排序装置,除了包括获取模块210、判断模块220、搜索模块230、聚类模块240、排序模块250、调序模块260和输出模块270,还包括识别模块280。其中:
识别模块280用于在对搜索结果进行聚类处理之前,对搜索结果进行分析,判断该搜索结果中是否存在系列剧。
该聚类模块240还用于若判断出该搜索结果中存在系列剧,则对搜索结果进行聚类处理若判断出该搜索结果中存在系列剧,则对搜索结果进行聚类处理;若判断出搜索结果不存在系列剧,则不需对搜索结果进行聚类处理。通过判断搜索结果中是否存在系列剧,存在系列剧时进行聚类处理,不存在时不进行聚类处理,可节省计算资源。
进一步的,识别模块280还用于对搜索结果中文档的季数字段、集数字段进行分析,若存在季数字段值或者集数字段值不同,则表示该搜索结果中存在系列剧;若不存在季数字段值或者集数字段值不同,则表示该搜索结果中不存在系列剧。通过季数字段或集数字段判断是否为系列剧,计算简单。
图4为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。
图4中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式机、笔记本、个人数字助理、智能电话、平板电脑、便携式媒体播放器、机顶盒等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图4所示,计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作系统和应用程序的主存储器。
计算机系统1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。显示设备1040和音频设备1060是用于体验多媒体内容的媒体设备。
计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。
计算机系统1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信系统中进行互联网访问。
应当指出的是,其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。例如,计算机系统1000可以包括能在短距离内交换数据的蓝牙单元,用于照相的图像传感器,以及用于测量加速度的加速计。
如上面详细描述的,适用于本发明的计算机系统1000能执行视频搜索系列剧的排序方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的视频搜索系列剧的排序方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种视频搜索系列剧的排序方法,包括以下步骤:
获取包含视频名的搜索词,根据视频的元数据对所述搜索词进行成分识别,得到所述搜索词对应的目标成分,所述搜索词对应的目标成分包括语言,当视频的语言字段出现所述搜索词,则判断所述搜索词的目标成分包括语言;
判断所述搜索词中是否包含季数和/或集数,若是,则获取与所述季数和/或集数匹配的搜索结果,将非首条搜索结果进行聚类处理,并将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条搜索结果添加到排序后的非首条搜索结果的最前面,得到排序后的搜索结果;若否,则获取与搜索词匹配的搜索结果,对搜索结果进行聚类处理,并将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,首条搜索结果为所述季数和/或集数对应的搜索结果,非首条搜索结果包括所述视频名对应的不同季数以及不同集数对应的搜索结果,所述搜索词匹配的搜索结果包括根据所述目标成分匹配得到的结果;
对排序后的搜索结果进行调序,所述对排序后的搜索结果进行调序包括:获取排序后的搜索结果对应的文档类型,对文档类型为预告片和花絮的搜索结果进行打压;
输出调序后的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述对排序后的搜索结果进行调序的步骤包括:
结合调序参数对排序后的搜索结果进行调序。
3.根据权利要求2所述的方法,其特征在于,所述调序参数包括文档类型、点击量和文本相关性。
4.根据权利要求1所述的方法,其特征在于,所述获取包含视频名的搜索词的步骤包括:
获取搜索词;
对所述搜索词进行识别;
识别出所述搜索词与预先存储的视频的标题字段匹配,则表示所述搜索词中包含视频名。
5.根据权利要求1所述的方法,其特征在于,所述对搜索结果进行聚类处理的步骤之前,所述方法还包括:
对搜索结果进行分析,判断所述搜索结果中是否存在系列剧;若判断出所述搜索结果中存在系列剧,则对搜索结果进行聚类处理。
6.根据权利要求5所述的方法,其特征在于,所述对搜索结果进行分析,判断所述搜索结果中是否存在系列剧的步骤包括:
对搜索结果中文档的季数字段、集数字段进行分析,若存在季数字段值或者集数字段值不同,则表示所述搜索结果中存在系列剧;若不存在季数字段值或者集数字段值不同,则表示所述搜索结果中不存在系列剧。
7.根据权利要求1所述的方法,其特征在于,所述对搜索结果进行聚类处理的步骤包括:
对搜索结果中文档的属性字段进行分析,得到同一系列剧下不同季数的文档以及同一季数下不同集数的文档。
8.一种视频搜索系列剧的排序装置,其特征在于,包括:
获取模块,用于获取包含视频名的搜索词,根据视频的元数据对所述搜索词进行成分识别,得到所述搜索词对应的目标成分,所述搜索词对应的目标成分包括语言,当视频的语言字段出现所述搜索词,则判断所述搜索词的目标成分包括语言;
判断模块,用于判断所述搜索词中是否包含季数和/或集数;
搜索模块,用于当判断出所述搜索词中包含季数和/或集数时,获取与所述季数和/或集数匹配的搜索结果,以及当判断出所述搜索词中不包含季数和/或集数时,获取与搜索词匹配的搜索结果;
聚类模块,用于在获取与所述季数和/或集数匹配的搜索结果后,将非首条搜索结果进行聚类处理,以及在获取与搜索词匹配的搜索结果后,对搜索结果进行聚类处理;
排序模块,用于将非首条搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,将首条搜索结果添加到排序后的非首条搜索结果的最前面,得到排序后的搜索结果,以及将搜索结果中同一系列剧按季数进行排序且对同一季数下的集数进行排序,首条搜索结果为所述季数和/或集数对应的搜索结果,非首条搜索结果包括所述视频名对应的不同季数以及不同集数对应的搜索结果,所述搜索词匹配的搜索结果包括根据所述目标成分匹配得到的结果;
调序模块,用于对排序后的搜索结果进行调序,所述对排序后的搜索结果进行调序包括:获取排序后的搜索结果对应的文档类型,对文档类型为预告片和花絮的搜索结果进行打压;
输出模块,用于输出调序后的搜索结果。
9.根据权利要求8所述的装置,其特征在于,所述调序模块还用于结合调序参数对排序后的搜索结果进行调序。
10.根据权利要求9所述的装置,其特征在于,所述调序参数包括文档类型、点击量和文本相关性。
11.根据权利要求8所述的装置,其特征在于,所述获取模块还用于获取搜索词,并对所述搜索词进行识别,以及识别出所述搜索词与预先存储的视频的标题字段匹配,则表示所述搜索词中包含视频名。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
识别模块,用于在对搜索结果进行聚类处理的步骤之前,对搜索结果进行分析,判断所述搜索结果中是否存在系列剧;
所述聚类模块还用于若判断出所述搜索结果中存在系列剧,则对搜索结果进行聚类处理。
13.根据权利要求12所述的装置,其特征在于,所述识别模块还用于对搜索结果中文档的季数字段、集数字段进行分析,若存在季数字段值或者集数字段值不同,则表示所述搜索结果中存在系列剧;若不存在季数字段值或者集数字段值不同,则表示所述搜索结果中不存在系列剧。
14.根据权利要求8所述的装置,其特征在于,所述聚类模块还用于对搜索结果中文档的属性字段进行分析,得到同一系列剧下不同季数的文档以及同一季数下不同集数的文档。
15.一种计算机系统,其特征在于,包括存储介质和处理器,所述存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述视频搜索系列剧的排序方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述视频搜索系列剧的排序方法的步骤。
CN201510103566.1A 2015-03-09 2015-03-09 视频搜索系列剧的排序方法和装置 Active CN106033417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510103566.1A CN106033417B (zh) 2015-03-09 2015-03-09 视频搜索系列剧的排序方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510103566.1A CN106033417B (zh) 2015-03-09 2015-03-09 视频搜索系列剧的排序方法和装置

Publications (2)

Publication Number Publication Date
CN106033417A CN106033417A (zh) 2016-10-19
CN106033417B true CN106033417B (zh) 2020-07-21

Family

ID=57150302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510103566.1A Active CN106033417B (zh) 2015-03-09 2015-03-09 视频搜索系列剧的排序方法和装置

Country Status (1)

Country Link
CN (1) CN106033417B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932245A (zh) * 2017-05-24 2018-12-04 合网络技术(北京)有限公司 视频搜索方法及装置
CN109543071A (zh) * 2018-11-27 2019-03-29 深圳创维数字技术有限公司 剧集关系建立方法、装置、设备及存储介质
CN111382364B (zh) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 处理信息的方法及装置
CN111405318B (zh) * 2020-03-24 2022-09-09 聚好看科技股份有限公司 视频展示方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339560A (zh) * 2008-08-11 2009-01-07 北京搜狗科技发展有限公司 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN102033923A (zh) * 2010-12-14 2011-04-27 百度时代网络技术(北京)有限公司 在线视频的搜索与展现方法及装置
CN102063476A (zh) * 2010-12-13 2011-05-18 百度时代网络技术(北京)有限公司 视频搜索方法及系统
CN103559286A (zh) * 2013-11-08 2014-02-05 北京奇虎科技有限公司 视频搜索结果的处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038814A1 (en) * 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities
CN100461183C (zh) * 2007-07-10 2009-02-11 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101324890A (zh) * 2008-07-25 2008-12-17 上海群视信息科技有限公司 一种互联网文内关键字广告的生成和投放方法
CN103699550B (zh) * 2012-09-27 2017-12-12 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
CN102880728B (zh) * 2012-10-31 2015-10-28 中国科学院自动化研究所 名人视频搜索结果个性化排序的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339560A (zh) * 2008-08-11 2009-01-07 北京搜狗科技发展有限公司 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN102063476A (zh) * 2010-12-13 2011-05-18 百度时代网络技术(北京)有限公司 视频搜索方法及系统
CN102033923A (zh) * 2010-12-14 2011-04-27 百度时代网络技术(北京)有限公司 在线视频的搜索与展现方法及装置
CN103559286A (zh) * 2013-11-08 2014-02-05 北京奇虎科技有限公司 视频搜索结果的处理方法及装置

Also Published As

Publication number Publication date
CN106033417A (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
US10977317B2 (en) Search result displaying method and apparatus
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
WO2017045443A1 (zh) 一种图像检索方法及系统
KR101659097B1 (ko) 복수의 저장된 디지털 이미지들을 탐색하기 위한 방법 및 장치
JP5984917B2 (ja) 提案される語を提供するための方法および装置
US8737817B1 (en) Music soundtrack recommendation engine for videos
US20180095980A1 (en) Method and system for displaying content relating to a subject matter of a displayed media program
US9195717B2 (en) Image result provisioning based on document classification
US20150278359A1 (en) Method and apparatus for generating a recommendation page
WO2015070673A1 (zh) 浏览器侧进行网络搜索的方法与浏览器
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
US8463785B2 (en) Method and system for generating search collection of query
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
US20130226559A1 (en) Apparatus and method for providing internet documents based on subject of interest to user
US20140379719A1 (en) System and method for tagging and searching documents
JP2013541793A (ja) マルチモード検索クエリー入力手法
WO2015051629A1 (zh) 图片排序方法及装置
WO2014206151A1 (en) System and method for tagging and searching documents
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
JP6185379B2 (ja) レコメンド装置およびレコメンド方法
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
US20230086735A1 (en) Systems and methods for retrieving videos using natural language description

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant