CN102063476B - 视频搜索方法及系统 - Google Patents

视频搜索方法及系统 Download PDF

Info

Publication number
CN102063476B
CN102063476B CN 201010600040 CN201010600040A CN102063476B CN 102063476 B CN102063476 B CN 102063476B CN 201010600040 CN201010600040 CN 201010600040 CN 201010600040 A CN201010600040 A CN 201010600040A CN 102063476 B CN102063476 B CN 102063476B
Authority
CN
China
Prior art keywords
video
works
search
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010600040
Other languages
English (en)
Other versions
CN102063476A (zh
Inventor
陈海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing small mutual Entertainment Technology Co., Ltd.
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd filed Critical Baidu com Times Technology Beijing Co Ltd
Priority to CN 201010600040 priority Critical patent/CN102063476B/zh
Publication of CN102063476A publication Critical patent/CN102063476A/zh
Application granted granted Critical
Publication of CN102063476B publication Critical patent/CN102063476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种视频搜索方法包括:获取作品信息,并建立作品信息数据库;将视频对象和作品ID进行映射;将所述作品信息数据库中的作品信息生成索引;接收搜索词;将所述搜索词在所述索引中进行搜索,并得到搜索结果;输出所述搜索结果。本发明的有益效果是:视频搜索方法或视频搜索系统,不仅可以在标题文本信息中搜索视频,还可在该视频的其他信息中进行搜索,搜索形式多样,搜索结果更易满足用户需求;同时,本发明还可无重复地、有序地将视频搜索结果通过结果中间页的形式展示给用户,提升搜索界面美感、提高用户搜索效率,另外,本发明在结果中间页中的搜索结果,还同时可以提供用户评分,以便用户快速了解该搜索结果的质量。

Description

视频搜索方法及系统
技术领域
本发明涉及搜索引擎技术,尤其涉及一种视频搜索方法及系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面,让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网页。
过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google.cn)。
随着网络技术的不断发展,用户对搜索引擎的要求已经不再满足于只是对文本的搜索,很多用户还希望可以通过搜索引擎对网络视频进行搜索。然而,在目前的视频搜索中,存在以下几个问题:
首先,用户在客户端通过浏览器软件提交搜索词后,其是通过该搜索词在视频标题中进行搜索,并返回搜索结果,即是:只能返回标题文本中包含所述搜索词的视频,例如:如图1所示,当用户在客户端通过浏览器软件提交“恐怖片”为搜索词后,通过搜索引擎的搜索,返回只有标题文本中包含“恐怖片”的视频,搜索形式单一;
其次,在现有技术中,用户在客户端通过浏览器软件提交搜索词后,搜索引擎会将各大视频网站的不同上传者的不同版本进行搜索并返回给用户,并不是以作品为单位去组织搜索结果,这样,会导致返回的搜索结果重复地、无序地出现,影响视觉。
另外,在现有技术中,对于视频的搜索结果,一般地只是展示出视频链接和视频图片,展现形式较为单一,不能使用户全方位的了解搜索结果的质量。
发明内容
本发明的目的在于提供一种改进的视频搜索方法,其不仅可以在标题文本信息中搜索视频,还可在视频作品信息中搜索视频,同时,本发明的视频搜索方法还可无重复地、有序地将视频搜索结果展示给用户。
本发明的目的还在于提供一种实现上述视频搜索方法的视频搜索系统。
为实现上述发明目的之一,本发明的一种视频搜索方法,包括以下步骤:
作品信息建构步骤:获取作品信息,并建立作品信息数据库;
视频对象分类步骤:将视频对象和作品ID进行映射;
索引生成步骤:将所述作品信息数据库中的作品信息生成索引;
接收搜索词步骤:接收搜索词;
搜索步骤:将所述搜索词在所述索引中进行搜索,并得到搜索结果;
搜索结果输出步骤:输出所述搜索结果。
作为本发明的进一步改进,所述作品信息建构步骤包括:
获取作品信息步骤:获取作品信息;
保存作品信息步骤:将所述作品信息存入所述作品信息数据库。
作为本发明的进一步改进,在所述获取作品信息步骤中是通过SPIDER定向从网络抓取所述作品信息。
作为本发明的进一步改进,所述视频对象分类步骤包括:
识别视频对象类型步骤:识别一个视频对象的类型;
提取作品名步骤:提取与所述视频对象对应的作品名;
匹配步骤:将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。
作为本发明的进一步改进,一个所述作品ID可映射到多个所述视频对象。
作为本发明的进一步改进,所述接收搜索词步骤包括:
接收用户输入的搜索词;
判断所述搜索词是否属于概括词;
若该搜索词为概括词,则进入搜索步骤。
作为本发明的进一步改进,所述接收搜索词步骤还包括:
若该搜索词为未概括词,则直接搜索视频对象。
作为本发明的进一步改进,所述搜索步骤包括:
去重步骤:将所述作品ID重复的视频对象统一为一部视频;
排序步骤:根据所述作品ID的属性进行排序。
作为本发明的进一步改进,所述作品ID的属性包括:所述作品ID的类型、时间、用户欢迎程度。
作为本发明的进一步改进,所述排序步骤还包括:
判断搜索词中是否包括含有时间定义的关键字;
若含有时间定义的关键字,则按照时间维度进行排序。
作为本发明的进一步改进,所述排序步骤还包括:
判断搜索词中是否包括含有时间定义的关键字;
若未含有时间定义的关键字,则按照类型进行排序。
作为本发明的进一步改进,在按照类型进行排序后,对同类型的视频,按照用户欢迎程度进行排序。
作为本发明的进一步改进,所述搜索结果输出步骤包括:
输出第一结果页面,在所述第一结果页面中包括至少一个视频集合;
接收到用户点击所述视频集合的信息;
输出第二结果页面。
作为本发明的进一步改进,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。
作为本发明的进一步改进,在第一结果页面中,可接收和展示用户对所述视频集合的评分信息。
作为本发明的进一步改进,所述作品信息数据库包含了作品ID与作品信息的对应关系。
作为本发明的进一步改进,所述作品信息包括:作品的类型、用户对作品的评分、时间、作品的导演、演员。
相应地,作为实现上述另一目的,本发明的一种视频搜索系统包括:
作品信息建构模块:用于获取作品信息,并建立作品信息数据库;
视频对象分类模块:用于将视频对象和作品ID进行映射;
索引生成模块:用于将所述作品信息数据库中的作品信息生成索引;
搜索模块:用于将搜索词在所述索引中进行搜索,并得到搜索结果;
数据交互模块:用于接收所述搜索词,以及输出所述搜索结果。
作为本发明的进一步改进,所述作品信息建构模块包括:
获取作品信息单元:用于获取作品信息;
作品信息数据库:用于储存所述作品信息。
作为本发明的进一步改进,在所述获取作品信息单元中是通过SPIDER定向从网络抓取所述作品信息。
作为本发明的进一步改进,所述视频对象分类模块包括:
识别视频对象类型单元:用于识别一个视频对象的类型;
提取作品名单元:用于提取与所述视频对象对应的作品名;
匹配单元:用于将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。
作为本发明的进一步改进,一个所述作品ID可映射到多个所述视频对象。
作为本发明的进一步改进,所述数据交互模块包括:
搜索词分析单元:用于接收搜索词;
搜索结果输出单元:用于输出所述搜索结果;
用户评分单元:用于接收用户对所述搜索结果的评分。
作为本发明的进一步改进,所述视频搜索系统还包括一评分数据库:用于存储用户对所述搜索结果的评分。
作为本发明的进一步改进,所述搜索结果输出单元还包括:
第一结果页面输出子单元:输出第一结果页面,在所述第一结果页面中包括至少一个视频集合;
第二结果页面输出子单元:在接收到用户点击所述视频集合的信息后,输出第二结果页面。
作为本发明的进一步改进,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。
作为本发明的进一步改进,所述搜索模块包括:
去重模块:用于将所述作品ID重复的视频对象统一为一部视频;
排序模块:用于根据所述作品ID的属性进行排序。
作为本发明的进一步改进,所述作品ID的属性包括:所述作品ID的类型、时间、用户欢迎程度。
作为本发明的进一步改进,所述作品信息数据库包含了作品ID与作品信息的对应关系。
作为本发明的进一步改进,所述作品信息包括:作品的类型、用户对作品的评分、时间、作品的导演、演员。
与现有技术相比,本发明的有益效果是:视频搜索方法或视频搜索系统,不仅可以在标题文本信息中搜索视频,还可在该视频的其他信息中进行搜索,搜索形式多样,搜索结果更易满足用户需求;同时,本发明还可无重复地、有序地将视频搜索结果通过结果中间页的形式展示给用户,提升搜索界面美感、提高用户搜索效率,另外,本发明在结果中间页中的搜索结果,还同时可以提供用户评分,以便用户快速了解该搜索结果的质量。
附图说明
图1是现有技术中视频搜索结果页面;
图2是本发明视频搜索系统与客户端实现互动的工作原理图;
图3是本发明视频搜索系统一实施方式的模块图;
图4是本发明作品信息建构模块包括的单元图;
图5是本发明视频对象分类模块包括的单元图;
图6是本发明数据交互模块包括的单元图;
图7是本发明搜索结果输出单元包括的子单元图;
图8是本发明搜索结果中间页的网页示意图;
图9是本发明搜索结果最终页的网页示意图;
图10是本发明搜索模块包括的单元图;
图11是本发明视频搜索方法一实施方式的流程图;
图12是本发明作品信息建构步骤的流程图;
图13是本发明视频对象分类步骤的流程图;
图14是本发明接收搜索词步骤的流程图;
图15是本发明搜索步骤的流程图;
图16是本发明搜索结果输出步骤的流程图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
图2所示的本发明的视频搜索系统10与客户端20实现互动的工作原理图。本实施方式中,该客户端20包括一人机界面(UI)201,客户可通过该人机界面输入待搜索信息,一般的,该人机界面为一打开搜索引擎网页的浏览器,该输入的待搜索信息为文本信息,当然,该待搜索信息还可以为图片信息、视频信息等等。所述视频搜索系统10通过该人机界面201接收客户输入的待搜索信息,并对该待搜索信息进行搜索后,将搜索结果返回至该人机界面201。其中,该视频搜索系统10可以包括一台或多台服务器,该客户端20可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处理(PDA)、或其它计算机系统和通信系统。
这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口之间可通过有线连接、无线连接、或光连接连接到网络中,使视频搜索系统10、客户端20间能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络如公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。
服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统软件,以及用来实现特定功能模块的应用软件。如图3所示,所述视频搜索系统10包括作品信息建构模块101、视频对象(OBJ)分类模块103、索引生成模块105、、数据交互模块107、评分数据库108、搜索模块109。
作品信息建构模块101,用于获取作品信息,并建立作品信息数据库。如图4所示,该作品信息建构模块101包括一作品信息获取单元1011和一作品信息数据库1012。该作品信息获取单元1011即可通过SPIDER定向从网络抓取,也可以从内部服务器中获取作品信息,所述作品信息包括:作品的类型(恐怖片,喜剧片……)用户对作品的评分、用户点击次数、时间、作品的导演、演员等。在获取该作品信息后,将其存入所述作品信息数据库1012。
视频对象分类模块103是用于将视频对象和作品ID进行映射。一般地,一个作品ID对应到的视频应该是唯一的一部作品,通过作品ID可以在所述作品信息数据库1012中查询到该作品的详细信息。值得一提的是:一个作品ID可映射到多个视频对象,因为每个作品都有可能对应到多个站点的多个版本,即多个视频对象,在这些版本中,虽然视频对象不同,但其视频实质内容是相同的,这样做的目的是可用作品ID统一多个站点中的多个版本的作品,以便在接下来的搜索模块109和数据交互模块107中搜索和输出时,可过滤掉内容相同而视频对象不同的视频,以作品ID的形式进行搜索并输出。需要说明的是:视频对象是视频搜索系统索引到的一个视频播放页面的对象,如通过搜索词搜索到每一个可以点击播放的视频结果都是一个视频对象,其可以用一个播放URL来代表。
如图5所示,所述视频对象分类模块103还包括以下单元:
识别视频类型单元1031:用于识别一个视频对象的类型。该类型可包括电影、歌曲、电视剧、电视节目等,其识别的主要手段是通过利用视频对象的各种信息特征,如文本特征(title、tag、comment、播放页上的导航、频道信息灯等)、视频的属性特征(时长等)来进行识别。具体的讲,可先选定每个类型的样本,再提取这些样本的各种信息特征来训练一个支持向量机(SVM)分类模型(该支持向量机具体可参百度百科:http://baike.baidu.com/view/960509.htm,在此不再赘述),最后通过这个分类模型对每个输入的视频对象进行分类,从而得到视频对象的类型,其中支持向量机分类模型的训练方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
提取作品名单元1032:用于提取与所述视频对象对应的作品名。在本发明最佳实施方式中,该提取作品名单元1032主要是对电影、电视剧等类型的数据,尝试去提取其作品名。作品名的提取,要依赖于作品信息数据库中提供的各种作品名,是一个在视频title中进行直接子串查找的过程。为了提高作品名提取的准确率,会应用作品名在title中的长度比不能过小,出现多个作品名则提取失败等等策略,在本发明中不再赘述。
匹配单元1033:用于在有视频对象对应的作品名之后,直接和作品信息数据库中的视频进行匹配,获取作品ID,这样即可完成视频对象到作品ID的映射。
索引生成模块105用于将所述作品信息数据库中的作品信息生成倒排索引。其中,通过作品信息生成的索引可不单单只是针对视频的标题,而包括了作品类型、用户对作品的评分、时间、作品导演、演员等多维度的信息,在用户通过搜索词对该索引进行搜索时,该搜索词可在所述的作品信息进行搜索,只要该作品信息中包括了该搜索词的视频,均可作为搜索结果向用户展示,以丰富用户搜索形式,满足用户需求。需要说明的是:作品信息数据库中的内容,可以每隔一段时间dump出来一份完整的数据。需要使用作品信息数据的应用方,直接下载该数据后,以字典的方式直接加载到内存中进行使用。该作品信息数据库的利用方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
数据交互模块107用于接收用户在客户端20的人机界面中输入的搜索词,并在下述搜索模块109中对该搜索词搜索完成后,将搜索结果发送至客户端20的人机界面201。其中,如图6所示,所述数据交互模块107包括搜索词分析单元1071、用户评分单元1072、搜索结果输出单元1073。
搜索词分析单元1071可接收用户输入的搜索词,并对该搜索词进行分析,判断该搜索词是否属于概括词。其中,在本发明一实施方式中,判断该搜索词是否属于概括词,是通过查表方式:首先,数据库中存储有“电影、电视剧、美剧”等影视作品的需求词表,以及“具体的电影名或者电视剧名”的名称表;其次,判断该搜索词是否包含“电影、电视剧、美剧”等影视作品的需求词,若包含,则判断该搜索词中是否包含具体的电影名或者电视剧名,如果不包含,即判断这个词是概括词。举例说明:若该搜索词为“赌圣”,则判断该搜索词并非概括词,若该搜索词为“喜剧片”则判断该搜索词为概括词,若该搜索词为概括词,则以本发明作品ID的形式进行搜索;若该搜索词为未概括词,则直接以现有技术中针对视频对象的形式进行搜索,对于现有技术中针对视频对象的形式进行搜索的方法及系统,本领域普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
用户评分单元1072可接收用于在客户端20人机界面201上对搜索结果中作品ID的评分,该用户评分单元1072连接一评分数据库108,并将用户对作品ID的评分存储至评分数据库108中,以供在下述搜索模块109对搜索结果进行排序时使用。
搜索结果输出单元1073用于将搜索结果发送至客户端20的人机界面201上,供用户查看。其中,如图7所示,该搜索结果输出单元1073还包括第一结果页面输出子单元10731和第二结果页面输出子单元10732。所述第一结果页面输出子单元10731向客户端20的人机界面201输出一搜索结果中间页,举例说明:如图8所示,在人机界面201中输入“喜剧片”这种概括词,则先返回搜索结果中间页,该搜索结果中间页包括一个或多个与用户搜索相关的视频集合107311,即是以作品ID为形式的集合,当用户在客户端20人机界面201中点击该视频集合107311后,即是所述搜索结果输出单元1073接收到用户指令,例如点击“赌圣”后,如图9所示,所述第二结果页面输出子单元10732即向客户端20的人机界面201输出搜索结果最终页,该搜索结果最终页包括了一个或多个与该视频集合107311相关的视频对象107321,需要说明的是:当点击视频集合107311后,即会将所述视频集合107311的名称作为搜索词对视频对象进行搜索,该搜索方法是本领域普通技术人员根据现有技术可熟练掌握的,在此不再赘述。
值得一提的是:该用户评分单元1072是对作品ID进行评分,即是对第一结果页面输出子单元10731中输出的视频集合107311结果进行评分,该第一结果页面输出子单元10731输出的第一结果页面也会将所述评分展示。
搜索模块109用于将用户的搜索词在所述索引生成模块105中生成的倒排索引进行搜索,并将该搜索结果发送至数据交互模块107,以便通过该数据交互模块107将该搜索结果发送至客户端20的人机界面201。所述搜索模块109还包括一去重单元1091和一排序单元1093。
如图10所示,该去重单元1091是用于将作品ID重复的视频对象统一为一部作品,通过所述去重单元1091可无重复地、有序地将视频搜索结果通过结果中间页的形式展示给用户,提升搜索界面美感、提高用户搜索效率;该排序单元1053是用于根据作品ID的类型、时间、用户欢迎程度等进行排序并展示。其中,用户欢迎程度可通过在上述评分数据库108中获取。需要说明的是:对于作品ID的类型、时间、用户欢迎程度等进行排序时,时间维度相对特殊,如果用户的搜索词中包含“最新”、“2009”等可对时间定义的关键词,则会优先按时间维度进行排序,否则则以类型和用户欢迎程度优先进行排序,该排序方法会在下述中结合附图详细说明。
如图11所示,在本发明的视频搜索方法一实施方式中,包括以下步骤:
作品信息建构步骤S1,获取作品信息,并建立作品信息数据库。
视频对象分类步骤S2:将视频对象和作品ID进行映射。一般地,一个作品ID对应到的视频应该是唯一的一部作品,通过作品ID可以在所述作品信息数据库1012中查询到该作品的详细信息。值得一提的是:一个作品ID可映射到多个视频对象,因为每个作品都有可能对应到多个站点的多个版本,即多个视频对象,在这些版本中,虽然视频对象不同,但其视频实质内容是相同的,这样做的目的是可用作品ID统一多个站点中的多个版本的作品,以便在接下来的搜索步骤和数据交互模块步骤中搜索和输出时,可过滤掉内容相同而视频对象不同的视频,以作品ID的形式进行搜索并输出。需要说明的是:视频对象是视频搜索系统索引到的一个视频播放页面的对象,如通过搜索词搜索到每一个可以点击播放的视频结果都是一个视频对象,其可以用一个播放URL来代表。
索引生成步骤S3:将所述作品信息数据库中的作品信息生成倒排索引。其中,通过作品信息生成的索引可不单单只是针对视频的标题,而包括了作品类型、用户对作品的评分、时间、作品导演、演员等多维度的信息,在用户通过搜索词对该索引进行搜索时,该搜索词可在所述的作品信息进行搜索,只要该作品信息中包括了该搜索词的视频,均可作为搜索结果向用户展示,以丰富用户搜索形式,满足用户需求。需要说明的是:作品信息数据库中的内容,可以每隔一段时间dump出来一份完整的数据。需要使用作品信息数据的应用方,直接下载该数据后,以字典的方式直接加载到内存中进行使用。该作品信息数据库的利用方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
接收搜索词步骤S4:接收用户在客户端20的人机界面201中输入的搜索词。
搜索步骤S5:用于将用户的搜索词在所述倒排索引进行搜索,得到搜索结果。
搜索结果输出步骤S6:将搜索结果发送至客户端20的人机界面201。
如图12所示,在本发明中,所述作品信息建构步骤S1包括:
获取作品信息步骤S11、通过SPIDER定向从网络抓取,或直接从内部服务器中获取所述作品信息,所述作品信息包括:作品的类型(恐怖片,喜剧片……)用户对作品的评分、用户点击次数、时间、作品的导演、演员等。
保存作品信息步骤S12、将所述作品信息存入所述作品信息数据库。
如图13所示,在本发明中,所述视频对象分类步骤S2包括:
识别视频对象类型步骤S21:识别一个视频对象的类型。该类型可包括电影、歌曲、电视剧、电视节目等,其识别的主要手段是通过利用视频对象的各种信息特征,如文本特征(title、tag、comment、播放页上的导航、频道信息灯等)、视频的属性特征(时长等)来进行识别。具体的讲,可先选定每个类型的样本,再提取这些样本的各种信息特征来训练一个支持向量机(SVM)分类模型(该支持向量机具体可参百度百科:http://baike.baidu.com/view/960509.htm,在此不再赘述),最后通过这个分类模型对每个输入的视频对象进行分类,从而得到视频对象的类型,其中支持向量机分类模型的训练方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
提取作品名步骤S22:提取与所述视频对象对应的作品名。在本发明最佳实施方式中,该提取作品名单元1032主要是对电影、电视剧等类型的数据,尝试去提取其作品名。作品名的提取,要依赖于作品信息数据库中提供的各种作品名,是一个在视频title中进行直接子串查找的过程。为了提高作品名提取的准确率,会应用作品名在title中的长度比不能过小,出现多个作品名则提取失败等等策略,在本发明中不再赘述。
匹配步骤S23:在有视频对象对应的作品名之后,直接和作品信息数据库中的视频进行匹配,获取作品ID,这样即可完成视频对象到作品ID的映射。
如图14所示,在本发明中,所述接收搜索词步骤S4包括:
S41、接收用户输入的搜索词;
S42、对该搜索词进行分析,判断该搜索词是否属于概括词,其中,在本发明一实施方式中,判断该搜索词是否属于概括词,是通过查表方式:首先,数据库中存储有“电影、电视剧、美剧”等影视作品的需求词表,以及“具体的电影名或者电视剧名”的名称表;其次,判断该搜索词是否包含“电影、电视剧、美剧”等影视作品的需求词,若包含,则判断该搜索词中是否包含具体的电影名或者电视剧名,如果不包含,即判断这个词是概括词,举例说明:若该搜索词为“赌圣”,则判断该搜索词并非概括词,若该搜索词为“喜剧片”则判断该搜索词为概括词;
若该搜索词为概括词,则进入搜索步骤S5,搜索作品ID;
若该搜索词为未概括词,则直接以现有技术中针对视频对象的形式,搜索视频对象S43。
如图15所示,在本发明中,所述搜索步骤S5还包括以下步骤:
去重步骤S51:将作品ID重复的视频对象统一为一部视频;
排序步骤S52:根据作品ID的类型、时间、用户欢迎程度等进行排序。
需要说明的是:在所述排序步骤S52中还包括:
S521、判断搜索词中是否包括含有时间定义的关键字,如“最近”、“2009”等含有时间定义的关键字;
若含有时间定义的关键字,则执行S522、S523、S524步骤;若未含有时间定义的关键字,则执行S523、S524步骤;
S522、按照时间维度进行排序,
S523、按照类型进行排序;
S524、在同类型中,按照用户欢迎程度进行排序。
如图16所示,在本发明中,所述搜索结果输出步骤S6包括:
S61、输出第一结果页面,在所述第一结果页面中包括至少一个视频集合;
S62、接收到用户点击所述视频集合的信息;
S63、输出第二结果页面,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (24)

1.一种视频搜索方法,其特征在于,所述视频搜索方法包括以下步骤:
作品信息建构步骤:获取作品信息,并建立作品信息数据库;
视频对象分类步骤:将视频对象和作品ID进行映射;
索引生成步骤:将所述作品信息数据库中的作品信息生成索引;
接收搜索词步骤:接收搜索词;
搜索步骤:将所述搜索词在所述索引中进行搜索,并得到搜索结果;
搜索结果输出步骤:输出所述搜索结果;
其中,所述接收搜索词步骤包括:接收用户输入的搜索词,判断所述搜索词是否属于概括词,
如果是,则进入搜索步骤;在所述搜索结果输出步骤,首先输出第一结果页面,所述第一结果页面中包括至少一个视频集合;进一步根据用户对视频集合的点击,将该视频集合的名称作为搜索词对视频对象进行搜索,输出第二结果页面,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。
2.根据权利要求1所述的视频搜索方法,其特征在于,所述作品信息建构步骤包括:
获取作品信息步骤:获取作品信息;
保存作品信息步骤:将所述作品信息存入所述作品信息数据库。
3.根据权利要求2所述的视频搜索方法,其特征在于,在所述获取作品信息步骤中是通过SPIDER定向从网络抓取所述作品信息。
4.根据权利要求1所述的视频搜索方法,其特征在于,所述视频对象分类步骤包括:
识别视频对象类型步骤:识别一个视频对象的类型;
提取作品名步骤:提取与所述视频对象对应的作品名;
匹配步骤:将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。
5.根据权利要求4所述的视频搜索方法,其特征在于,一个所述作品ID可映射到多个所述视频对象。
6.根据权利要求1所述的视频搜索方法,其特征在于,所述接收搜索词步骤还包括:
若该搜索词为未概括词,则直接搜索视频对象。
7.根据权利要求1所述的视频搜索方法,其特征在于,所述搜索步骤包括:
去重步骤:将所述作品ID重复的视频对象统一为一部视频;
排序步骤:根据所述作品ID的属性进行排序。
8.根据权利要求7所述的视频搜索方法,其特征在于,所述作品ID的属性包括:所述作品ID的类型、时间、用户欢迎程度。
9.根据权利要求7所述的视频搜索方法,其特征在于,所述排序步骤还包括:
判断搜索词中是否包括含有时间定义的关键字;
若含有时间定义的关键字,则按照时间维度进行排序。
10.根据权利要求7或9所述的视频搜索方法,其特征在于,所述排序步骤还包括:
判断搜索词中是否包括含有时间定义的关键字;
若未含有时间定义的关键字,则按照类型进行排序。
11.根据权利要求10所述的视频搜索方法,其特征在于,在按照类型进行排序后,对同类型的视频,按照用户欢迎程度进行排序。
12.根据权利要求1所述的视频搜索方法,其特征在于,在第一结果页面中,可接收和展示用户对所述视频集合的评分信息。
13.根据权利要求1所述的视频搜索方法,其特征在于,所述作品信息数据库包含了作品ID与作品信息的对应关系。
14.根据权利要求13所述的视频搜索方法,其特征在于,所述作品信息包括:作品的类型、用户对作品的评分、时间、作品的导演、演员。
15.一种视频搜索系统,其特征在于,所述视频搜索系统包括:
作品信息建构模块:用于获取作品信息,并建立作品信息数据库;
视频对象分类模块:用于将视频对象和作品ID进行映射;
索引生成模块:用于将所述作品信息数据库中的作品信息生成索引;
搜索模块:用于将搜索词在所述索引中进行搜索,并得到搜索结果;
数据交互模块:用于接收所述搜索词,以及输出所述搜索结果;
其中,所述数据交互模块包括:
搜索词分析单元:用于接收用户输入的搜索词,判断所述搜索词是否属于概括词,如果是,则触发所述搜索模块在所述索引中进行搜索,并得到搜索结果;
搜索结果输出单元:用于输出所述搜索结果:首先输出第一结果页面,所述第一结果页面中包括至少一个视频集合;进一步根据用户对视频集合的点击,将该视频集合的名称作为搜索词对视频对象进行搜索,输出第二结果页面,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。
16.根据权利要求15所述的视频搜索系统,其特征在于,所述作品信息建构模块包括:
获取作品信息单元:用于获取作品信息;
作品信息数据库:用于储存所述作品信息。
17.根据权利要求16所述的视频搜索系统,其特征在于,在所述获取作品信息单元中是通过SPIDER定向从网络抓取所述作品信息。
18.根据权利要求15所述的视频搜索系统,其特征在于,所述视频对象分类模块包括:
识别视频对象类型单元:用于识别一个视频对象的类型;
提取作品名单元:用于提取与所述视频对象对应的作品名;
匹配单元:用于将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。
19.根据权利要求15所述的视频搜索系统,其特征在于,一个所述作品ID可映射到多个所述视频对象。
20.根据权利要求15所述的视频搜索系统,其特征在于,所述视频搜索系统还包括一评分数据库:用于存储用户对所述搜索结果的评分。
21.根据权利要求15所述的视频搜索系统,其特征在于,所述搜索模块包括:
去重模块:用于将所述作品ID重复的视频对象统一为一部视频;
排序模块:用于根据所述作品ID的属性进行排序。
22.根据权利要求21所述的视频搜索系统,其特征在于,所述作品ID的属性包括:所述作品ID的类型、时间、用户欢迎程度。
23.根据权利要求15所述的视频搜索系统,其特征在于,所述作品信息数据库包含了作品ID与作品信息的对应关系。
24.根据权利要求23所述的视频搜索系统,其特征在于,所述作品信息包括:作品的类型、用户对作品的评分、时间、作品的导演、演员。
CN 201010600040 2010-12-13 2010-12-13 视频搜索方法及系统 Active CN102063476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010600040 CN102063476B (zh) 2010-12-13 2010-12-13 视频搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010600040 CN102063476B (zh) 2010-12-13 2010-12-13 视频搜索方法及系统

Publications (2)

Publication Number Publication Date
CN102063476A CN102063476A (zh) 2011-05-18
CN102063476B true CN102063476B (zh) 2013-07-10

Family

ID=43998752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010600040 Active CN102063476B (zh) 2010-12-13 2010-12-13 视频搜索方法及系统

Country Status (1)

Country Link
CN (1) CN102063476B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999498A (zh) * 2011-09-08 2013-03-27 中兴通讯股份有限公司 多媒体节目的检索方法及装置
CN103548017A (zh) * 2011-12-26 2014-01-29 华为技术有限公司 一种视频搜索方法及视频搜索系统
CN102750366B (zh) * 2012-06-18 2015-05-27 海信集团有限公司 基于自然交互输入的视频搜索系统及方法
CN102955858B (zh) * 2012-11-09 2016-07-27 北京百度网讯科技有限公司 视频文件的搜索排序方法、系统及服务器
CN103268345A (zh) * 2013-05-27 2013-08-28 慈文传媒集团股份有限公司 影视数据的检索方法及装置
CN103428537B (zh) * 2013-07-30 2017-03-01 小米科技有限责任公司 一种视频处理方法和装置
CN103473273B (zh) 2013-08-22 2019-01-18 百度在线网络技术(北京)有限公司 信息搜索方法、装置和服务器
CN103605808B (zh) * 2013-12-10 2016-03-30 合一网络技术(北京)有限公司 基于搜索的ugc推荐的方法及系统
CN104182440A (zh) * 2014-02-26 2014-12-03 无锡天脉聚源传媒科技有限公司 一种视频搜索方法及系统
CN103984745B (zh) * 2014-05-23 2018-02-16 何震宇 分布式视频垂直搜索方法及系统
CN106033417B (zh) * 2015-03-09 2020-07-21 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN104866563A (zh) * 2015-05-20 2015-08-26 天脉聚源(北京)传媒科技有限公司 一种专辑的搜索方法及装置
CN104850626A (zh) * 2015-05-20 2015-08-19 天脉聚源(北京)传媒科技有限公司 一种专辑作为搜索结果的展示方法及装置
CN104978429A (zh) * 2015-07-10 2015-10-14 无锡天脉聚源传媒科技有限公司 一种搜索方法和装置
CN105701169A (zh) * 2015-12-31 2016-06-22 北京奇艺世纪科技有限公司 一种影视作品检索方法及终端
CN105787102B (zh) * 2016-03-18 2019-04-26 北京搜狗科技发展有限公司 搜索方法、装置以及用于搜索的装置
CN105975533A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 信息展示方法及装置
CN106210765A (zh) * 2016-07-14 2016-12-07 乐视控股(北京)有限公司 一种视频显示方法及装置
CN106339425A (zh) * 2016-08-15 2017-01-18 马岩 视频大数据的搜索方法及系统
CN107423353A (zh) * 2017-05-25 2017-12-01 环球智达科技(北京)有限公司 一种基于拼音首字母的查询系统
CN108268644B (zh) * 2018-01-22 2023-08-18 上海哔哩哔哩科技有限公司 视频搜索方法、服务器及视频搜索系统
CN110569335B (zh) 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN110598009B (zh) * 2019-09-12 2022-04-22 北京达佳互联信息技术有限公司 查找作品的方法、装置、电子设备及存储介质
CN111061755A (zh) * 2019-12-24 2020-04-24 嘉兴太美医疗科技有限公司 基于文献的药物警戒方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004098187A1 (en) * 2003-04-28 2004-11-11 Koninklijke Philips Electronics N.V. Method and arrangement for automatically searching information sources accessible through a network for contents satisfying predefined criteria
CN101021852A (zh) * 2006-10-10 2007-08-22 鲍东山 基于内容的视频搜索调度系统
CN101261645A (zh) * 2008-03-26 2008-09-10 北京搜狗科技发展有限公司 一种获取多层信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004098187A1 (en) * 2003-04-28 2004-11-11 Koninklijke Philips Electronics N.V. Method and arrangement for automatically searching information sources accessible through a network for contents satisfying predefined criteria
CN101021852A (zh) * 2006-10-10 2007-08-22 鲍东山 基于内容的视频搜索调度系统
CN101261645A (zh) * 2008-03-26 2008-09-10 北京搜狗科技发展有限公司 一种获取多层信息的方法和装置

Also Published As

Publication number Publication date
CN102063476A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102063476B (zh) 视频搜索方法及系统
US11954157B2 (en) Method of and system for conducting personalized federated search and presentation of results therefrom
US8200649B2 (en) Image search engine using context screening parameters
US8312022B2 (en) Search engine optimization
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN101639857B (zh) 构建知识问答分享平台的方法、装置及系统
CN104462575B (zh) 音乐综合搜索的实现方法和装置
WO2009082100A2 (en) Method and system for searching information of collective emotion based on comments about contents on internet
CN101655862A (zh) 信息对象搜索的方法和装置
CN101359332A (zh) 具有语义分类功能的可视化搜索界面的设计方法
TW201319842A (zh) 搜尋方法、搜尋裝置及搜尋引擎系統
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
US20070271228A1 (en) Documentary search procedure in a distributed system
CN102567423B (zh) 一种诗词关联搜索方法和系统
CN102073735A (zh) 搜索方法及搜索系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
WO2021111400A1 (en) System and method for enabling a search platform to users
KR100913733B1 (ko) 템플릿을 이용한 검색결과 제공방법
WO2015198112A1 (en) Processing search queries and generating a search result page including search object related information
CN101763211A (zh) 语意实时分析联想操控系统及方法
Kolli et al. A Novel Nlp And Machine Learning Based Text Extraction Approach From Online News Feed
CN110489603A (zh) 一种信息检索的方法、装置和车机
WO2015198114A1 (en) Processing search queries and generating a search result page including search object information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170122

Address after: 100193 room 303-305, building, East District, No. 10, Wang Dong Road, Beijing, Haidian District

Patentee after: Beijing small mutual Entertainment Technology Co., Ltd.

Address before: 100080 Beijing, Haidian District, northeast Wang West Road, No. 8 Zhongguancun Software Park, building two, floor 17, A2

Patentee before: BAIDU.COM TIMES TECHNOLOGY (BEIJING) Co.,Ltd.