CN101339560A - 一种搜索系列性数据的方法、装置及一种搜索引擎系统 - Google Patents

一种搜索系列性数据的方法、装置及一种搜索引擎系统 Download PDF

Info

Publication number
CN101339560A
CN101339560A CNA2008101180862A CN200810118086A CN101339560A CN 101339560 A CN101339560 A CN 101339560A CN A2008101180862 A CNA2008101180862 A CN A2008101180862A CN 200810118086 A CN200810118086 A CN 200810118086A CN 101339560 A CN101339560 A CN 101339560A
Authority
CN
China
Prior art keywords
series data
request
parameter
serial
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101180862A
Other languages
English (en)
Other versions
CN101339560B (zh
Inventor
李华北
张阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101180862A priority Critical patent/CN101339560B/zh
Publication of CN101339560A publication Critical patent/CN101339560A/zh
Application granted granted Critical
Publication of CN101339560B publication Critical patent/CN101339560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索系列性数据的方法、装置及一种搜索引擎系统,以解决目前的搜索引擎基于“完全匹配方法”导致搜索结果的查全率不高的问题。所述方法包括:接收搜索请求;分析所述搜索请求,提取出表示系列性数据的请求参数;根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。本发明得到的搜索结果,包括各种描述方式的系列性数据,不同于现有技术搜索到的仅包含查询词的结果。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。

Description

一种搜索系列性数据的方法、装置及一种搜索引擎系统
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种搜索系列性数据的方法、装置及一种搜索引擎系统。
背景技术
系列性数据是指数据之间具有关联关系的数据,如连续剧视频文件,每个连续剧可以包含多个部或季,每个部或季又常常包含多集,每一集又常常区分为几个视频段落,但是系列性数据不限于连续剧视频文件。
目前,在搜索引擎中搜索系列性数据的方法是:基于用户的搜索关键词,在搜索引擎系统中查找匹配包含该搜索关键词的相关数据,即基于一种“完全匹配”的搜索方法。
以连续剧视频搜索为例,“连续剧搜索请求”一般由两部分组成:“连续剧名”和“剧集信息”。“连续剧名”表示用户需要哪个连续剧,“剧集信息”表示用户需要连续剧的哪一部分。例如,搜索请求是“还珠格格第一部第三集”,其中“还珠格格”为“连续剧名”,“第一部第三集”为“剧集信息”。当然,“连续剧搜索请求”可能只包含“连续剧名”如“越狱”,然而形如“连续剧名+剧集信息”的搜索请求更为典型。
但是,由于目前的网络资源丰富而繁乱,使得连续剧的“剧集信息”表达形式很不规范,大大影响了连续剧查询的搜索质量。例如,“第二部第三集”、“第2部第3集”、“第二季第3集”、“2-3”、“II-3”都表示连续剧的同一部分内容,但是表达形式差别很大。当用户输入“连续剧名剧集信息”的搜索请求后,视频搜索引擎的“完全匹配方法”只能返回给用户具有“特定剧集信息形式”的搜索结果,而无法给出“其他形式”的连续剧。如输入查询词“还珠格格第二部第三集”,只能返回与“还珠格格”和“第二部第三集”精确匹配的结果,而不能返回“还珠格格2-3”、“还珠格格第2部第3集”等形式的视频。
因此,所述“完全匹配方法”导致搜索结果的查全率不高。
发明内容
本发明所要解决的技术问题是提供一种搜索系列性数据的方法、装置及一种搜索引擎系统,以解决目前的搜索引擎基于“完全匹配方法”导致搜索结果的查全率不高的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种搜索系列性数据的方法,包括:
接收搜索请求;
分析所述搜索请求,提取出表示系列性数据的请求参数;
根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。
其中,所述预置具体包括:预先分析待搜索数据,提取出系列性数据参数。
其中,所述查找具体包括:将所述请求参数与所述系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述查找具体包括:对请求参数中的系列性数据名称进行分词;将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
优选的,查找与所述搜索请求相匹配的系列性数据之后,还包括:对查找到的系列性数据进行相关性排序后输出。
优选的,所述提取出系列性数据参数/表示系列性数据的请求参数之前,还包括:根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则执行提取出系列性数据参数的步骤;或者,根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则执行提取出表示系列性数据的请求参数的步骤;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
其中,所述判断具体包括:将所述待搜索数据/搜索请求的描述信息转换为字符串;对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据,或者所述搜索请求为搜索系列性数据的请求。
优选的,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括:将待搜索数据/搜索请求的描述信息输入状态机;根据状态机中预置的由当前状态和当前输入转换到下一状态的转换映射关系,在各个状态间跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。
优选的,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括:使用状态机对所述字符串进行逐字扫描;根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。
其中,所述系列性数据为连续剧视频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。
其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。
一种搜索系列性数据的装置,包括:
接收单元,用于接收搜索请求;
在线识别单元,用于分析所述搜索请求,提取出表示系列性数据的请求参数;
智能匹配单元,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。
优选的,所述装置还包括:离线数据处理单元,用于预先分析待搜索数据,提取出系列性数据参数。
优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述智能匹配单元具体包括:分词子单元,用于对请求参数中的系列性数据名称进行分词;一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
优选的,所述装置还包括:输出单元,用于对查找到的系列性数据进行相关性排序后输出。
优选的,所述离线数据处理单元具体包括:离线预处理模块,用于将待搜索数据的描述信息转换为字符串。
优选的,所述离线数据处理单元还包括:离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。
优选的,所述离线数据处理单元还包括:离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
其中,所述离线判断模块通过以下方式进行判断:对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。
优选的,所述在线识别单元具体包括:在线预处理模块,用于将搜索请求的描述信息转换为字符串。
优选的,所述在线识别单元还包括:在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提取出。
优选的,所述在线识别单元还包括:在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
其中,所述在线判断模块通过以下方式进行判断:对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。
其中,所述系列性数据为连续剧视频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。
其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。
本发明还提供了一种搜索引擎系统,包括上述任一装置实施例所提供的装置。
根据本发明提供的具体实施例,本发明具有以下技术效果:
本发明在离线状态下对搜索引擎数据库中的所有系列性数据进行了处理,提取出系列性数据参数,当用户查询其中的某个数据时,本发明还会对用户的搜索请求进行在线识别处理,提取出表示系列性数据的请求参数,然后根据所述请求参数与所述系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。这样得到的搜索结果,包括各种描述方式的系列性数据,不同于现有技术搜索到的仅包含查询词的结果。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。
例如,对于连续剧查询,本发明提取出连续剧视频的标准剧集信息,然后根据标准的剧集信息建立视频索引链接(可使用倒排索引技术)。当用户查询某一连续剧视频,输入“连续剧名+剧集信息”的搜索请求时,通过对所述请求进行在线识别和智能匹配,可以直接向用户返回具有相同标准剧集信息的视频(“剧集信息”的表达形式可能与用户的输入不同)。这种基于“模糊匹配方法”的搜索,克服了现有技术中“完全匹配方法”必须精确匹配搜索请求的缺点,有效提高了连续剧查询的查全率和结果数,同时显著提升了用户体验。
附图说明
图1是本发明实施例一所述一种搜索系列性数据的方法流程图;
图2是本发明实施例二所述一种搜索连续剧视频的方法流程图;
图3是本发明实施例二的处理示意图;
图4是本发明实施例三所述一种提取连续剧视频参数的方法流程图;
图5是本发明实施例三中状态机的一种基本结构示意图;
图6是本发明实施例三所述一种提取搜索请求参数的方法流程图;
图7(a)和图8(a)是现有技术的完全匹配效果图;
图7(b)和图8(b)是本发明智能匹配的效果图;
图9是本发明实施例所述一种搜索系列性数据的装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一:
参照图1,是本发明实施例一所述一种搜索系列性数据的方法流程图。
其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息等。
S101,预置系列性数据参数;
预置的方式可以为:预先分析待搜索数据,提取出系列性数据参数。但预置方式不限于此。
所述系列性数据参数用于表示数据的系列性特性,可以包括多个参数。通过对系列性数据中的每个数据进行分析,提取出该数据的参数后,就可以确定该数据是系列性数据中的哪一个。具体的提取方法在实施例三中进行详细介绍。
S102,接收搜索请求;
S103,分析所述搜索请求,提取出表示系列性数据的请求参数;
通过与S101相同的提取方法,在线提取请求参数。同样,该请求参数也用于表示数据的系列性特性,该请求表示用户需要搜索系列性数据中的哪些数据。
S104,根据所述请求参数与所述系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据;
根据提取的参数情况,可以有两种查找方式:
一种是S101提取的参数与S103提取的参数相对应,则查找时,可以直接将所述请求参数与所述系列性数据参数进行匹配,如果存在相匹配的系列性数据参数,则将对应的系列性数据作为查找结果。
还有一种更优选的方式:
前提是在S103中不仅提取出上述第一种查找方式需要的参数(在此称为系列性数据标识参数),同时还提取出请求的系列性数据名称。查找过程为:对请求参数中的系列性数据名称进行分词,并将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合,即从所有的系列性数据中筛选出第一次匹配的结果;然后,在所述候选集合中,将请求参数中的系列性数据标识与候选集合中的系列性数据参数进行匹配,如果存在相匹配的系列性数据参数,则将匹配到的系列性数据作为查找结果,完成第二次匹配。这种二次匹配的方式可以在第一次匹配时滤除大量不相关的数据,从而提高查找效率。
S105,是优选步骤,对查找到的系列性数据进行相关性排序后输出,提供给用户。
与现有技术相比,现有技术中搜索引擎系统是根据系列性数据描述文本的关键词,对系列性数据建立索引,当用户查询其中的某个数据时,系统会直接返回关键词索引的查询结果,即只返回包含查询词的查询结果。而对于其他相关数据,由于不包含该查询词,所有没有被检索到。但本发明由于对离线的所有系列性数据进行了处理,提取出了系列性数据参数,这样在查询时,根据在线识别搜索请求得到的请求参数,就可以查找到与请求参数相匹配的系列性数据参数,从而将对应该系列性数据参数的所有系列性数据(可能不包含查询词)作为查询结果提供给用户。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。
下面结合优选实施例进行详细说明,参照实施例二,以系列性数据为连续剧视频文件为例进行说明。
实施例二:
参照图2,是本发明实施例二所述一种搜索连续剧视频的方法流程图。
其中,实施例一所述的系列性数据参数在本实施例中包括搜索引擎数据库中连续剧视频的连续剧编号、连续剧部序号、连续剧集序号,所述请求参数包括请求的连续剧名称、请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号。
S201,离线处理搜索引擎数据库中的所有视频数据;
离线处理数据中所有视频的描述文本(如视频标题),找出视频数据库中属于连续剧的视频,为每个连续剧视频写入三个参数字段:TeleID_video,Season_video和Episode_video。其中,TeleID_video是连续剧编号,表明这段视频属于哪个连续剧;Season_video是连续剧部序号,Episode_video是连续剧集序号,Season_video和Episode_video分别表示该视频是连续剧的第几部和第几集。对于非连续剧视频,上述三个参数字段全部置0。通过离线处理所有视频数据,获得“带连续剧参数的视频数据”供在线智能匹配使用。
S202,接收用户的搜索请求;
用户可能输入形如“连续剧名”的搜索请求,但更典型的应用是输入形如“连续剧名+剧集信息”的搜索请求,下面的匹配过程以后面一种典型应用的搜索请求为例进行说明。
S203,在线识别所述搜索请求;
采用与S201相同的参数提取方法,在线识别用户输入的搜索请求。对于连续剧搜索请求,不仅提取出请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号三个参数,同时还提取出请求的连续剧名称,并进行以下操作:
将请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号分别填入搜索请求对应的三个参数字段:TeleID_query、Season_query和Episode_query;
将请求的连续剧名称代替原连续剧搜索请求,进行后续的分词和求交操作。
对于非连续剧搜索请求,上述三个参数字段全部置0,但搜索请求不变。
S204,进行连续剧智能匹配;
对于连续剧搜索请求,进行二次匹配:
第一次匹配过程是将请求的连续剧名称进行分词,并使用分词结果在连续剧视频的倒排索引数据中求交,获得候选视频集合。该候选视频集合为符合所述请求的连续剧名称的视频集合,不受部集信息形式的限制。其中,所述连续剧视频的倒排索引数据是指对经过S201处理后的连续剧视频进行倒排索引的数据;
第二次匹配过程是将连续剧搜索请求的参数字段(TeleID_query、Season_query和Episode_query)分别与各个候选视频对象的参数字段(TeleID_video、Season_video和Episode_video)进行匹配。如果三个字段都正确匹配,则表示该候选视频的视频名称和部集信息全部满足用户的需求(其中部集形式可能与用户输入有所不同)。滤除不匹配的视频对象,获得结果集合。
当然,也可以采用一次匹配的方法,此时在线识别时仅提取出TeleID_query、Season_query和Episode_query,即可直接与TeleID_video、Season_video和Episode_video进行匹配,但这种方式耗费的时间和系统资源较多。
S205,将匹配结果排序输出。
最后对结果集合进行相关性排序后返回给用户。
需要说明的是,如果搜索请求为“连续剧名”的形式,则向用户提示该连续剧的所有部、集的链接;当用户点击某一链接时,将该索引项的所有视频作为结果返回。如果搜索请求为“连续剧名剧集信息”的形式,由于对该请求进行了在线识别,所以用户点击一次搜索按钮,就可以直接返回具有相同参数(TeleID_video、Season_video和Episode_video)的所有连续剧视频(其中部集形式可能与用户输入有所不同)。
上述流程还可参照图3的示意图。
本发明实施例所述连续剧查询方法,通过提取出连续剧视频的标准剧集信息,然后根据标准的剧集信息建立视频索引链接(可使用倒排索引技术)。基于这种索引的搜索是一种“模糊匹配方法”的搜索,克服了现有技术中“完全匹配方法”必须精确匹配搜索请求的缺点,有效提高了连续剧查询的查全率和结果数,同时显著提升了用户体验。而现有搜索引擎是将连续剧视频作为普通视频处理,没有提取标准的剧集信息而直接根据描述文本中的关键词对其进行索引;当用户查询连续剧时,只能直接返回连续剧名索引的视频数据,而不能按照该连续剧的剧集信息向用户提示索引链接。
上述实施例一和实施例二中涉及到提取参数的方法,下面通过实施例三进行说明。
实施例三:
以连续剧视频查询为例,在离线处理数据库中的所有视频时,需要提取出TeleID_video,Season_video和Episode_video三个参数字段的数值;当在线识别搜索请求时,也需要提取出TeleID_query、Season_query和Episode_query三个参数字段的数值以及请求的连续剧名称。所述两种情况下,使用相同的方法提取参数。下面将以提取连续剧视频参数TeleID_video,Season_video和Episode_video为例进行详细说明。
参照图4,是本发明实施例三所述一种提取连续剧视频参数的方法流程图。
S401,读取连续剧信息文件;
连续剧信息文件为人工编辑的文本文件,(编辑人员通过分析数据库中的连续剧数据,得到库中所包含的连续剧的名称及其别名、部数和集数等信息,人工编辑得到连续剧信息文本),记录了视频数据库中包含的所有连续剧视频的信息。当然,对于所属领域的技术人员而言,可以明白,连续剧信息文件也可以通过软件自动提取数据库中的连续剧数据的方式来自动生成。
所述连续剧信息可以包括连续剧的名称、别名、部数和集数等。
S402,生成连续剧信息映射表;
通过将接收到的所述连续剧信息文件进行读取分析,就能够生成连续剧信息映射表VideoInfo,供后续使用。映射表VideoInfo可以由“Key-Value”对组成,其中Key为连续剧名称,Value为该连续剧的相关信息(别名数、部数、集数等),同一连续剧的不同别名单独为Key。即将输入的连续剧信息文本文件,生成为连续剧信息映射表。连续剧信息映射表实现了将连续剧名称与连续剧信息的对应关系,实现了将经由连续剧名称来查询连续剧所包含的多种信息。
S403,进行视频描述文本的预处理,输出标准字符串;
视频描述文本是用来表示视频文件的有关信息的载体,视频描述文本预处理是将描述文本转换为符合规范的标准字符串,以方便后续分析处理,具体过程分为格式转换和信息过滤。首先,将描述文本全部转换为“全角小写”格式;然后过滤描述文本中的网站来源等无关信息,如“_56”、“-Mobile”、“-视频”、“-六间房”、“酷6”等。本步骤输入视频描述文本,滤除部分无关信息的全角小写标准字符串,输出为标准字符串,供后续流程分析识别。
S404,根据处理后生成的标准字符串以及连续剧信息映射表,判断该视频是否属于连续剧;
通过分析前述流程处理后生成的标准字符串,判断描述文本是否描述了连续剧信息,该视频是否是连续剧视频,并决定后续的处理过程。判断方法是:对标准字符串进行逐字扫描,同时搜索连续剧映射表中是否存在名为当前子字符串的连续剧。如果标准字符串中包含映射表内的连续剧名,则此标准字符串为用来描述连续剧信息,而且数据库中也存储了相应的连续剧视频文件,则进入S405,继续后续操作;否则,作为非连续剧直接返回。
S405,使用“状态机算法”,提取连续剧视频的标准剧集信息。
状态机是由不同状态组成的集合系统,其中包括一个初态,若干个中间态和若干个终态,各个状态之间由“转换关系”相连接。状态机从初态开始,当特定事件发生时,根据相应的转换关系从当前状态跳转到新的状态,直到到达某终态后退出。
状态机可分为“有限状态机”和“无限状态机”。有限状态机由状态集(包括初态、中间态和终态)、输入符号集、转换关系模型组成。其中,转换关系模型表示由输入符号和当前状态到下一状态的转换映射关系。当输入符号串时,状态机进入初始状态开始运行,随后根据输入符号、当前状态和转换关系模型决定下一个状态,直至运行到终态结束。状态机算法在人工智能技术、数字电路设计、编译原理等多领域得到了广泛应用。
本发明实施例中使用“有限状态机”对描述连续剧视频的标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转。通过不同状态间的跳转来处理剧集信息不同的表达形式,最后根据状态机的终态,可以获得包括连续剧剧集信息在内的连续剧信息(即TeleID_video,Season_video和Episode_video三个参数字段的数值)。引发状态跳转的特定字符包括连续剧名称、数字、关键字“第”、“部”、“集”等,具体跳转字符见下表1。
表1
Figure A20081011808600181
根据上述表1,以及实际的可能需要,设计了图5所示的本发明中状态机的一种基本设计结构示意图,具体实现时,可以将其他更为复杂的跳转关系也设计进去。这种根据各个状态的跳转来进行连续剧信息的匹配设计,没有超出本发明的保护范围。
参照图5,该状态机的输入为描述连续剧视频的标准字符串,输出为该视频的标准剧集信息。当输入标准字符串时,状态机处于初态A,随后对字符串进行逐字扫描,根据跳转条件运行状态机;G、D、F、H、I等状态可作为终态,且一段视频只能到达一个终态。如图所示,A状态扫描到具体连续剧名后跳到B状态;B状态具有三个跳转分支:扫描到“第”跳到C状态,扫描到“season”+数字跳到D状态,扫描到数字到G状态;C状态扫描到数字+部信息跳到D状态,扫描到数字+集信息跳到F状态;D状态表示视频的标准字符串具有“部”层次的剧集信息,随后扫描到“第”跳到E状态,扫描到数字或“ep”+数字跳到F状态;F状态表示视频具有“集”层次的剧集信息,继续扫描到数字跳到I状态,扫描到“段”信息跳到H状态;I状态和H状态表式视频具有“段”层次的剧集信息;G状态表示连续剧名之后最近的相关字符为数字,该状态可跳到E、F、H状态。
通过上述“状态机”算法,提取出了每个连续剧视频的连续剧编号、连续剧部序号和连续剧集序号。
更进一步,还可以使用所述标准剧集信息,建立索引。在视频搜索引擎中,根据状态机输出的连续剧视频剧集信息,以剧集信息为Key建立索引(可使用倒排索引等通用技术);当用户查询连续剧时,搜索引擎将向用户展现该连续剧的基本信息及所有剧集信息的索引链接,方便用户点击查询。这样可以有效的优化搜索性能,显著的提升用户体验。
类似的,针对搜索请求中的参数提取,也采用同样的方法。
参照图6,是所述提取搜索请求参数的方法流程图。
S601,读取连续剧信息文件;
S602,生成连续剧信息映射表;
S603,进行搜索请求的预处理,输出标准字符串;
S604,根据处理后生成的标准字符串以及连续剧信息映射表,判断该搜索请求是否为搜索连续剧视频的请求;如果是,则继续S605;如果否,则作为非连续剧请求进行处理;
S605,使用“状态机算法”,提取连续剧搜索请求参数,具体包括请求的连续剧名称、请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号。
图4和图6处理流程的不同之处在于:
第一,使用环境不同:离线识别是在线下定期的对视频数据进行识别;在线识别是在搜索引擎线上进行的实时识别;
第二,识别对象不同:离线识别的对象是数据库中的全部数据;在线识别的对象是用户输入的搜索请求;
第三,输出结果不同:离线识别对每条连续剧视频输出三个参数——TeleID_video、Season_video和Episode_video;在线识别对每条连续剧搜索请求输出四个参数——TeleID_query、Season_query、Episode_query和连续剧名称,其中前三个参数用于和离线输出的三个参数进行匹配,连续剧名称用于代替原“连续剧搜索请求”,进行后续的分词和求交操作,获得候选视频集合。
采用本发明上述方法的效果图可参照图7和图8所示。
图7(a)和图7(b)分别为“刘老根第二部第二集”的完全匹配效果和智能匹配效果。如图7(a)所示,完全匹配的结果数仅为3。图7(b)智能匹配效果除了精确匹配上的视频“刘老根第二部第二集”外,还检索出“刘老根II-02上”、“[刘老根第二部].2”等视频,使结果数增加到42。在本例中,智能匹配方法使结果数大大增加,显著提升了查全率和用户体验。
图8(a)和图8(b)分别为“还珠格格第二部第三集”的完全匹配效果和智能匹配效果。如图8(a)所示,完全匹配的结果数为0。图8(b)智能匹配检索出“还珠格格第二部03”、“还珠格格II 03A”等相关视频,使结果数增加到83。在本例中,智能匹配方法使结果数从0增加到83,显著提升了查全率和用户体验。
针对上述搜索系列性数据的方法,本发明还提供了一种搜索系列性数据的装置实施例。参照图9,是实施例所述一种搜索系列性数据的装置结构图。所述装置主要包括:
接收单元U92,用于接收搜索请求;
在线识别单元U93,用于分析所述搜索请求,提取出表示系列性数据的请求参数;
智能匹配单元U94,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。
优选的,所述装置还包括离线数据处理单元U91,用于预置所述系列性数据参数,预置的方式可以为预先分析待搜索数据,提取出系列性数据参数,但不限于此。
其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。
当所述系列性数据为连续剧视频文件时,所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。
本发明由于对离线的所有系列性数据进行了处理,提取出了系列性数据参数,这样在查询时,根据在线识别搜索请求得到的请求参数,就可以查找到与请求参数相匹配的系列性数据参数,从而将对应该系列性数据参数的所有系列性数据(可能不包含查询词)作为查询结果提供给用户。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。例如,搜索请求为“还珠格格第二部第三集”,则搜索引擎返回的结果是“还珠格格第二部03”、“还珠格格II 03A”等更多的相关视频。
优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数(如请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号)时,所述智能匹配单元U94具体包括:
分词子单元,用于对请求参数中的系列性数据名称进行分词;
一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;
二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
优选的,所述装置还包括:输出单元U95,用于对查找到的系列性数据进行相关性排序后输出。
优选的,所述离线数据处理单元U91具体包括:离线预处理模块,用于将待搜索数据的描述信息转换为字符串。
所述离线数据处理单元U91还包括:
离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;
离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;
离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。
所述离线数据处理单元U91还包括:离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
其中,所述离线判断模块通过以下方式进行判断:对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。
优选的,所述在线识别单元U93具体包括:在线预处理模块,用于将搜索请求的描述信息转换为字符串。
所述在线识别单元U93还包括:
在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;
在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;
在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提取出。
所述在线识别单元U93还包括:在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
其中,所述在线判断模块通过以下方式进行判断:对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。
图9所示装置中未详述的部分可以参见图1-图6所示方法的相关部分,为了篇幅考虑,在此不再详述。
在实际应用中,上述实施例所提供的搜索系列性数据的装置更多的是应用到搜索引擎系统中,进行连续剧、连载小说等系列性数据的搜索。因此,本发明还提供了一种搜索引擎系统的实施例,该系统实施例包括图9所示任一装置实施例所提供的装置。当然,所述搜索引擎系统还包括完成搜索功能的其他功能模块,再次不再详述。
以上对本发明所提供的一种搜索系列性数据的方法、装置及一种搜索引擎系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (26)

1、一种搜索系列性数据的方法,其特征在于,包括:
接收搜索请求;
分析所述搜索请求,提取出表示系列性数据的请求参数;
根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。
2、根据权利要求1所述的方法,其特征在于,所述预置具体包括:
预先分析待搜索数据,提取出系列性数据参数。
3、根据权利要求1所述的方法,其特征在于,所述查找具体包括:
将所述请求参数与所述系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
4、根据权利要求1所述的方法,其特征在于,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述查找具体包括:
对请求参数中的系列性数据名称进行分词;
将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;
将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
5、根据权利要求1所述的方法,其特征在于,查找与所述搜索请求相匹配的系列性数据之后,还包括:
对查找到的系列性数据进行相关性排序后输出。
6、根据权利要求1或2所述的方法,其特征在于,所述提取出系列性数据参数/表示系列性数据的请求参数之前,还包括:
根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则执行提取出系列性数据参数的步骤;
或者,根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则执行提取出表示系列性数据的请求参数的步骤;
其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
7、根据权利要求6所述的方法,其特征在于,所述判断具体包括:
将所述待搜索数据/搜索请求的描述信息转换为字符串;
对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据,或者所述搜索请求为搜索系列性数据的请求。
8、根据权利要求1或2所述的方法,其特征在于,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括:
将待搜索数据/搜索请求的描述信息输入状态机;
根据状态机中预置的由当前状态和当前输入转换到下一状态的转换映射关系,在各个状态间跳转;
当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。
9、根据权利要求7所述的方法,其特征在于,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括:
使用状态机对所述字符串进行逐字扫描;
根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;
当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。
10、根据权利要求1所述的方法,其特征在于:
所述系列性数据为连续剧视频文件,
则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,
所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。
11、根据权利要求1所述的方法,其特征在于:
所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。
12、一种搜索系列性数据的装置,其特征在于,包括:
接收单元,用于接收搜索请求;
在线识别单元,用于分析所述搜索请求,提取出表示系列性数据的请求参数;
智能匹配单元,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。
13、根据权利要求12所述的装置,其特征在于,所述装置还包括:
离线数据处理单元,用于预先分析待搜索数据,提取出系列性数据参数。
14、根据权利要求12所述的装置,其特征在于,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述智能匹配单元具体包括:
分词子单元,用于对请求参数中的系列性数据名称进行分词;
一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;
二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。
15、根据权利要求12所述的装置,其特征在于,所述装置还包括:
输出单元,用于对查找到的系列性数据进行相关性排序后输出。
16、根据权利要求13所述的装置,其特征在于,所述离线数据处理单元具体包括:
离线预处理模块,用于将待搜索数据的描述信息转换为字符串。
17、根据权利要求16所述的装置,其特征在于,所述离线数据处理单元还包括:
离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;
离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;
离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。
18、根据权利要求17所述的装置,其特征在于,所述离线数据处理单元还包括:
离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
19、根据权利要求18所述的装置,其特征在于,所述离线判断模块通过以下方式进行判断:
对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。
20、根据权利要求12所述的装置,其特征在于,所述在线识别单元具体包括:
在线预处理模块,用于将搜索请求的描述信息转换为字符串。
21、根据权利要求20所述的装置,其特征在于,所述在线识别单元还包括:
在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;
在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;
在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提取出。
22、根据权利要求21所述的装置,其特征在于,所述在线识别单元还包括:
在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。
23、根据权利要求22所述的装置,其特征在于,所述在线判断模块通过以下方式进行判断:
对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。
24、根据权利要求12所述的装置,其特征在于:
所述系列性数据为连续剧视频文件,
则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,
所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。
25、根据权利要求12所述的装置,其特征在于:
所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。
26、一种搜索引擎系统,其特征在于:包括权利要求12至25任一权利要求所述的装置。
CN2008101180862A 2008-08-11 2008-08-11 一种搜索系列性数据的方法、装置及一种搜索引擎系统 Active CN101339560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101180862A CN101339560B (zh) 2008-08-11 2008-08-11 一种搜索系列性数据的方法、装置及一种搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101180862A CN101339560B (zh) 2008-08-11 2008-08-11 一种搜索系列性数据的方法、装置及一种搜索引擎系统

Publications (2)

Publication Number Publication Date
CN101339560A true CN101339560A (zh) 2009-01-07
CN101339560B CN101339560B (zh) 2011-08-31

Family

ID=40213629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101180862A Active CN101339560B (zh) 2008-08-11 2008-08-11 一种搜索系列性数据的方法、装置及一种搜索引擎系统

Country Status (1)

Country Link
CN (1) CN101339560B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033937A (zh) * 2010-12-20 2011-04-27 百度在线网络技术(北京)有限公司 视频搜索结果的展示方法及其系统
CN102033923A (zh) * 2010-12-14 2011-04-27 百度时代网络技术(北京)有限公司 在线视频的搜索与展现方法及装置
CN102081659A (zh) * 2011-01-14 2011-06-01 南开大学 倒排索引压缩的预处理方法
CN103559286A (zh) * 2013-11-08 2014-02-05 北京奇虎科技有限公司 视频搜索结果的处理方法及装置
CN106033417A (zh) * 2015-03-09 2016-10-19 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN106156000A (zh) * 2015-04-28 2016-11-23 腾讯科技(深圳)有限公司 基于求交算法的搜索方法及搜索系统
CN103823907B (zh) * 2014-03-19 2018-03-02 北京奇虎科技有限公司 一种整合在线视频资源地址的方法、装置及引擎
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033923A (zh) * 2010-12-14 2011-04-27 百度时代网络技术(北京)有限公司 在线视频的搜索与展现方法及装置
CN102033923B (zh) * 2010-12-14 2013-08-21 百度时代网络技术(北京)有限公司 在线视频的搜索与展现方法及装置
CN102033937A (zh) * 2010-12-20 2011-04-27 百度在线网络技术(北京)有限公司 视频搜索结果的展示方法及其系统
CN102081659A (zh) * 2011-01-14 2011-06-01 南开大学 倒排索引压缩的预处理方法
CN103559286A (zh) * 2013-11-08 2014-02-05 北京奇虎科技有限公司 视频搜索结果的处理方法及装置
CN103559286B (zh) * 2013-11-08 2017-04-26 北京奇虎科技有限公司 视频搜索结果的处理方法及装置
CN103823907B (zh) * 2014-03-19 2018-03-02 北京奇虎科技有限公司 一种整合在线视频资源地址的方法、装置及引擎
CN106033417B (zh) * 2015-03-09 2020-07-21 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN106033417A (zh) * 2015-03-09 2016-10-19 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN106156000A (zh) * 2015-04-28 2016-11-23 腾讯科技(深圳)有限公司 基于求交算法的搜索方法及搜索系统
CN106156000B (zh) * 2015-04-28 2020-03-17 腾讯科技(深圳)有限公司 基于求交算法的搜索方法及搜索系统
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN109947909B (zh) * 2018-06-19 2024-03-12 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置

Also Published As

Publication number Publication date
CN101339560B (zh) 2011-08-31

Similar Documents

Publication Publication Date Title
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
EP1396799B1 (en) Content management system
CN100514337C (zh) 关键词的联想信息生成系统和生成方法
CN101169780A (zh) 一种基于语义本体的检索系统和方法
CN106982150B (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN101360071A (zh) 基于即时聊天进行多媒体资源共享的方法及系统
CN102624675A (zh) 自助式客服系统、方法
JP2009087345A (ja) 自然言語ベースのサービス選択システムおよび方法、サービスクエリシステムおよび方法
CN103902535A (zh) 获取联想词的方法、装置及系统
CN110263021B (zh) 一种基于个性化标签体系的主题库生成方法
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN101101605A (zh) 搜索网页的方法、装置及系统和建立索引数据库的装置
CN110852095A (zh) 语句热点提取方法及系统
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN101261645B (zh) 一种获取多层信息的方法和装置
CN109542930A (zh) 一种基于ElasticSearch的数据高效检索方法
CN110941757A (zh) 一种基于大数据的政策信息查询推送系统及方法
CN104317796A (zh) 一种基于搜索的多用户交互方法、服务器,以及系统
CN112307318A (zh) 一种内容发布方法、系统及装置
CN109145092B (zh) 一种数据库更新、智能问答管理方法、装置及其设备
CN105512270B (zh) 一种确定相关对象的方法和装置
CN101977251A (zh) 服务器端网址资源优化装置及其优化方法
CN103631779A (zh) 一种基于社交化词典的单词推荐系统
CN107391695A (zh) 一种基于大数据的信息提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant