CN101261645B - 一种获取多层信息的方法和装置 - Google Patents
一种获取多层信息的方法和装置 Download PDFInfo
- Publication number
- CN101261645B CN101261645B CN2008101028051A CN200810102805A CN101261645B CN 101261645 B CN101261645 B CN 101261645B CN 2008101028051 A CN2008101028051 A CN 2008101028051A CN 200810102805 A CN200810102805 A CN 200810102805A CN 101261645 B CN101261645 B CN 101261645B
- Authority
- CN
- China
- Prior art keywords
- information
- serial
- collection
- drama
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例公开了一种获取多层信息的方法,包括:接收请求信息;如果根据预先生成的多层信息映射表,表明所述请求信息是用于获取多层信息,则:根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息。本发明实施例还公开了一种获取多层信息的装置和系统,利用本发明实施例,能够显著提高查全率,提升用户体验。
Description
技术领域
本发明涉及网络技术领域,特别是涉及获取多层信息的方法和装置。
背景技术
现有技术中由于使用基于搜索关键词的获取信息方式,只能返回带关键词的有关信息。而对于像连续剧这样的文件,由于其文件包含的信息量大,每个连续剧可以包含多个的部,每个部又常常包含多集,每一集又常常区分为几个段落,这使得获得连续剧信息非常困难。因此,现有技术中还没有获取连续剧信息的方法,连续剧信息是指可以包含连续剧部、剧、集等等内容在内的连续剧有关信息的总称,但是不限于连续剧剧集信息的形式。现有技术是直接根据连续剧描述文本中的关键词对其进行索引,没有提取连续剧信息。所以,当用户需要查询连续剧信息时,只能直接返回包含连续剧名称索引的视频数据,而不能按照该连续剧有关的连续剧信息向用户提示索引链接。
作为现有技术中的一种实现方式,其技术方案的实现过程是:
如果用户利用视频搜索引擎,来搜索《士兵突击》有关的连续剧信息时,现有技术中的搜索引擎只能返回以“士兵突击”为索引的数据,而没有按其连续剧信息进行有效的组织,并将组织后的结果反馈给用户。其搜索的结果是将各个网站中与“士兵突击”有关的链接呈现出来。如优酷网站的“士兵突击”第一集和56网上的“士兵突击”大结局等,以及相关内容的截图。
同样地,对于类似于连续剧信息这样的其他多层信息而言,要获取多层信息中某一个最小层面(或最低层面)的信息,现有技术同样存在着类似的技术问题。
也就是说,现有技术中至少存在如下问题:
由于现有技术中只能返回与查询词中连续剧名和固定形式的剧集信息精确匹配的结果,而不能返回其他形式剧集信息的视频。由此,导致搜索结果的查全率不高。
发明内容
有鉴于此,本发明一个或多个实施例的目的在于提供一种获取多层信息的方法和装置,以实现能够适应用户的搜索需要,提供更高的查全率。
为解决上述问题,本发明实施例提供了一种获取多层信息的方法,对数据库中的所有原始描述文本进行预处理,生成标准字符串,当所述原始描述文本用于获取连续剧剧集信息时,对标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转,得到包括连续剧剧集信息在内的连续剧信息,所述原始描述文本用来表示用户需要搜索的视频文件的有关信息的载体,所述连续剧剧集信息为存在着多层分级、每一级概念之间存在着一定的包含关系的信息,所述方法包括:
接收客户端发送的搜索请求信息;
如果根据预先生成的连续剧信息映射表,表明所述搜索请求信息是用于获取连续剧剧集信息,则进入标准状态转化过程,所述连续剧信息映射表为读取连续剧信息文本,根据所述连续剧信息文本生成的映射表,并实现了连续剧名称与连续剧信息的对应关系;
标准状态转化过程:对所述搜索请求信息中的标准字符串进行逐字扫描,获得所述搜索请求信息中的标准字符串所包含的所有字符,根据状态机中预置的字符与相关状态的对应关系,在所述字符对应的状态间跳转,得到与所述标准字符串对应的最终状态,将查找到的与所述标准字符串对应的最终状态对应的连续剧剧集信息输出,并向用户返回与查询词对应的连续剧剧集信息的索引链接。
还公开了一种获取多层信息的装置,包括:
映射表生成单元,用于读取连续剧信息文本,根据所述连续剧信息文本,生成连续剧信息映射表;
接收单元,用于接收客户端发送的搜索请求信息;
多层信息判断单元,用于:如果根据预先生成的连续剧信息映射表,表明所述请求信息是用于获取连续剧剧集信息,则进入第一输出单元,所述连续剧信息映射表实现了连续剧名称与连续剧信息的对应关系;
第一输出单元,用于:对所述搜索请求信息中的标注字符串进行逐字扫描,获得所述搜索请求信息中的标准字符串所包含的所有字符,根据状态机中预置的字符与相关状态的对应关系,在所述字符对应的状态间跳转,得到与所述标准字符串对应的最终状态,将查找到的与所述标准字符对应的最终状态对应的连续剧剧集信息输出,并向用户返回与查询词对应的连续剧剧集信息的索引链接,,所述连续剧剧集信息为对数据库中的所有原始描述文本进行预处理,生成标准字符串,当所述原始描述文本用于获取连续剧剧集信息时,对标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转得到的信息,且,所述连续剧剧集信息为存在多层分级、每一级概念之间存在着一定的包含关系的信息,所述原始描述文本用来表示用户需要搜索的视频文件的有关信息的载体。
还公开了一种获取多层信息的系统,包括:
客户端和服务器端,
所述客户端包括:用于:接收搜索请求信息后,将所述请求信息发送到所述服务器端,并显示所述服务器端对所述请求信息的处理结果;
所述服务器端是本发明的装置实施例中所提供的任一个所述的装置。
与现有技术相比,本发明实施例具有以下优点:
首先,克服了现有技术中无法提供多层信息的技术问题,可以提供多层信息有关的搜索结果,而不是像现有技术中仅仅能返回与查询词有关的名称信息。
其次,提高了对于多层信息搜索引擎的搜索性能。例如,对于视频连续剧信息之类的多层信息,当用户需要查询某连续剧时,如需要查询连续剧《越狱》,本发明实施例通过预置的“越狱”查询请求有关与所述连续剧信息的对应关系,输出“越狱”查询请求对应的《越狱》有关连续剧信息,可以返回给用户多种形式剧集信息的相关视频,显著提高了检索的查全率。
附图说明
图1所示,是本发明的方法的实施例一的流程图;
图2所示,是本发明的方法的实施例二的流程图;
图3所示,是本发明中状态机的一种基本结构示意图;
图4所示,是本发明的装置的实施例一的框图;
图5所示,是本发明的系统的实施例一的框图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步的详细阐述。
参考图1所示,是本发明的方法的实施例一,包括步骤:
步骤101、接收请求信息;
步骤102、根据预先生成的多层信息映射表,表明所述请求信息是否是用于获取多层信息,如果是,则进入步骤103,否则进入步骤104;
本发明各个实施例中的多层信息,主要用于指包括那些可以用树型目录进行分类的信息,但是不限于此。因为,各种各样的信息及其对应的资源,都可以根据这样或那样的标准进行分类。由于进行分类的逻辑概念存在着层次高低、范围大小的差异,从而使得有些信息不可避免地处于分类树的某个细小的、不重要的“枝干”上,从而使得获取最小或最具体的某个信息的难度要远远大于那些位于“主干”上的信息。
其中,在实际运用中,所述多层信息可以具体为:连续网络资源信息。
其中,在实际运用中,所述连续网络资源信息可以具体为:连续剧信息或连续讲座信息或连续音频信息或连续视频信息或连续电子书信息。
步骤103、根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息;
步骤104、返回提示信息,提示用户输入有误。
利用本发明实施例,通过接收请求信息,如果根据预先生成的多层信息映射表,表明所述请求信息是否是用于获取多层信息,则根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息。从而实现了:
首先,克服了现有技术中无法提供多层信息的技术问题,可以提供多层信息有关的搜索结果,而不是像现有技术中仅仅能返回与查询词有关的名称信息。
其次,提高了视频搜索引擎的搜索性能。当用户需要查询某连续剧时,如需要查询连续剧《越狱》,本发明实施例通过预置的“越狱”查询请求有关与所述连续剧信息的对应关系,输出“越狱”查询请求对应的《越狱》有关连续剧信息,可以返回给用户多种形式剧集信息的相关视频,显著提高了检索的查全率。
其中,上述实施例中,所述多层信息为连续剧剧集信息。
其中,上述实施例中,所述预先生成具体为:
接收多层信息文本;
根据所述多层信息文本,生成多层信息映射表。
其中,上述实施例中,所述接收到请求信息具体为:
接收原始描述文本;
提取所述原始描述文本中包含的与所述多层信息有关的内容,作为接收到的请求信息。
其中,上述实施例中,所述请求信息以全角小写标准字符串的形式表示。
其中,上述实施例中,所述多层信息包括:
所述连续剧的部及部序号;或,
集及集序号;或,别名。
其中,上述实施例中,所述多层信息映射表具体为:连续剧剧集信息映射表,所述连续剧剧集信息映射表包括:
连续剧名称,与所述连续剧名称对应的别名及别名数;
或,
连续剧名称,与所述连续剧名称对应的部数;或,
连续剧名称,与所述连续剧名称对应的集数;或,
连续剧名称,以及:
与所述连续剧名称对应的别名及别名数、与所述连续剧名称对应的部数和与所述连续剧名称对应的集数。
其中,上述实施例中,所述“根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息”具体为:
用状态机分析所述请求信息;
根据所述状态机中预置的请求信息与相关状态的对应关系,在各个状态间跳转;
根据所述状态机的最终状态,输出所述最终状态对应的所述多层信息。
其中,上述实施例中,所述“根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息”具体为:
对所述请求信息中的标准字符串进行逐字扫描,得到所述字符串中包含的所有字符;
根据状态机中预置的所述字符与相关状态的对应关系,在所述字符对应的状态间跳转;
将查找得到的与所述字符串对应的最终状态,作为所述最终状态对应的所述多层信息输出。
其中,上述实施例中,在所述输出所述请求信息对应的所述多层信息步骤之后,还包括:
根据所述多层信息,建立索引。
其中,上述实施例中,在所述建立索引步骤之后,还包括:
输出所述索引对应的多层信息;或,
输出所述索引对应的多层信息及所述多层信息的基本信息;或,
输出所述索引对应的多层信息、所述多层信息的基本信息以及输出所有所述多层信息的索引链接。
下面结合附图,介绍本发明更详细的实施方式。
参考图2所示,是本发明的方法的实施例二,本实施例以连续剧剧集信息为例进行详细的说明,连续剧剧集信息,作为多层信息的一种,具备多层信息的一般属性,即连续剧剧集信息存在着从连续剧名称、别名、到部、集等等多层分级,每一级概念之间存在着一定的包容关系。本发明的实施例的处理过程,包括步骤:
步骤201、读取连续剧信息文件;
连续剧信息文件为人工编辑的文本文件,(编辑人员通过分析数据库中的连续剧数据,得到库中所包含的连续剧的名称及其别名、部数和集数等信息,人工编辑得到连续剧信息文本),记录了视频数据库中包含的所有连续剧视频的信息。当然,对于所属领域的技术人员而言,可以明白,连续剧信息文件也可以通过软件自动提取数据库中的连续剧数据的方式来自动生成。
这些连续剧信息可以包括连续剧的名称、别名、部数和集数等。
步骤202、生成连续剧信息映射表;
通过将接收到的所述连续剧信息文件进行读取分析,就能够生成连续剧信息映射表VideoInfo,供后续使用。映射表VideoInfo可以由“Key-Value”对组成,其中Key为连续剧名称,Value为该连续剧的相关信息(别名数、部数、集数等),同一连续剧的不同别名单独为Key。即将输入的连续剧信息文本文件,生成为连续剧信息映射表。连续剧信息映射表实现了将连续剧名称与连续剧信息的对应关系,实现了将经由连续剧名称来查询连续剧所包含的多种信息。
步骤203、进行原始描述文本的预处理,输出标准字符串;
原始描述文本是用来表示用户需要搜索的视频文件的有关信息的载体,原始描述文本预处理是将原始描述文本转换为符合规范的标准字符串,以方便后续分析处理,具体过程分为格式转换和信息过滤。首先,将原始描述文本全部转换为“全角小写”格式;随后过滤原始描述文本中的网站来源等无关信息,如“_56”、“-Mofile”、“-视频”、“-六间房”、“酷6”等。通过将输入的需要获取的视频的原始描述文本,滤除部分无关信息的全角小写标准字符串,输出为标准字符串,供后续流程分析识别。
步骤204、根据处理后生成的标准字符串,判断所述原始描述文本是否用来获取连续剧信息。
通过分析前述流程处理后生成的标准字符串,判断原始描述文本是否描述了连续剧信息,该视频是否是连续剧视频,并决定后续的处理过程。对标准字符串进行逐字扫描,同时搜索连续剧映射表中是否存在名为当前子字符串的连续剧。如果标准字符串中包含映射表内的连续剧名,则此标准字符串为用来获取连续剧信息,而且数据库中也存储了相应的连续剧视频文件,则进入步骤205,继续后续操作;否则,做为非连续剧直接返回。
步骤205、使用“状态机算法”,提取连续剧的剧集信息。
状态机是由不同状态组成的集合系统,其中包括一个初态,若干个中间态和若干个终态,各个状态之间由“转换关系”相连接。状态机从初态开始,当特定事件发生时,根据相应的转换关系从当前状态跳转到新的状态,直到到达某终态后退出。
状态机可分为“有限状态机”和“无限状态机”。有限状态机由状态集(包括初态、中间态和终态)、输入符号集、转换关系模型组成。其中,转换关系模型表示由输入符号和当前状态到下一状态的转换映射关系。当输入符号串时,状态机进入初始状态开始运行,随后根据输入符号、当前状态和转换关系模型决定下一个状态,直至运行到终态结束。状态机算法在人工智能技术,数字电路设计,编译原理等多领域得到了广泛应用。
本发明实施例中使用“有限状态机”对描述连续剧视频的标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转。通过不同状态间的跳转来处理剧集信息不同的表达形式,最后根据状态机的终态,可以获得包括连续剧剧集信息在内的连续剧信息。引发状态跳转的特定字符包括连续剧名称、数字、关键字“第”、“部”、“集”等,具体跳转字符见下表1。
表1
“①②③④⑤⑥⑦⑧” |
根据上述表1,以及实际的可能需要,设计了图3所示的本发明中状态机的一种基本设计结构示意图,具体实现时,可以将其他更为复杂的跳转关系也设计进去。这种根据各个状态的跳转来进行连续剧信息的匹配设计,没有超出本发明的保护范围。
步骤206、使用所述剧集信息,建立索引。
在视频搜索引擎中,根据状态机输出的连续剧视频剧集信息,以剧集信息为Key建立索引(可使用倒排索引等通用技术);当用户查询连续剧时,搜索引擎将向用户展现该连续剧的基本信息及所有剧集信息的索引链接,方便用户点击查询。这样可以有效的优化搜索性能,显著的提升用户体验。
本发明中用户查询连续剧时的会弹出相应的展现界面,当用户查询“越狱”时,本发明的展现界面中不但展现了演员信息,还展现了内容简介,提供了本连续剧包括的各季的链接,以及某一季所包含的各集的链接,对于各集的链接,还同时给出了各集中的截图,并且对各集的链接,都给出了其相应的分类信息。当用户想点击展现界面中的一个索引链接后,如当用户点击“越狱”的第三季第1集时,搜索引擎将不同形式剧集信息的视频返回给用户,如“越狱第三季01”“越狱第3季01”等,供用户选择,在剧集信息的展现界面中,将所有与此剧集信息相关的链接展现,如优酷网、56网、KU6网等所包含的与“越狱”的第三季第1集有关的全部剧集都予以展现。结果,能够将“越狱”的第三季第1集相同的,但是剧集信息表示方法不同的,如“越狱”的第三季01、“越狱3第1集”、“越狱第三季-1”等等。实现了即便是不同用户的搜索习惯不同,只要他们表达的探索目的相同,就反馈回来同样的搜索结果。大大提高了用户的搜索体验,提升了搜索效率,减少了无关信息,使得搜索的结果更加精确,满足了客户的不同搜索习惯。
利用本发明实施例,实现了对于用户输入的请求信息,经过状态机算法的跳转,向用户返回与查询词所对应的连续剧剧集信息的索引链接。而且,用户点击相应的链接后,就能全面地获得相关连续剧的剧集信息在内的有关连续剧信息,并且能够对于返回的连续剧文件进行定位观看和浏览观看(定位观看是指用户有明确的目的要观看该连续剧的具体某一部分,浏览观看是指用户想要了解该连续剧的整体信息浏览该剧的剧集信息,随后再决定观看哪一部分),从而获得更好的用户体验。
参考图4所示,是本发明的获取多层信息的装置的实施例一的框图,包括:
接收单元401,用于接收请求信息;
多层信息判断单元402,用于:如果根据预先生成的多层信息映射表,表明所述请求信息是用于获取多层信息,则生成输出指令;
第一输出单元403,用于:接收所述输出指令后,根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息。
利用本发明的装置的实施例,通过接收单元接收请求信息,多层信息判断单元根据预先生成的多层信息映射表,表明所述请求信息是用于获取多层信息,则生成输出指令,再由第一输出单元接收所述输出指令后,根据预置的所述请求信息与所述多层信息的对应关系,输出所述请求信息对应的所述多层信息。从而实现了:
首先,克服了现有技术中无法提供多层信息的技术问题,可以提供多层信息有关的搜索结果,而不是像现有技术中仅仅能返回与查询词有关的名称信息。
其次,提高了视频搜索引擎的搜索性能。当用户需要查询某连续剧时,如需要查询连续剧《越狱》,本发明实施例通过预置的“越狱”查询请求有关与所述连续剧信息的对应关系,输出“越狱”查询请求对应的《越狱》有关连续剧信息,可以返回给用户多种形式剧集信息的相关视频,显著提高了检索的查全率。
其中,上述实施例中,还可以包括:
映射表生成单元,用于:根据接收的多层信息文本,生成多层信息映射表。
其中,上述实施例中,所述接收单元具体为:
接收模块,用于接收原始描述文本;
提取模块,用于:提取所述原始描述文本中包含的与所述多层信息有关的内容,作为接收到的请求信息。
其中,上述实施例中,所述多层信息可以包括:
所述连续剧的部及部序号;或,
集及集序号;或,别名。
其中,上述实施例中,所述多层信息映射表具体为:连续剧剧集信息映射表,所述连续剧剧集信息映射表可以包括:
连续剧名称,与所述连续剧名称对应的别名及别名数;
或,
连续剧名称,与所述连续剧名称对应的部数;或,
连续剧名称,与所述连续剧名称对应的集数;或,
连续剧名称,以及:
与所述连续剧名称对应的别名及别名数、与所述连续剧名称对应的部数和与所述连续剧名称对应的集数。
其中,上述实施例中,所述请求信息以全角小写标准字符串的形式表示。
其中,上述实施例中,所述输出单元具体为:
扫描模块,用于对所述请求信息中的标准字符串进行逐字扫描,得到所述字符串中包含的所有字符;
跳转模块,用于:根据状态机中预置的所述字符与相关状态的对应关系,在所述字符对应的状态间跳转;
输出模块,用于:将查找得到的与所述字符串对应的最终状态,作为所述最终状态对应的所述多层信息输出。
其中,上述实施例中,还可以包括:
建立单元,用于:根据所述多层信息,建立索引。
其中,上述实施例中,还可以包括:
第二输出单元,用于:输出所述索引对应的多层信息;或,
第三输出单元,用于:输出所述索引对应的多层信息及所述多层信息的基本信息;或,
第四输出单元,用于:输出所述索引对应的多层信息、所述多层信息的基本信息和输出所有所述多层信息的索引链接。
其中,在实际运用中,所述多层信息可以具体为:连续网络资源信息。
其中,在实际运用中,所述连续网络资源信息可以具体为:连续剧信息或连续讲座信息或连续音频信息或连续视频信息或连续电子书信息或连续剧剧集信息。
参考图5所示,是本发明的获取多层信息的系统的实施例一的框图,包括:
客户端501和服务器端502,
所述客户端501包括:用于:接收搜索请求后,将所述搜索请求发送到所述服务器端502,并显示所述服务器端502对所述搜索请求的处理结果;
所述服务器端可以是本发明的装置的各个实施例中任一个所描述的装置。
利用本发明的系统的实施例,通过接收客户端的搜索请求后,将所述搜索请求发送到所述服务器端,由所述服务器端对根据客户端的搜索请求的内容,在多层信息映射表中判断所述搜索请求是否用来获取多层信息,如果确定是,则由服务器端的相关功能模块进行相应的处理后,返回所述搜索请求所对应的多层信息。
本发明的系统的各个实施例的处理方式与本发明的方法和装置的相应部分对应,此不重复。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种获取多层信息的方法,其特征在于,对数据库中的原始描述文本进行预处理,生成标准字符串,当所述原始描述文本用于获取连续剧剧集信息时,对标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转,得到包括连续剧剧集信息在内的连续剧信息,所述原始描述文本用来表示用户需要搜索的视频文件的有关信息的载体,所述连续剧剧集信息为存在着多层分级、每一级概念之间存在着一定的包含关系的信息,所述方法包括:
接收客户端发送的搜索请求信息;
如果根据预先生成的连续剧信息映射表,表明所述搜索请求信息是用于获取连续剧剧集信息,则进入标准状态转化过程,所述连续剧信息映射表为读取连续剧信息文本,根据所述连续剧信息文本生成的映射表,并实现了连续剧名称与连续剧信息的对应关系;
标准状态转化过程:对所述搜索请求信息中的标准字符串进行逐字扫描,获得所述搜索请求信息中的标准字符串所包含的所有字符,根据状态机中预置的字符与相关状态的对应关系,在所述字符对应的状态间跳转,得到与所述标准字符串对应的最终状态,将查找得到的与所述标准字符串对应的最终状态对应的连续剧剧集信息输出,并向用户返回与查询词对应的连续剧剧集信息的索引链接。
2.如权利要求1所述的方法,其特征在于,所述预先生成具体为:
读取连续剧信息文本;
根据所述连续剧信息文本,生成连续剧信息映射表。
3.如权利要求1所述的方法,其特征在于,所述接收到请求信息具体为:
接收原始描述文本;
提取所述原始描述文本中包含的与所述连续剧剧集信息有关的内容,作为接收到的请求信息。
4.如权利要求1所述的方法,其特征在于,所述请求信息以全角小写标准字符串的形式表示。
5.如权利要求1所述的方法,其特征在于,所述连续剧剧集信息包括:
所述连续剧的部及部序号;或,
集及集序号;或,别名。
6.如权利要求2所述的方法,其特征在于,所述连续剧信息映射表具体为:连续剧剧集信息映射表,所述连续剧剧集信息映射表包括:
连续剧名称,与所述连续剧名称对应的别名及别名数;
或,
连续剧名称,与所述连续剧名称对应的部数;或,
连续剧名称,与所述连续剧名称对应的集数;或,
连续剧名称,以及:
与所述连续剧名称对应的别名及别名数、与所述连续剧名称对应的部数和与所述连续剧名称对应的集数。
7.如权利要求1所述的方法,其特征在于,在将查找得到的与所述字符串对应的最终状态对应的连续剧剧集信息输出,步骤之后,还包括:
根据所述连续剧信息,建立索引。
8.如权利要求7所述的方法,其特征在于,在所述建立索引步骤之后,还包括:
输出所述索引对应的连续剧剧集信息;或,
输出所述索引对应的连续剧剧集信息及所述连续剧剧集信息的基本信息;或,
输出所述索引对应的连续剧剧集信息、所述连续剧剧集信息的基本信息以及输出所有所述连续剧剧集信息的索引链接。
9.一种获取多层信息的装置,其特征在于,包括:
映射表生成单元,用于读取连续剧信息文本,根据所述连续剧信息文本,生成连续剧信息映射表;
接收单元,用于接收客户端发送的搜索请求信息;
多层信息判断单元,用于:如果根据预先生成的连续剧信息映射表,表明所述请求信息是用于获取连续剧剧集信息,则进入第一输出单元,所述连续剧信息映射表实现了连续剧名称与连续剧信息的对应关系;
第一输出单元,用于:对所述搜索请求信息中的标准字符串进行逐字扫描,获得所述搜索请求信息中的标准字符串所包含的所有字符,根据状态机中预置的字符与相关状态的对应关系,在所述字符对应的状态间跳转,得到与所述标准字符串对应的最终状态,将查找到的与所述标准字符对应的最终状态对应的连续剧剧集信息输出,并向用户返回与查询词对应的连续剧剧集信息的索引链接,所述连续剧剧集信息为对数据库中的所有原始描述文本进行预处理,生成标准字符串,当所述原始描述文本用于获取连续剧剧集信息时,对标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转得到的信息,且,所述连续剧剧集信息为存在着多层分级、每一级概念之间存在着一定的包含关系的信息,所述原始描述文本用来表示用户需要搜索的视频文件的有关信息的载体。
10.如权利要求9所述的装置,其特征在于,所述接收单元具体为:
接收模块,用于接收原始描述文本;
提取模块,用于:提取所述原始描述文本中包含的与所述连续剧剧集信息有关的内容,作为接收到的请求信息。
11.如权利要求9所述的装置,其特征在于,所述连续剧剧集信息包括:
所述连续剧的部及部序号;或,
集及集序号;或,别名。
12.如权利要求9所述的装置,其特征在于,所述连续剧信息映射表具体为:连续剧剧集信息映射表,所述连续剧剧集信息映射表包括:
连续剧名称,与所述连续剧名称对应的别名及别名数;
或,
连续剧名称,与所述连续剧名称对应的部数;或,
连续剧名称,与所述连续剧名称对应的集数;或,
连续剧名称,以及:
与所述连续剧名称对应的别名及别名数、与所述连续剧名称对应的部数和与所述连续剧名称对应的集数。
13.如权利要求9所述的装置,其特征在于,所述请求信息以全角小写标准字符串的形式表示。
14.如权利要求9所述的装置,其特征在于,还包括:
建立单元,用于:根据所述连续剧剧集信息,建立索引。
15.如权利要求14所述的装置,其特征在于,还包括:
第二输出单元,用于:输出所述索引对应的连续剧剧集信息;或,
第三输出单元,用于:输出所述索引对应的连续剧剧集信息及所述连续剧剧集信息的基本信息;或,
第四输出单元,用于:输出所述索引对应的连续剧剧集信息、所述连续剧剧集信息的基本信息和所有所述连续剧剧集信息的索引链接。
16.一种获取多层信息的系统,其特征在于,包括:
客户端和服务器端,
所述客户端包括:用于:接收搜索请求信息后,将所述搜索请求发送到所述服务器端,并显示所述服务器端对所述搜索请求的处理结果;
所述服务器端是权利要求9-15任一项所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101028051A CN101261645B (zh) | 2008-03-26 | 2008-03-26 | 一种获取多层信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101028051A CN101261645B (zh) | 2008-03-26 | 2008-03-26 | 一种获取多层信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101261645A CN101261645A (zh) | 2008-09-10 |
CN101261645B true CN101261645B (zh) | 2010-08-11 |
Family
ID=39962100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101028051A Active CN101261645B (zh) | 2008-03-26 | 2008-03-26 | 一种获取多层信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101261645B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063476B (zh) * | 2010-12-13 | 2013-07-10 | 百度时代网络技术(北京)有限公司 | 视频搜索方法及系统 |
CN102033923B (zh) * | 2010-12-14 | 2013-08-21 | 百度时代网络技术(北京)有限公司 | 在线视频的搜索与展现方法及装置 |
CN103559286B (zh) * | 2013-11-08 | 2017-04-26 | 北京奇虎科技有限公司 | 视频搜索结果的处理方法及装置 |
CN106874502A (zh) * | 2014-03-19 | 2017-06-20 | 北京奇虎科技有限公司 | 一种视频搜索的方法、装置及终端 |
CN104636451B (zh) * | 2015-01-27 | 2018-03-09 | 孙继荣 | 一种农业电子商品的搜索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1549162A (zh) * | 2003-05-21 | 2004-11-24 | 联想(北京)有限公司 | 可扩展的安全信息处理方法及系统 |
CN1723463A (zh) * | 2003-02-06 | 2006-01-18 | 国际商业机器公司 | 用于将可扩展标记语言映射到n维数据结构的方法和系统 |
EP1657626A1 (en) * | 2003-08-18 | 2006-05-17 | Gunze Limited | Transparent touch panel and electronic apparatus |
-
2008
- 2008-03-26 CN CN2008101028051A patent/CN101261645B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1723463A (zh) * | 2003-02-06 | 2006-01-18 | 国际商业机器公司 | 用于将可扩展标记语言映射到n维数据结构的方法和系统 |
CN1549162A (zh) * | 2003-05-21 | 2004-11-24 | 联想(北京)有限公司 | 可扩展的安全信息处理方法及系统 |
EP1657626A1 (en) * | 2003-08-18 | 2006-05-17 | Gunze Limited | Transparent touch panel and electronic apparatus |
Non-Patent Citations (1)
Title |
---|
JP特开2006-172165A 2006.06.29 |
Also Published As
Publication number | Publication date |
---|---|
CN101261645A (zh) | 2008-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063476B (zh) | 视频搜索方法及系统 | |
CN106982150B (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
CN100485603C (zh) | 用于从搜索查询中产生概念单元的系统和方法 | |
CN100372372C (zh) | 电子节目指南数据的自由文本和属性搜索 | |
CN101339560B (zh) | 一种搜索系列性数据的方法、装置及一种搜索引擎系统 | |
CN102110170B (zh) | 一种具有信息发布和搜索功能的系统及信息发布方法 | |
CN102710795B (zh) | 热点聚合方法及装置 | |
CN101419614A (zh) | 视频资源聚类方法和装置 | |
CN104504150A (zh) | 新闻舆情监测系统 | |
CN101261645B (zh) | 一种获取多层信息的方法和装置 | |
CN104035993B (zh) | 电子书的存储检索方法、电子书管理系统、阅读系统 | |
CN105721944A (zh) | 智能电视的新闻资讯推荐方法 | |
CN101980529A (zh) | 支持三网融合的视频服务系统 | |
WO2015096609A1 (zh) | 视频资源的倒排索引文件建立方法及其系统 | |
CN104615734B (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
RU2568276C2 (ru) | Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска | |
CN113360599A (zh) | 一种基于内容识别的多源异构情报汇聚协同处理平台 | |
CN102955802A (zh) | 从数据报表中获取数据的方法和装置 | |
CN101719124A (zh) | 基于正则匹配的无限层次多路径采集系统 | |
CN110941757A (zh) | 一种基于大数据的政策信息查询推送系统及方法 | |
CN112000866B (zh) | 互联网数据分析方法、装置、电子装置及介质 | |
CN103699590B (zh) | 提供图文教程类问题解决方案的方法和服务器 | |
CN104965902A (zh) | 一种富集化url的识别方法和装置 | |
CN104778233A (zh) | 一种基于点击量的搜索方法和装置 | |
CN102819613B (zh) | Rss信息分页抓取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |