CN105512232B - 数据存储方法及装置 - Google Patents

数据存储方法及装置 Download PDF

Info

Publication number
CN105512232B
CN105512232B CN201510857786.3A CN201510857786A CN105512232B CN 105512232 B CN105512232 B CN 105512232B CN 201510857786 A CN201510857786 A CN 201510857786A CN 105512232 B CN105512232 B CN 105512232B
Authority
CN
China
Prior art keywords
index
data
captured data
cache
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510857786.3A
Other languages
English (en)
Other versions
CN105512232A (zh
Inventor
虞航仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510857786.3A priority Critical patent/CN105512232B/zh
Publication of CN105512232A publication Critical patent/CN105512232A/zh
Application granted granted Critical
Publication of CN105512232B publication Critical patent/CN105512232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Abstract

本发明实施例提供了一种数据存储方法及装置。该数据存储方法,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。通过本方案能够实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行。

Description

数据存储方法及装置
技术领域
本发明涉及数据检索技术领域,特别是涉及数据存储方法及装置。
背景技术
为了提高检索效率,服务器通常会为数据检索所依据的数据建立索引,并将索引组织在一起,形成索引库,其中,为数据检索所依据的数据建立索引通常为从数据检索所依据的数据中提取一些信息作为索引。举例而言:对于一篇文档,所对应的索引为从该文档中提取的文字内容或者文档的属性参数,文档的属性参数可以为:作者姓名,文档类别,等等。
现有技术中,为了保证数据检索效率,服务器通常在获得所抓取的数据后,为所抓取的数据建立索引,进而,将所抓取的数据和索引保存在缓存中,以便后续需要执行数据检索时,直接依据缓存中所存储的数据和索引来完成检索。其中,通常通过网络爬虫来在网络上抓取数据。
但是,由于将所抓取的数据和索引保存在缓存中,这样会带来如下问题:当服务器发生断电或故障时,缓存中的相关数据会消失或存在异常,这样无疑会影响数据检索过程的有效进行。可见,如何实现数据检索所依据的相关数据的持久性是一个亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种数据存储方法及装置,以实现数据检索所依据的相关数据的持久性。具体技术方案如下:
第一方面,本发明实施例提供了一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
可选的,所述方法还包括:
在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
可选的,所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
可选的,在所述获得已抓取的数据,对所述已抓取的数据建立索引之后,所述方法还包括:
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述将所述已抓取的数据及所述索引保存在缓存中,包括:
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:
将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:
对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中。
可选的,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:
生成包含所述已抓取的数据及所建立的索引的新索引库并将所述新索引库存储在所述缓存中;
所述方法还包括:
获得检索词,在所述缓存中存储的各索引库中查找与所述检索词匹配的索引;
将查找到索引对应的已抓取的数据作为检索结果输出。
可选的,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述方法还包括:
获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则将查找到索引对应的已抓取的数据作为检索结果输出;
判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
第二方面,本发明实施例提供了一种数据存储装置,应用于服务器中,所述装置包括:索引建立模块、数据保存模块、备份判断模块和备份模块,
所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述数据保存模块,用于将所述已抓取的数据及所述索引保存在缓存中;
所述备份判断模块,用于判断是否满足备份条件,如果满足,则触发所述备份模块;
所述备份模块,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
可选的,所述装置还包括:数据复制模块,用于在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
可选的,所述备份模块,具体用于:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述数据复制模块,具体用于:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
可选的,所述装置还包括:第一参数值确定模块,用于在所述索引建立模块获得已抓取的数据,对所述已抓取的数据建立索引之后,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块,具体用于:将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述备份模块,具体用于:将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
可选的,所述装置还包括:
检索信息获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及检索方信息;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第一最终结果确定模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
可选的,所述装置还包括:
过滤条件获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及过滤条件;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第二最终结果确定模块,用于将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
可选的,所述装置还包括:
第二参数值确定模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
数据清除模块,用于将对应所确定的参数项的参数值的已抓取的数据及索引清除。
可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述数据保存模块,包括:
第一更新子模块,用于对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
第二更新子模块,用于在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中。
可选的,所述服务器的缓存中存储有至少一个索引库,所述数据保存模块,具体用于:生成包含所述已抓取的数据及所建立的索引的新索引库并将所述新索引库存储在所述缓存中;
所述装置还包括:第一索引查找模块和第一结果输出模块,
所述第一索引查找模块,用于获得检索词,在所述缓存中存储的各索引库中查找与所述检索词匹配的索引;
所述第一结果输出模块,用于将查找到索引对应的已抓取的数据作为检索结果输出。
可选的,所述服务器中存储有总索引库和分索引库,所述数据保存模块,具体用于:将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述装置还包括:第二索引查找模块、第二结果输出模块、入库判断模块和入库模块,
所述第二索引查找模块,用于获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则触发所述第二结果输出模块;
所述第二结果输出模块,用于将查找到索引对应的已抓取的数据作为检索结果输出;
所述入库判断模块,用于判断所述分索引库是否满足入库条件,如果是,则触发所述入库模块;
所述入库模块,用于将所述分索引库中的数据转移至所述总索引库中。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。与现有技术相比,本方案将缓存中的已抓取的数据及索引保存到硬盘中进行备份,由于硬盘具有非易失性特性且存储性能较为稳定,因此,能够实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种数据存储方法的流程图;
图2为本发明实施例所提供的一种数据存储方法的另一流程图;
图3为本发明实施例所提供的一种数据存储方法的另一流程图;
图4为本发明实施例所提供的一种数据存储装置的结构示意图;
图5为本发明实施例所提供的一种数据存储装置的另一结构示意图;
图6为本发明实施例所提供的一种数据存储装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行,本发明实施例提供了一种数据存储方法及装置。
下面首先对本发明实施例所提供的一种数据存储方法进行介绍。
需要说明的是,本发明实施例所提供的一种数据存储方法应用于服务器中。
如图1所示,本发明实施例提供了一种数据存储方法,可以包括如下步骤:
S101,获得已抓取的数据;
其中,服务器可以多次获得已抓取的数据,并在每次获得已抓取的数据后,执行后续的S102-S103,具体的,所述已抓取的数据可以为:网络爬虫从网络上所抓取的数据。
可以理解的是,网络爬虫可以根据预设的爬取规则从网络上爬取数据,以用于数据检索过程,其中,网络爬虫从网络上爬取数据的具体实现方式可以依据现有技术中的网络爬虫爬取数据的实现方式,在此不做赘述。
并且,服务器获得已抓取的数据具体可以包括:接收网络爬虫定时上传的已抓取的数据,或者,定时向网络爬虫请求获得其已抓取的数据,这都是合理的。
S102,对所述已抓取的数据建立索引;
其中,在获得已抓取的数据后,可以对所述已抓取的数据建立索引,以便后续的数据检索过程为:基于索引的数据检索过程,提高检索效率。
其中,对所述已抓取的数据建立索引的具体实现方式可以采用现有技术中的实现方式,举例而言:可以采用现有的倒排表方式来对所述已抓取的数据建立索引,当然并不局限于此。
S103,将所述已抓取的数据及所述索引保存在缓存中;
在对所述已抓取的数据建立索引后,可以将所述已抓取的数据及所述索引保存在缓存中,以便后续利用缓存中的索引及所对应的数据来执行数据检索过程,提高检索效率。
需要再次强调的是,为了不断完善数据检索所依据的相关数据的全面性,可以多次获得已抓取的数据,进而,在每次获得所述已抓取的数据后,均对所述已抓取的数据建立索引,并将所述已抓取的数据及所述索引保存在缓存中。
可以理解的是,所述已抓取的数据及所述索引在缓存中的具体的存储形式可以参照现有技术中的存储形式,在此不做限定。
S104,判断是否满足备份条件,如果满足,触发执行S105;否则,不作处理;
由于将所述已抓取的数据及所述索引保存在缓存中,这样,当服务器发生断电或故障时,缓存中的相关数据会消失或存在异常,这样无疑会影响数据检索过程的有效进行,因此,为了避免由于缓存中的相关数据消失或存在异常而导致数据检索无法进行的问题,可以在符合备份条件时,将缓存中的相关数据保存到硬盘中进行备份,以实现数据检索所依据的相关数据的持久性。
基于上述备份思想,服务器可以判断是否满足备份条件,并根据判断结果执行相应的操作,具体的,当判断出满足备份条件时,表明可以对缓存中的相关数据进行备份,因此,可以执行S105;而当判断出满足备份条件时,表明无需对缓存中的相关数据进行备份,因此,可以不作处理。
具体的,所述备份条件可以为:获得备份指令,其中,备份指令可以由系统自动发出或人工发出;或者,所述备份条件可以为:检测到系统时间为预定备份时间;或者,所述备份条件可以为:缓存中的相关数据的数据量超过预定阈值。可以理解的是,本实施例中所给出的备份条件仅仅作为示例,并不应该构成对本发明实施例的限定。
需要说明的是,所谓缓存中的相关数据为:缓存中的所述已抓取的数据以及所述索引,为了引用方便,将缓存中的所述已抓取的数据以及所述索引两者合称为缓存中的相关数据。
S105,将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
在判断出满足备份条件时,可以将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,由于硬盘具有非易失性特性且存储性能较为稳定,因此,能够实现数据检索所依据的相关数据的持久化。
其中,缓存中的所述已抓取的数据及所述索引在硬盘中的具体存储形式可以根据实际情况进行设定,本发明实施例对此不做限定。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。与现有技术相比,本方案将缓存中的已抓取的数据及索引保存到硬盘中进行备份,由于硬盘具有非易失性特性且存储性能较为稳定,因此,能够实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行。
更进一步的,基于包含步骤S101-S105的实施例,如图2所示,本发明另一实施例所提供的数据存储方法,还可以包括如下步骤:
S106,在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
由于为了较高的数据检索效率,数据检索过程中,服务器可以利用缓存中的相关数据进行数据检索,因此,在所述缓存中的所述已抓取的数据及所述索引消失后,可以将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中,从而保证数据检索的检索效率。
需要说明的是,为了提高传输效率和存储效率,在一种实现方式中,所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,可以包括:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
相应的,所述在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中,可以包括:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
本领域技术人员可以理解的是,所谓对所述缓存中的已抓取的数据及所述索引进行序列化处理具体指:将所述缓存中的已抓取的数据及所述索引封装为一个文件,其中,该文件无法被直接使用,仅仅利于存储和传输,在需要使用时,需要进行作为序列化处理的逆过程的反序列化处理,从而恢复为原始的数据。其中,对所述缓存中的已抓取的数据及所述索引进行序列化处理的具体实现方式可以参照现有技术中对数据的序列化处理方式,在此不做限定。
更进一步的,基于包含步骤S101-S105的实施例,如图3所示,本发明另一实施例所提供的数据存储方法,在所述获得已抓取的数据,对所述已抓取的数据建立索引之后,还可以包括如下步骤:
S107,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述将所述已抓取的数据及所述索引保存在缓存中(S103),可以包括:
S1031,将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份(S105),可以包括:
S1051,将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
为了丰富数据检索过程所依据的相关数据,从而保证后续满足差异化的检索需求,可以在获得已抓取的数据后,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值。
其中,通过已抓取的数据的参数项的参数特征,可以确定出已抓取的数据的参数项的参数值,进而,后续通过参数值可以确定该参数值所对应的已抓取的数据是否需要被过滤;具体的,该参数项为存在差异化需求的需求项目,参数项的参数特征可以为已抓取的数据中能够表征参数项的词汇。例如:参数项可以为未成年适宜度,参数项的参数值可以为:权重值,参数项的参数特征可以为不良词汇,例如:暴力词汇、血腥词汇或色情词汇等等,其中,通过已抓取的数据中的不良词汇的出现频率或次数可以根据简单数学算法确定出已抓取的数据的参数项的参数值,其中,权重值越大,表明适宜程度越高;又如:参数项可以为适用年龄,参数项的参数值可以为:适用未满18岁和适用已满18岁两类数值,参数项的参数特征可以为不良词汇,例如:暴力词汇、血腥词汇或色情词汇等等,其中,通过已抓取的数据中的不良词汇的出现频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据的参数项的参数值;又如:参数项可以为适用性别,参数项的参数值可以为:适用男性和适用女性两类值,参数项的参数特征可以为:关于体育方面的词汇、关于护肤和购物方面的词汇等等具有较高领域识别性的词汇,其中,通过已抓取的数据中具有较高领域识别性的词汇的出现频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据所对应的参数项的参数值;又如:参数项可以适用操作系统,参数项的参数值可以为:适用安卓操作系统和适用于IOS操作系统两类值,参数项的参数特征可以为:涉及描述操作系统的词汇,其中,通过已抓取的数据中涉及各类操作系统的词汇的频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据所对应的参数项的参数值。
更进一步的,基于图3所示实施例,本发明另一实施例所提供的数据存储方法中,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还可以包括如下步骤:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
其中,用户可以通过终端向服务器发出检索请求,检索请求中携带有检索词和检索方信息,进而,服务器可以获得检索词及检索方信息,具体的,检索方信息可以为关于用户的信息,也可以为关于终端的信息,等等,这都是合理。举例而言:检索方信息可以为用户年龄,其中,该用户年龄可以由终端自动从用户的注册信息中获得,或者,可以由用户在输入检索词时的同时所输入,这都是合理的;检索方信息可以为用户性别,其中,该用户性别可以由终端自动从用户的注册信息中获得,或者,可以由用户在输入检索词的同时所输入,这都是合理的;检索方信息可以为终端的操作系统类别,其中,该操作系统类别可以由终端自动获知。
其中,在获得检索方信息后,可以根据检索方信息确定过滤条件,即通过检索方信息来确定哪些初始检索结果能够被去除;进而,在确定出过滤条件后,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。例如:参数项为未成年适宜度,检索方信息为年龄15岁,则过滤条件可以根据预先设定年龄与权重值的对应关系来设定,该过滤条件具体可以为:权重值小于第一权重值,该第一权重值为根据预先设定的年龄与权重值的对应关系所确定,那么,将所述初始检索结果中对应的权重值小于第一权重值的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用年龄,检索方信息为年龄15岁,则过滤条件可以为:适用已满18岁,那么,将所述初始检索结果中对应的参数项的参数值为适用已满18岁的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用性别,检索方信息为性别为女,则过滤条件可以为:适用男性,那么,将所述初始检索结果中对应的参数项的参数值为适用男性的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。
其中,检索词与索引相匹配具体可以包括:检索词的部分内容与索引相同、检索词与索引相同和/或检索词包含于索引,等等。举例而言:假设检索词为”笔记本”,那么,对于检索词与索引信息匹配为检索词包含于索引信息的情况,与该检索词匹配的索引信息可以包括:“笔记本排名”,对于检索词与索引信息匹配为检索词的部分内容与索引信息相同的情况,与该检索词匹配的索引信息可以包括:“云笔记”,对于检索词与索引信息匹配为检索词与索引信息相同的情况,与该检索词匹配的索引信息可以包括“笔记本”。
更进一步的,基于图3所示实施例,本发明另一实施例所提供的数据存储方法,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还可以包括如下步骤:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
其中,用户可以通过终端向服务器发出检索请求,检索请求中携带有检索词和过滤条件,其中,过滤条件与参数项具有对应性。例如:参数项为未成年适宜程度,过滤条件可以为:权重值大于或小于某一权重值,该某一权重值由终端所获得用户的年龄以及自身保存的年龄与权重值的对应关系所设定的;又如:参数项为适用年龄时,过滤条件可以为:适用未满18岁或适用已满18岁;又如:参数项为适用性别时,过滤条件可以为:适用女性或适用男性;又如:参数项为适用操作系统时,过滤条件可以为:适用安卓操作系统或适用IOS操作系统,等等。另外,关于检索词与索引匹配的相关内容可以参照上一实施例中关于检索词与索引匹配的相关内容,在此不做赘述。
在获得初始检索结果和过滤条件后,可以将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;例如:参数项为未成年适宜程度,过滤条件可以为:权重值小于第一权重值,那么,将所述初始检索结果中对应的参数项的参数值小于第一权重值的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用年龄,过滤条件可以为:适用已满18岁,那么,将所述初始检索结果中对应的参数项的参数值适用已满18岁的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用性别,检索方信息为性别为女,则过滤条件可以为:适用男性,那么,将所述初始检索结果中对应的参数项的参数值为适用男性的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。
更进一步的,基于图3所示的实施例,在本发明另一实施例所提供的数据存储方法中,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还可以包括如下步骤:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
其中,为了保证服务器的缓存中所存储的的已抓取数据和索引的有效性,可以定时或不定时对缓存中的相关数据执行清理操作。其中,所述数据清理条件可以根据参数项设定。例如:参数项为适用年龄,则数据清理条件可以为:未满18岁,此时,根据所述数据清理条件可以确定所需清理的已抓取的数据对应的参数项的参数值为:适用未满18岁,进而将对应参数项的参数值为适用未满18岁的已抓取的数据及索引清除;又如:参数项为适用性别,则数据清理条件可以为:女性,此时,根据所述数据清理条件可以确定所需清理的已抓取的数据对应的参数项的参数值为:适用女性,进而将对应参数项的参数值为适用女性的已抓取的数据及索引清除。
更进一步的,基于图1所示实施例,在本发明另一实施例所提供的数据存储方法中,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据及所述索引保存在缓存中,可以包括:
对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中。
其中,通过两个索引库的形式,可以保证索引库更新过程中,数据检索能够正常进行,避免了现有技术中仅仅存在一个索引库时更新过程影响检索过程的弊端。需要强调的是,“第一索引库”中的“第一”和“第二索引库”中的“第二”仅仅为了从命名上区分不同的索引库,并不具有任何限定意义。
更进一步的,基于图1所示实施例,在本发明另一实施例所提供的数据存储方法中,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据及所述索引保存在缓存中,可以包括:
生成包含所述已抓取的数据及所建立的索引的新索引库并将所述新索引库存储在所述缓存中;
所述方法还可以包括:
获得检索词,在所述缓存中存储的各索引库中查找与所述检索词匹配的索引;
将查找到索引对应的已抓取的数据作为检索结果输出。
其中,通过对每次所抓取到的数据建立独立的索引库的方式,能够解决由于现有技术中仅仅存在一个索引库时每次均更新该索引库所带来较大工作量的问题,同时保证了检索所依据的相关数据的完整性。另外,关于检索词与索引匹配等相关内容可以参照前述实施例的对应内容,在此不做赘述。
更进一步的,基于图1所示实施例,在本发明另一实施例所提供的数据存储方法中,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据及所述索引保存在缓存中,可以包括:
将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述方法还可以包括:
获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则将查找到索引对应的已抓取的数据作为检索结果输出;
判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
其中,通过将每次抓取到的数据以及索引保存分索引库中,避免了现有技术中仅仅存在一个索引库时每次均更新该索引库所带来较大工作量的问题;并且,在分索引库满足入库条件时,将所述分索引库中的数据转移至总索引库,以进一步降低分索引库的数据量,提高分索引库的更新效率。可以理解的是,所述入库条件可以根据实际情况进行设定,举例而言:分索引库的数据量达到预定阈值,或者,分索引库的未更新时间达到预定时长,或者,分索引库中的最新保存的数据在分索引库的存在时长超过预定阈值,等等。另外,关于检索词与索引匹配等相关内容可以参照前述实施例的对应内容,在此不做赘述。
相应于上述方法实施例,本发明实施例提供了一种数据存储装置,应用于服务器中,如图4所示,所述装置可以包括:索引建立模块410、数据保存模块420、备份判断模块430和备份模块440,
所述索引建立模块410,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述数据保存模块420,用于将所述已抓取的数据及所述索引保存在缓存中;
所述备份判断模块430,用于判断是否满足备份条件,如果满足,则触发所述备份模块;
所述备份模块440,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。与现有技术相比,本方案将缓存中的已抓取的数据及索引保存到硬盘中进行备份,由于硬盘具有非易失性特性且存储性能较为稳定,因此,能够实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行。
更进一步的,如图5所示,本发明另一实施例所提供的数据存储装置还可以包括:数据复制模块450,用于在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
在包含上述的数据复制模块450的实施例的基础上,所述备份模块440,具体用于:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述数据复制模块450,具体用于:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
更进一步的,在包含所述索引建立模块410、所述数据保存模块420、所述备份判断模块430和所述备份模块440的实施例的基础上,如图6所示,本发明另一实施例所提供的数据存储装置还可以包括:
第一参数值确定模块460,用于在所述索引建立模块获得已抓取的数据,对所述已抓取的数据建立索引之后,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块420,具体用于:将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述备份模块450,具体用于:将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
更进一步的,在包含第一参数值确定模块460的实施例基础上,本发明另一实施例所提供的数据存储装置还可以包括:
检索信息获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及检索方信息;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第一最终结果确定模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
更进一步的,在包含第一参数值确定模块460的实施例的基础上,本发明另一实施例所提供的数据存储装置还可以包括:
过滤条件获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及过滤条件;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第二最终结果确定模块,用于将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
更进一步的,在包含第一参数值确定模块460的实施例的基础上,本发明另一实施例所提供的数据存储装置还可以包括:
第二参数值确定模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
数据清除模块,用于将对应所确定的参数项的参数值的已抓取的数据及索引清除。
更进一步的,在包含所述索引建立模块410、所述数据保存模块420、所述备份判断模块430和所述备份模块440的实施例的基础上,本发明另一实施例所提供的数据存储装置中,所述服务器的缓存中存储有第一索引库和第二索引库,所述数据保存模块420,可以包括:
第一更新子模块,用于对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
第二更新子模块,用于在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中。
更进一步的,在包含所述索引建立模块410、所述数据保存模块420、所述备份判断模块430和所述备份模块440的实施例的基础上,本发明另一实施例所提供的数据存储装置中,所述服务器的缓存中存储有至少一个索引库,所述数据保存模块420,具体用于:生成包含所述已抓取的数据及所建立的索引的新索引库并将所述新索引库存储在所述缓存中;
所述装置还包括:第一索引查找模块和第一结果输出模块,
所述第一索引查找模块,用于获得检索词,在所述缓存中存储的各索引库中查找与所述检索词匹配的索引;
所述第一结果输出模块,用于将查找到索引对应的已抓取的数据作为检索结果输出。
更进一步的,在包含所述索引建立模块410、所述数据保存模块420、所述备份判断模块430和所述备份模块440的实施例的基础上,本发明另一实施例所提供的数据存储装置中,所述服务器中存储有总索引库和分索引库,所述数据保存模块420,具体用于:将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述装置还包括:第二索引查找模块、第二结果输出模块、入库判断模块和入库模块,
所述第二索引查找模块,用于获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则触发所述第二结果输出模块;
所述第二结果输出模块,用于将查找到索引对应的已抓取的数据作为检索结果输出;
所述入库判断模块,用于判断所述分索引库是否满足入库条件,如果是,则触发所述入库模块;
所述入库模块,用于将所述分索引库中的数据转移至所述总索引库中。
相应地,本申请实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本申请所述的一种数据存储方法。其中,本申请所述的一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
相应地,本申请实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本申请所述的一种数据存储方法。其中,本申请所述的一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
相应地,本申请实施例还提供了一种服务器,所述服务器包括:
处理器、存储器、通信接口和总线;
所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;
所述存储器存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份;
所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:
对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中;
或者,
所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述方法还包括:
获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则将查找到索引对应的已抓取的数据作为检索结果输出;
判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
3.根据权利要求2所述的方法,其特征在于,
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述获得已抓取的数据,对所述已抓取的数据建立索引之后,所述方法还包括:
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述将所述已抓取的数据及所述索引保存在缓存中,包括:
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:
将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
5.根据权利要求4所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
6.根据权利要求4所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
7.根据权利要求4所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
8.一种数据存储装置,其特征在于,应用于服务器中,所述装置包括:索引建立模块、数据保存模块、备份判断模块和备份模块,
所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述数据保存模块,用于将所述已抓取的数据及所述索引保存在缓存中;
所述备份判断模块,用于判断是否满足备份条件,如果满足,则触发所述备份模块;
所述备份模块,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份;
所述服务器的缓存中存储有第一索引库和第二索引库,所述数据保存模块,包括:
第一更新子模块,用于对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
第二更新子模块,用于在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中;
或者,
所述服务器中存储有总索引库和分索引库,所述数据保存模块,具体用于:将所述已抓取的数据及建立的索引保存在所述分索引库中;
所述装置还包括:第二索引查找模块、第二结果输出模块、入库判断模块和入库模块,
所述第二索引查找模块,用于获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则触发所述第二结果输出模块;
所述第二结果输出模块,用于将查找到索引对应的已抓取的数据作为检索结果输出;
所述入库判断模块,用于判断所述分索引库是否满足入库条件,如果是,则触发所述入库模块;
所述入库模块,用于将所述分索引库中的数据转移至所述总索引库中。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:数据复制模块,用于在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。
10.根据权利要求9所述的装置,其特征在于,所述备份模块,具体用于:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述数据复制模块,具体用于:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述装置还包括:第一参数值确定模块,用于在所述索引建立模块获得已抓取的数据,对所述已抓取的数据建立索引之后,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块,具体用于:将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;
所述备份模块,具体用于:将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
检索信息获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及检索方信息;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第一最终结果确定模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
过滤条件获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及过滤条件;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第二最终结果确定模块,用于将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
14.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二参数值确定模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
数据清除模块,用于将对应所确定的参数项的参数值的已抓取的数据及索引清除。
CN201510857786.3A 2015-11-30 2015-11-30 数据存储方法及装置 Active CN105512232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510857786.3A CN105512232B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510857786.3A CN105512232B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN105512232A CN105512232A (zh) 2016-04-20
CN105512232B true CN105512232B (zh) 2020-02-28

Family

ID=55720214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510857786.3A Active CN105512232B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Country Status (1)

Country Link
CN (1) CN105512232B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391030B (zh) * 2017-06-26 2020-04-28 日立楼宇技术(广州)有限公司 数据存储方法、装置、计算机可读存储介质以及计算机设备
CN113806408A (zh) * 2021-09-27 2021-12-17 济南浪潮数据技术有限公司 一种数据缓存方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
WO2012047593A2 (en) * 2010-09-28 2012-04-12 Alibaba Group Holding Limited Method and apparatus of ordering search results
CN102792300A (zh) * 2010-03-11 2012-11-21 微软公司 基于用户角色的可定制的语义搜索
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514112B (zh) * 2012-06-29 2016-11-02 浙江大华技术股份有限公司 一种数据存储方法及系统
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
CN102792300A (zh) * 2010-03-11 2012-11-21 微软公司 基于用户角色的可定制的语义搜索
WO2012047593A2 (en) * 2010-09-28 2012-04-12 Alibaba Group Holding Limited Method and apparatus of ordering search results
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统

Also Published As

Publication number Publication date
CN105512232A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US9792388B2 (en) Pattern extraction apparatus and control method therefor
KR101565759B1 (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
CN107911448B (zh) 一种内容推送方法及装置
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
WO2011063561A1 (en) Data extraction method, computer program product and system
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN110109910A (zh) 数据处理方法及系统、电子设备和计算机可读存储介质
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
CN111125298A (zh) 重建ntfs文件目录树的方法、设备及存储介质
CN105512232B (zh) 数据存储方法及装置
US20160248724A1 (en) Social Message Monitoring Method and Apparatus
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
Chawla et al. Automatic bug labeling using semantic information from LSI
CN105512230B (zh) 数据存储方法及装置
JP2008070997A (ja) 検索インデックス作成装置
Rome et al. Towards a formal concept analysis approach to exploring communities on the world wide web
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN112163158A (zh) 一种基于搜索历史、浏览足迹的搜索推荐方法
CN105224583B (zh) 日志文件的清理方法及装置
CN116450664A (zh) 数据处理方法、装置、设备和存储介质
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
CN116028678A (zh) 一种知识图谱中全量路径查找方法及系统
CN112241262A (zh) 一种面向软件定义卫星的可复用代码提取、分析与检索方法与装置
Hussain et al. Palazzo Matrix Model: An approach to simulate the efficient semantic results in search engines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant