CN105512230A - 数据存储方法及装置 - Google Patents

数据存储方法及装置 Download PDF

Info

Publication number
CN105512230A
CN105512230A CN201510857675.2A CN201510857675A CN105512230A CN 105512230 A CN105512230 A CN 105512230A CN 201510857675 A CN201510857675 A CN 201510857675A CN 105512230 A CN105512230 A CN 105512230A
Authority
CN
China
Prior art keywords
index
parameter
data
data captured
parameter value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510857675.2A
Other languages
English (en)
Other versions
CN105512230B (zh
Inventor
虞航仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510857675.2A priority Critical patent/CN105512230B/zh
Publication of CN105512230A publication Critical patent/CN105512230A/zh
Application granted granted Critical
Publication of CN105512230B publication Critical patent/CN105512230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的一种数据存储方法及装置,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可见,与现有技术相比,本方案不但将已抓取的数据、索引保存在缓存汇总,同时将已抓取的数据对应的参数项的参数值对应保存在缓存中,能丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。

Description

数据存储方法及装置
技术领域
本发明涉及数据检索技术领域,特别是涉及数据存储方法及装置。
背景技术
为了提高检索效率,服务器通常会为数据检索所依据的数据建立索引,并将索引组织在一起,形成索引库,其中,为数据检索所依据的数据建立索引通常为:从数据检索所依据的数据中提取一些信息作为索引。举例而言:对于一篇文档,所对应的索引为从该文档中提取的文字内容或者文档的属性参数,文档的属性参数可以为:作者姓名,文档类别,等等。
现有技术中,服务器通常在获得所抓取的数据后,为所抓取的数据建立索引,进而,将所抓取的数据和索引保存至缓存中;进而,在需要执行数据检索时,基于检索方所提供的检索词,将与该检索词匹配的索引对应的已抓取的数据确定为检索结果,反馈给检索方。其中,通常通过网络爬虫来在网络上抓取数据。
但是,由于服务器所存储的数据检索过程所依据的相关数据为:所抓取的数据以及所建立的索引,这样,当对于同一个检索词而言,检索方存在差异化需求时,服务器将无法满足检索需求。
发明内容
本发明实施例的目的在于提供一种数据存储方法及装置,以丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。具体技术方案如下:
第一方面,本发明实施例提供了一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
可选的,所述方法还包括:
在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。
可选的,
所述将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份,包括:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。
可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:
对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。
可选的,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:
生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;
所述方法还包括:
获得检索词及检索方信息;
将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
可选的,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:将所述已抓取的数据、所述索引及确定的参数项的参数值保存在所述分索引库中;
所述方法还包括:
获得检索词及检索方信息;
在分索引库和总索引库中确定与所述检索词匹配的索引对应的已抓取的数据;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方;
并且,判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
第二方面,本发明实施例提供了一种数据存储装置,应用于服务器中,所述装置包括:索引建立模块、第一参数值确定模块和数据保存模块,
所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述第一参数值确定模块,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块,用于将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
可选的,所述装置还包括:
检索信息获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及检索方信息;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第一最终结果确定模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
可选的,所述装置还包括:
过滤条件获得模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及过滤条件;
初始结果确定模块,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第二最终结果确定模块,用于将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块,用于将所述最终检索结果返回至检索方。
可选的,所述装置还包括:
第二参数值确定模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
数据清除模块,用于将对应所确定的参数项的参数值的已抓取的数据及索引清除。
可选的,所述装置还包括:
所述备份判断模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,判断是否满足备份条件,如果满足,则触发所述备份模块;
所述备份模块,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
可选的,所述装置还包括:数据复制模块,用于在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。
可选的,所述备份模块,具体用于:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述数据复制模块,具体用于:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。
可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述数据保存模块,包括:
第一更新子模块,用于对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
第二更新子模块,用于在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。
可选的,所述服务器的缓存中存储有至少一个索引库,所述数据保存模块,具体用于:生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;
所述装置还包括:第一信息获得模块、第一结果确定模块、第一检索方信息处理模块和第一结果返回模块;
所述第一信息获得模块,用于获得检索词及检索方信息;
所述第一结果确定模块,用于将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
所述第一检索方信息处理模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
所述第一结果返回模块,用于将所述最终检索结果返回至检索方。
可选的,所述服务器中存储有总索引库和分索引库,所述数据保存模块,具体用于:将所述已抓取的数据、所述索引及确定的参数项的参数值保存在所述分索引库中;
所述装置还包括:第二信息获得模块、第二结果确定模块、第二检索方信息处理模块、第二结果返回模块和整合模块;
所述第二信息获得模块,用于获得检索词及检索方信息;
所述第二结果确定模块,用于在分索引库和总索引库中确定与所述检索词匹配的索引对应的已抓取的数据;
所述第二检索方信息处理模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
第二结果返回模块,用于将所述最终检索结果返回至检索方;
所述整合模块,用于判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可见,与现有技术相比,本方案不但将已抓取的数据、索引保存在缓存中,同时将已抓取的数据对应的参数项的参数值对应保存在缓存中,能丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的数据存储方法的流程图;
图2为本发明实施例所提供的数据存储方法的另一流程图;
图3为本发明实施例所提供的数据存储方法的另一流程图;
图4为本发明实施例所提供的数据存储结构的结构示意图;
图5为本发明实施例所提供的数据存储结构的另一结构示意图;
图6为本发明实施例所提供的数据存储结构的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求,本发明实施例提供了一种数据存储方法及装置。
下面首先对本发明实施例所提供的一种数据存储方法进行介绍。
需要说明的是,本发明实施例所提供的一种数据存储方法应用于服务器中。
如图1所示,本发明实施例所提供的一种数据存储方法,可以包括如下步骤:
S101,获得已抓取的数据,对所述已抓取的数据建立索引;
其中,服务器可以在获得已抓取的数据后,对所述已抓取的数据建立索引,以便后续的数据检索过程为:基于索引的数据检索过程,从而提高检索效率。
需要强调的是,服务器可以多次获得已抓取的数据,并在每次获得已抓取的数据后,执行后续的S102-S103,具体的,所述已抓取的数据可以为:网络爬虫从网络上所抓取的数据。
本领域技术人员可以理解的是,网络爬虫可以根据预设的爬取规则从网络上爬取数据,以用于数据检索过程,其中,网络爬虫从网络上爬取数据的具体实现方式可以依据现有技术中的网络爬虫爬取数据的实现方式,在此不做赘述。并且,服务器获得已抓取的数据具体可以包括:接收网络爬虫定时上传的已抓取的数据,或者,定时向网络爬虫请求获得其已抓取的数据,这都是合理的。
其中,对所述已抓取的数据建立索引的具体实现方式可以采用现有技术中的实现方式,举例而言:可以采用现有的倒排表方式来对所述已抓取的数据建立索引,当然并不局限于此。
S102,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
为了丰富数据检索过程所依据的相关数据,从而保证后续满足差异化的检索需求,可以在获得已抓取的数据后,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值。
其中,通过已抓取的数据的参数项的参数特征,可以确定出已抓取的数据的参数项的参数值,进而,后续通过参数值可以确定该参数值所对应的已抓取的数据是否需要被过滤;具体的,该参数项为存在差异化需求的需求项目,参数项的参数特征可以为已抓取的数据中能够表征参数项的词汇。例如:参数项可以为未成年适宜度,参数项的参数值可以为:权重值,参数项的参数特征可以为不良词汇,例如:暴力词汇、血腥词汇或色情词汇等等,其中,通过已抓取的数据中的不良词汇的出现频率或次数可以根据简单数学算法确定出已抓取的数据的参数项的参数值,其中,权重值越大,表明适宜程度越高;又如:参数项可以为适用年龄,参数项的参数值可以为:适用未满18岁和适用已满18岁两类数值,参数项的参数特征可以为不良词汇,例如:暴力词汇、血腥词汇或色情词汇等等,其中,通过已抓取的数据中的不良词汇的出现频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据的参数项的参数值;又如:参数项可以为适用性别,参数项的参数值可以为:适用男性和适用女性两类值,参数项的参数特征可以为:关于体育方面的词汇、关于护肤和购物方面的词汇等等具有较高领域识别性的词汇,其中,通过已抓取的数据中具有较高领域识别性的词汇的出现频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据所对应的参数项的参数值;又如:参数项可以适用操作系统,参数项的参数值可以为:适用安卓操作系统和适用于IOS操作系统两类值,参数项的参数特征可以为:涉及描述操作系统的词汇,其中,通过已抓取的数据中涉及各类操作系统的词汇的频率以及预先设定的频率与参数值的对应关系来确定出已抓取的数据所对应的参数项的参数值。
S103,将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
其中,在获得已抓取的数据、索引以及参数项的参数值后,可以将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,进而后续服务器利用缓存中的相关数据来反馈检索结果,达到满足差异化需求的目的。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可见,与现有技术相比,本方案不但将已抓取的数据、索引保存在缓存中,同时将已抓取的数据对应的参数项的参数值对应保存在缓存中,能丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。
更进一步的,基于包含S101-S103的实施例,如图2所示,本发明另一实施例所提供的数据存储方法,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,还可以包括:
S104,获得检索词及检索方信息;
其中,用户可以通过终端向服务器发出检索请求,检索请求中携带有检索词和检索方信息,进而,服务器可以获得检索词及检索方信息,具体的,检索方信息可以为关于用户的信息,也可以为关于终端的信息,等等,这都是合理。
举例而言:检索方信息可以为用户年龄,其中,该用户年龄可以由终端自动从用户的注册信息中获得,或者,可以由用户在输入检索词时的同时所输入,这都是合理的;检索方信息可以为用户性别,其中,该用户性别可以由终端自动从用户的注册信息中获得,或者,可以由用户在输入检索词的同时所输入,这都是合理的;检索方信息可以为终端的操作系统类别,其中,该操作系统类别可以由终端自动获知。
S105,将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
其中,在获得检索词后,可以将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果。
其中,检索词与索引相匹配具体可以包括:检索词的部分内容与索引相同、检索词与索引相同和/或检索词包含于索引,等等。举例而言:假设检索词为”笔记本”,那么,对于检索词与索引信息匹配为检索词包含于索引信息的情况,与该检索词匹配的索引信息可以包括:“笔记本排名”,对于检索词与索引信息匹配为检索词的部分内容与索引信息相同的情况,与该检索词匹配的索引信息可以包括:“云笔记”,对于检索词与索引信息匹配为检索词与索引信息相同的情况,与该检索词匹配的索引信息可以包括“笔记本”。
S106,根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
其中,在获得检索方信息后,可以根据检索方信息确定过滤条件,即通过检索方信息来确定哪些初始检索结果能够被去除;进而,在确定出过滤条件后,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。
例如:参数项为未成年适宜度,检索方信息为年龄15岁,则过滤条件可以根据预先设定年龄与权重值的对应关系来设定,该过滤条件具体可以为:权重值小于第一权重值,该第一权重值为根据预先设定的年龄与权重值的对应关系所确定,那么,将所述初始检索结果中对应的权重值小于第一权重值的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用年龄,检索方信息为年龄15岁,则过滤条件可以为:适用已满18岁,那么,将所述初始检索结果中对应的参数项的参数值为适用已满18岁的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用性别,检索方信息为性别为女,则过滤条件可以为:适用男性,那么,将所述初始检索结果中对应的参数项的参数值为适用男性的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。
S107,将所述最终检索结果返回至检索方。
在确定后最终检索结果后,可以将所述最终检索结果返回至检索方。
可见,通过S101-S107保证了数据检索过程中的差异化的检索需求。
更进一步的,基于包含S101-S103的实施例,如图3所示,本发明另一实施例所提供的数据存储方法,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,还可以包括:
S108,获得检索词及过滤条件;
其中,用户可以通过终端向服务器发出检索请求,检索请求中携带有检索词和过滤条件,其中,过滤条件与参数项具有对应性。
例如:参数项为未成年适宜程度,过滤条件可以为:权重值大于或小于某一权重值,该某一权重值由终端所获得用户的年龄以及自身保存的年龄与权重值的对应关系所设定的;又如:参数项为适用年龄时,过滤条件可以为:适用未满18岁或适用已满18岁;又如:参数项为适用性别时,过滤条件可以为:适用女性或适用男性;又如:参数项为适用操作系统时,过滤条件可以为:适用安卓操作系统或适用IOS操作系统,等等。
S109,将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
其中,在获得检索词后,可以将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果。
其中,检索词与索引相匹配具体可以包括:检索词的部分内容与索引相同、检索词与索引相同和/或检索词包含于索引,等等。举例而言:假设检索词为”笔记本”,那么,对于检索词与索引信息匹配为检索词包含于索引信息的情况,与该检索词匹配的索引信息可以包括:“笔记本排名”,对于检索词与索引信息匹配为检索词的部分内容与索引信息相同的情况,与该检索词匹配的索引信息可以包括:“云笔记”,对于检索词与索引信息匹配为检索词与索引信息相同的情况,与该检索词匹配的索引信息可以包括“笔记本”。
S110,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
在获得初始检索结果和过滤条件后,可以将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
例如:参数项为未成年适宜程度,过滤条件可以为:权重值小于第一权重值,那么,将所述初始检索结果中对应的参数项的参数值小于第一权重值的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用年龄,过滤条件可以为:适用已满18岁,那么,将所述初始检索结果中对应的参数项的参数值适用已满18岁的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;又如:参数项为适用性别,检索方信息为性别为女,则过滤条件可以为:适用男性,那么,将所述初始检索结果中对应的参数项的参数值为适用男性的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果。
S111,将所述最终检索结果返回至检索方。
在确定后最终检索结果后,可以将所述最终检索结果返回至检索方。
可见,通过S101-S103以及S108-S111保证了数据检索过程中的差异化的检索需求。
更进一步的,基于包括S101-S103的实施例,本发明另一实施例所提供的数据存储方法中,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,还可以包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
其中,为了保证服务器的缓存中所存储的的已抓取数据和索引的有效性,可以定时或不定时对缓存中的相关数据执行清理操作。其中,所述数据清理条件可以根据参数项设定。例如:参数项为适用年龄,则数据清理条件可以为:未满18岁,此时,根据所述数据清理条件可以确定所需清理的已抓取的数据对应的参数项的参数值为:适用未满18岁,进而将对应参数项的参数值为适用未满18岁的已抓取的数据及索引清除;又如:参数项为适用性别,则数据清理条件可以为:女性,此时,根据所述数据清理条件可以确定所需清理的已抓取的数据对应的参数项的参数值为:适用女性,进而将对应参数项的参数值为适用女性的已抓取的数据及索引清除。
更进一步的,基于包括S101-S103的实施例,本发明另一实施例所提供的数据存储方法中,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,还可以包括:
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
其中,由于将所述已抓取的数据、所述索引及确定的参数项的参数值保存在缓存中,这样,当服务器发生断电或故障时,缓存中的相关数据会消失或存在异常,这样无疑会影响数据检索过程的有效进行,因此,为了避免由于缓存中的相关数据消失或存在异常而导致数据检索无法进行的问题,可以在符合备份条件时,将缓存中的相关数据保存到硬盘中进行备份,以实现数据检索所依据的相关数据的持久性。
基于上述备份思想,服务器可以判断是否满足备份条件,并根据判断结果执行相应的操作,具体的,当判断出满足备份条件时,表明可以对缓存中的相关数据进行备份,因此,将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份;而当判断出不满足备份条件时,可以不作处理。
具体的,所述备份条件可以为:获得备份指令,其中,备份指令可以由系统自动发出或人工发出;或者,所述备份条件可以为:检测到系统时间为预定备份时间;或者,所述备份条件可以为:缓存中的相关数据的数据量超过预定阈值。可以理解的是,本实施例中所给出的备份条件仅仅作为示例,并不应该构成对本发明实施例的限定。
需要说明的是,所谓缓存中的相关数据为:缓存中的所述已抓取的数据、所述索引及所确定的参数项的参数值,为了引用方便,将缓存中的所述已抓取的数据、所述索引及所确定的参数项的参数值三者合称为缓存中的相关数据。
更进一步的,基于上述的存在备份操作的实施例,本发明另一实施例所提供的数据存储方法中,将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份后,还可以包括:
在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。
由于为了较高的数据检索效率,数据检索过程中,服务器可以利用缓存中的相关数据进行数据检索,因此,在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,可以将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中,从而保证数据检索的检索效率。需要说明的是,为了提高传输效率和存储效率,在一种实现方式中,所述将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份,可以包括:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
相应的,所述在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中,可以包括:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。
本领域技术人员可以理解的是,所谓对所述缓存中的已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理具体指:将所述缓存中的已抓取的数据、所述索引及确定的参数项的参数值封装为一个文件,其中,该文件无法被直接使用,仅仅利于存储和传输,在需要使用时,需要进行作为序列化处理的逆过程的反序列化处理,从而恢复为原始的数据。其中,对所述缓存中的已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理的具体实现方式可以参照现有技术中对数据的序列化处理方式,在此不做限定。
更进一步的,基于包括S101-S103的实施例,在本发明的另一实施例中,所述服务器的缓存中可以存储有第一索引库和第二索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,可以包括:
对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。
其中,通过两个索引库的形式,可以保证索引库更新过程中,数据检索能够正常进行,避免了现有技术中仅仅存在一个索引库时更新过程影响检索过程的弊端。需要强调的是,“第一索引库”中的“第一”和“第二索引库”中的“第二”仅仅为了从命名上区分不同的索引库,并不具有任何限定意义。
更进一步的,基于包括S101-S103的实施例,在本发明的另一实施例中,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,可以包括:
生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;
所述方法还可以包括:
获得检索词及检索方信息;
将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
其中,通过对每次所抓取到的数据建立独立的索引库的方式,能够解决由于现有技术中仅仅存在一个索引库时每次均更新该索引库所带来较大工作量的问题,同时保证了检索所依据的相关数据的完整性。并且,关于检索方信息、根据所述检索方信息确定过滤条件、检索词与索引匹配等相关内容可以参照前述实施例的对应内容,在此不做赘述;另外,数据检索所依据的过滤条件也可以为检索方来提供,这也是合理的。
更进一步的,基于包括S101-S103的实施例,在本发明的另一实施例中,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,可以包括:
将所述已抓取的数据、所述索引及确定的参数项的参数值保存在所述分索引库中;
所述方法还包括:
获得检索词及检索方信息;
在分索引库和总索引库中确定与所述检索词匹配的索引对应的已抓取的数据;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方;
并且,判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
其中,通过将每次抓取到的数据、索引及确定的参数项的参数值保存分索引库中,避免了现有技术中仅仅存在一个索引库时每次均更新该索引库所带来较大工作量的问题;并且,在分索引库满足入库条件时,将所述分索引库中的数据转移至总索引库,以进一步降低分索引库的数据量,提高分索引库的更新效率。可以理解的是,所述入库条件可以根据实际情况进行设定,举例而言:分索引库的数据量达到预定阈值,或者,分索引库的未更新时间达到预定时长,或者,分索引库中的最新保存的数据在分索引库的存在时长超过预定阈值,等等。并且,关于检索方信息、根据所述检索方信息确定过滤条件、检索词与索引匹配等相关内容可以参照前述实施例的对应内容,在此不做赘述;另外,数据检索所依据的过滤条件也可以为检索方来提供,这也是合理的。
相应于上述方法实施例,本发明实施例还提供了一种数据存储装置,如图4所示,应用于服务器中,所述装置可以包括:索引建立模块410、第一参数值确定模块420和数据保存模块430,
所述索引建立模块410,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述第一参数值确定模块420,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块430,用于将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
本发明实施例中,服务器在获得已抓取的数据后,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可见,与现有技术相比,本方案不但将已抓取的数据、索引保存在缓存中,同时将已抓取的数据对应的参数项的参数值对应保存在缓存中,能丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,如图5所示,本发明实施例所提供的数据存储装置,还可以包括:
检索信息获得模块440,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及检索方信息;
初始结果确定模块450,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第一最终结果确定模块460,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块470,用于将所述最终检索结果返回至检索方。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,如图6所示,本发明实施例所提供的数据存储装置,还可以包括:
过滤条件获得模块480,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得检索词及过滤条件;
初始结果确定模块490,用于将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
第二最终结果确定模块410,用于将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
检索结果返回模块411,用于将所述最终检索结果返回至检索方。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,在本发明另一实施例中,所述数据存储装置还可以包括:
第二参数值确定模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
数据清除模块,用于将对应所确定的参数项的参数值的已抓取的数据及索引清除。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,本发明另一实施例所提供的数据存储装置还可以包括:
所述备份判断模块,用于在所述数据保存模块将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,判断是否满足备份条件,如果满足,则触发所述备份模块;
所述备份模块,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。
更进一步的,基于包含备份模块的实施例,本发明另一实施例所提供的数据存储装置还可以包括:
数据复制模块,用于在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。
需要强调的是,基于包含备份模块的实施例,所述备份模块,具体用于:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述数据复制模块,具体用于:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,所述服务器的缓存中存储有第一索引库和第二索引库,所述数据保存模块430,可以包括:
第一更新子模块,用于对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
第二更新子模块,用于在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,所述服务器的缓存中存储有至少一个索引库,所述数据保存模块430,具体用于:生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;
所述装置还包括:第一信息获得模块、第一结果确定模块、第一检索方信息处理模块和第一结果返回模块;
所述第一信息获得模块,用于获得检索词及检索方信息;
所述第一结果确定模块,用于将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
所述第一检索方信息处理模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
所述第一结果返回模块,用于将所述最终检索结果返回至检索方。
更进一步的,基于包括索引建立模块410、第一参数值确定模块420和数据保存模块430的实施例,所述服务器中存储有总索引库和分索引库,所述数据保存模块430,具体用于:将所述已抓取的数据、所述索引及确定的参数项的参数值保存在所述分索引库中;
所述装置还可以包括:第二信息获得模块、第二结果确定模块、第二检索方信息处理模块、第二结果返回模块和整合模块;
所述第二信息获得模块,用于获得检索词及检索方信息;
所述第二结果确定模块,用于在分索引库和总索引库中确定与所述检索词匹配的索引对应的已抓取的数据;
所述第二检索方信息处理模块,用于根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
第二结果返回模块,用于将所述最终检索结果返回至检索方;
所述整合模块,用于判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。
相应地,本申请实施例还提供了一种存储介质,其中,该存储介质用于存储应用程序,所述应用程序用于在运行时执行本申请所述的一种数据存储方法。其中,本申请所述的一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
相应地,本申请实施例还提供了一种应用程序,其中,该应用程序用于在运行时执行本申请所述的一种数据存储方法。其中,本申请所述的一种数据存储方法,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
相应地,本申请实施例还提供了一种服务器,所述服务器包括:
处理器、存储器、通信接口和总线;
所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;
所述存储器存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
2.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
3.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
4.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。
7.根据权利要求6所述的方法,其特征在于,
所述将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份,包括:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;
所述在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。
8.根据权利要求1所述的方法,其特征在于,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:
对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;
在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。
9.根据权利要求1所述的方法,其特征在于,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:
生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;
所述方法还包括:
获得检索词及检索方信息;
将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
10.一种数据存储装置,其特征在于,应用于服务器中,所述装置包括:索引建立模块、第一参数值确定模块和数据保存模块,
所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;
所述第一参数值确定模块,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述数据保存模块,用于将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。
CN201510857675.2A 2015-11-30 2015-11-30 数据存储方法及装置 Active CN105512230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510857675.2A CN105512230B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510857675.2A CN105512230B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN105512230A true CN105512230A (zh) 2016-04-20
CN105512230B CN105512230B (zh) 2020-05-22

Family

ID=55720212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510857675.2A Active CN105512230B (zh) 2015-11-30 2015-11-30 数据存储方法及装置

Country Status (1)

Country Link
CN (1) CN105512230B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622090A (zh) * 2017-08-22 2018-01-23 上海艾融软件股份有限公司 对象的获取方法、装置及系统
CN111881086A (zh) * 2020-07-23 2020-11-03 杭州安恒信息技术股份有限公司 大数据的存储方法、查询方法、电子装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
WO2012047593A2 (en) * 2010-09-28 2012-04-12 Alibaba Group Holding Limited Method and apparatus of ordering search results
CN102792300A (zh) * 2010-03-11 2012-11-21 微软公司 基于用户角色的可定制的语义搜索
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
CN102792300A (zh) * 2010-03-11 2012-11-21 微软公司 基于用户角色的可定制的语义搜索
WO2012047593A2 (en) * 2010-09-28 2012-04-12 Alibaba Group Holding Limited Method and apparatus of ordering search results
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622090A (zh) * 2017-08-22 2018-01-23 上海艾融软件股份有限公司 对象的获取方法、装置及系统
CN107622090B (zh) * 2017-08-22 2020-10-16 上海艾融软件股份有限公司 对象的获取方法、装置及系统
CN111881086A (zh) * 2020-07-23 2020-11-03 杭州安恒信息技术股份有限公司 大数据的存储方法、查询方法、电子装置及存储介质
CN111881086B (zh) * 2020-07-23 2024-03-19 杭州安恒信息技术股份有限公司 大数据的存储方法、查询方法、电子装置及存储介质

Also Published As

Publication number Publication date
CN105512230B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN107832406B (zh) 海量日志数据的去重入库方法、装置、设备及存储介质
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN110019891B (zh) 图像存储方法、图像检索方法及装置
CN112714359B (zh) 视频推荐方法、装置、计算机设备及存储介质
US20140101167A1 (en) Creation of Inverted Index System, and Data Processing Method and Apparatus
CN107016123B (zh) 文件管理方法及终端设备
CN105653592A (zh) 一种基于hdfs的小文件合并工具和方法
CN109710299A (zh) 一种开源类库监控方法、装置、设备及计算机存储介质
US8560499B2 (en) Data reduction for optimizing and testing
CN108694188B (zh) 一种索引数据更新的方法以及相关装置
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN105260639A (zh) 一种脸部识别系统的数据更新的方法及装置
CN106990914B (zh) 数据删除方法及装置
CN104331493A (zh) 通过计算机实现的用于生成趋势解释数据的方法及装置
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN114356212A (zh) 数据处理方法、系统及计算机可读存储介质
CN107451280B (zh) 数据打通方法、装置及电子设备
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN104361109A (zh) 确定图片筛选结果的方法和装置
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN106776704B (zh) 统计信息收集方法和装置
CN105512230A (zh) 数据存储方法及装置
CN102819570B (zh) 一种数据访问方法、装置及系统
CN107004036B (zh) 用以搜索包含大量条目的日志的方法和系统
CN105512232A (zh) 数据存储方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant