CN107977381B - 数据配置方法、索引管理方法、相关装置以及计算设备 - Google Patents

数据配置方法、索引管理方法、相关装置以及计算设备 Download PDF

Info

Publication number
CN107977381B
CN107977381B CN201610939364.5A CN201610939364A CN107977381B CN 107977381 B CN107977381 B CN 107977381B CN 201610939364 A CN201610939364 A CN 201610939364A CN 107977381 B CN107977381 B CN 107977381B
Authority
CN
China
Prior art keywords
search
domain
field
data file
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610939364.5A
Other languages
English (en)
Other versions
CN107977381A (zh
Inventor
王楠楠
刘若曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610939364.5A priority Critical patent/CN107977381B/zh
Priority to PCT/CN2017/107343 priority patent/WO2018077138A1/zh
Publication of CN107977381A publication Critical patent/CN107977381A/zh
Application granted granted Critical
Publication of CN107977381B publication Critical patent/CN107977381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Abstract

本申请提供了一种数据配置方法,用于提升搜索系统的搜索性能。本申请提供的数据配置方法包括:接收用户下发的多条搜索请求,该多条搜索请求中,每条搜索请求均包括一个或多个搜索字段,用于请求查找包含该搜索字段的数据文件。确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域,并在其中确定一个或多个热点域。将该一个或多个热点域添加到schema配置文件中,并根据添加了热点域的schema配置文件更新搜索系统中的数据文件。本申请还提供了一种索引管理方法、相关装置和计算设备。

Description

数据配置方法、索引管理方法、相关装置以及计算设备
技术领域
本申请涉及数据搜索领域,尤其涉及一种数据配置方法、索引管理方法、相关装置以及计算设备。
背景技术
全文搜索技术是一种现阶段通用的搜索技术,用于根据搜索字段等内容作为搜索入口来搜索得到所需信息。随着大数据技术的蓬勃发展,用户数据呈现爆发式的膨胀,故现阶段对全文搜索技术的高效性和快捷性的要求也越来越高。
依赖于全文搜索技术的搜索系统主要包括Solr、Elastic等,其中Solr是当前较为流行的企业级搜索系统,其功能包括全文搜索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本(如Word、PDF)的处理等。本申请仅以Solr为例来对搜索系统进行说明。
搜索系统一般以数据文件(英文:document,简称:doc)为基本单位来保存信息。doc中的数据一般被保存为域(英文:field)+域值的结构形式,其中,域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。
搜索系统中的doc的域由字段配置(英文:schema)配置文件来定义。通过在schema配置文件中定义不同的域,能够实现按域搜索,提高搜索的速度和效率。
但是,搜索系统中保存有巨量的doc数据,该巨量的doc数据所涵盖的域的数量更为庞大。现阶段的搜索系统依赖于技术人员在schema配置文件中人为的设定多个域,由于技术人员无法预先获知哪个域会被用户多次搜索,故设定的域在实际应用中完全有可能很少被用户搜索。这样就导致按域搜索功能的使用频率不高,进而按域搜索带来的速度和效率的提升很有限,搜索系统的搜索性能达不到用户要求。
发明内容
本申请提供了一种数据配置方法、索引管理方法、相关装置以及计算设备,用于提高搜索系统的搜索性能。
本申请第一方面提供了一种数据配置方法,适用于搜索系统。其中,搜索系统中包括多个数据文件,每个数据文件中包括一个或多个域和该一个或多个域对应的域值。域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。搜索系统中还包括schema配置文件,用于定义所述搜索系统中的数据文件的域。所述数据配置方法包括:接收用户下发的多条搜索请求,该多条搜索请求中,每条搜索请求均包括一个或多个搜索字段,用于请求查找包含该搜索字段的数据文件。确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域,并在其中确定一个或多个热点域。将该一个或多个热点域添加到schema配置文件中,并根据添加了热点域的schema配置文件更新搜索系统中的数据文件。本申请提供的数据配置方法中,schema配置文件中的域不是由技术人员人为设定的域,而是由搜索系统根据用户即时下发的搜索请求确定的热点域。由于热点域是搜索请求中搜索频率较高的域,故在后续时间内热点域有很大的概率能够被用户再次搜索。通过向schema配置文件中添加热点域,能够提高按域搜索的使用频率,进而充分发挥了按域搜索带来的速度和效率的提升,进一步提高了搜索系统的搜索性能。
可选的,该多条搜索请求中可以携带有搜索字段所述的域,该多条搜索请求的响应消息中携带有搜索字段所述的域。搜索系统根据每条搜索请求和/或每条搜索请求对应的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,搜索系统根据每条搜索请求和/或每条搜索请求对应的响应消息中的间隔符,提取出搜索请求和/或响应消息中携带的域字段,进而确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,搜索系统将每个搜索字段所属的域中,包括搜索字段最多的前一个或多个域确定为热点域。
可选的,搜索系统在确定了一个或多个热点域包括之后,根据该一个或多个热点域中每个热点域所包括的搜索字段,确定每个热点域的域值格式。
可选的,搜索系统将该一个或多个热点域中每个热点域所包括的搜索字段所共同符合的格式,确定为搜索每个热点域的域值格式。
可选的,搜索系统每隔域值周期,统计schema配置文件所定义的域中,每个域对应的的搜索数据。其中,搜索数据包括对应的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项。搜索系统删除schema配置文件中搜索数据低于阈值的一个或多个域,以实现schema配置文件中非热点域的动态淘汰。
本申请第二方面提供了一种索引管理方法,适用于搜索系统。其中,搜索系统中包括多个数据文件,每个数据文件中包括一个或多个域和该一个或多个域对应的域值。域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。搜索系统还包括该多个数据文件对应的默认索引,每个默认索引中包括其对应的数据文件在搜索系统中的保存位置,所述方法包括:接收用户下发的多条搜索请求,该多条搜索请求中,每条搜索请求均包括一个或多个搜索字段,用于请求查找包含该搜索字段的数据文件。确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域。根据每个搜索字段所属的域所包括的搜索字段,确定每个搜索字段所属的域中每个域的域值格式。将搜索系统中,包含有符合该域值格式的字段的数据文件,确定为第一数据文件。生成每个第一数据文件对应的第二数据文件,其中,每个第二数据文件包括:其对应的第一数据文件所包含的符合域值格式的字段,以及该符合域值格式的字段所属的域。生成每个第二数据文件对应的新建索引,新建索引中包括其对应的第二数据文件在搜索系统中的保存位置。当搜索系统接收到用户新下发的搜索请求时,搜索请求中的搜索字段有较大概率能够命中索引管理装置生成的新建索引。由于新建索引的数据体量要远远小于默认索引的数据体量,故查找新建索引与直接查找默认索引相比,能够大幅度节约搜索系统的工作量,提高搜索系统的搜索速度和效率,提升搜索系统的搜索性能。
可选的,该多条搜索请求中可以携带有搜索字段所述的域,该多条搜索请求的响应消息中携带有搜索字段所述的域。搜索系统根据每条搜索请求和/或每条搜索请求对应的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,搜索系统根据每条搜索请求和/或每条搜索请求对应的响应消息中的间隔符,提取出搜索请求和/或响应消息中携带的域字段,进而确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,搜索系统根据该每个搜索字段所属的域中每个域所包括的搜索字段,确定每个搜索字段所属的域中每个域的域值格式。
可选的,搜索系统接收用户下发的目标搜索请求,目标搜索请求中包括目标搜索字段,用于请求查找包含该目标搜索字段的数据文件。搜索系统查找该目标搜索字段对应的新建索引。若查找到该目标搜索字段对应的新建索引,则根据查找到的新建索引,获取包含该目标搜索字段的数据文件。
可选的,若搜索系统未查找到该目标搜索字段对应的新建索引,则查找该目标搜索字段对应的默认索引,以获取包含该目标搜索字段的数据文件。
可选的,当有新的数据文件导入搜索系统时,若该新的数据文件中包含符合域值格式的字段,则搜索系统生成该新的数据文件对应的第二数据文件。生成该新的数据文件对应的第二数据文件中包括:该新的数据文件中符合域值格式的字段以及该字段所属的域。搜索系统为该新的数据文件对应的第二数据文件建立对应的新建索引,其中包括该新的数据文件对应的第二数据文件在搜索系统中的保存位置。
可选的,搜索系统每隔预置周期,统计每个新建索引的搜索参数。每个新建索引的搜索参数包括该新建索引对应的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项。搜索系统删除搜索参数低于阈值的一个或多个新建索引,以实现新建索引中非热点索引的动态淘汰。
本申请第三方面提供了一种数据配置装置,适用于搜索系统。其中,搜索系统中包括多个数据文件,每个数据文件中包括一个或多个域和该一个或多个域对应的域值。域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。搜索系统中还包括schema配置文件,用于定义所述搜索系统中的数据文件的域。该数据配置装置包括:信息接收模块,用于接收用户下发的多条搜索请求,该多条搜索请求中每条搜索请求均包括搜索字段,用于请求查找包含该搜索字段的数据文件。域确定模块,用于确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域。热点确定模块,用于在每个搜索字段所属的域中确定一个或多个热点域。配置修改模块,用于将该一个或多个热点域添加到schema配置文件中,并根据添加了该一个或多个热点域的schema配置文件更新搜索系统中的数据文件。本申请schema配置文件中的域不是由技术人员人为设定的域,而是由数据配置装置根据用户即时下发的搜索请求确定的热点域。由于热点域是该N个搜索请求中搜索频率较高的域,故在后续时间内热点域有很大的概率能够被用户再次搜索。通过向schema配置文件中添加热点域,能够提高按域搜索的使用频率,进而充分发挥了按域搜索带来的速度和效率的提升,进一步提高了搜索系统的搜索性能。提供的数据配置装置
可选的,域确定模块具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,域确定模块具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息中的间隔符,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,热点确定模块具体用于:将该每个搜索字段所属的域中,包括搜索字段最多的前一个或多个域确定为热点域。
可选的,数据配置装置还包括格式确定模块,用于根据该一个或多个热点域中每个热点域所包括的搜索字段,确定每个热点域的域值格式。
可选的,格式确定模块具体用于:将该一个或多个热点域中每个热点域所包括的搜索字段所共同符合的格式,确定为该每个热点域的域值格式。
可选的,配置修改模块还用于:每隔预置周期,统计schema配置文件所定义的域中每个域的搜索数据,该搜索数据包括schema配置文件所定义的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;在schema配置文件中删除搜索数据低于阈值的一个或多个域。
本申请第四方面提供了一种索引管理装置,适用于搜索系统。其中,搜索系统中包括多个数据文件,每个数据文件中包括一个或多个域和该一个或多个域对应的域值。域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。搜索系统还包括该多个数据文件对应的默认索引,每个默认索引中包括其对应的数据文件在搜索系统中的保存位置。该索引管理装置包括:接收信息模块,用于接收用户下发的多条搜索请求,该多条搜索请求中,每条搜索请求均包括搜索字段,用于请求查找包含该搜索字段的数据文件。确定域模块,用于确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域。确定格式模块,用于根据每个搜索字段所属的域中每个域所包括的搜索字段,确定每个搜索字段所属的域中每个域的域值格式。文件确定模块,用于将搜索系统中,包含符合确定格式模块中确定的域值格式的字段的数据文件,确定为第一数据文件。文件生成模块,用于生成每个第一数据文件对应的第二数据文件,每个第二数据文件中包括对应的第一数据文件所包含的符合域值格式的字段,以及该符合所述域值格式的字段所属的域。索引管理模块,用于生成每个第二数据文件对应的新建索引,该新建索引中包括对应的第二数据文件在搜索系统中的保存位置。当搜索系统接收到用户新下发的搜索请求时,搜索请求中的搜索字段有较大概率能够命中索引管理装置生成的新建索引。由于新建索引的数据体量要远远小于默认索引的数据体量,故查找新建索引与直接查找默认索引相比,能够大幅度节约搜索系统的工作量,提高搜索系统的搜索速度和效率,提升搜索系统的搜索性能。
可选的,确定域模块具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,确定域模块具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息中的间隔符,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,确定格式模块具体用于:将每个搜索字段所属的域中每个域所包括的搜索字段所共同符合的格式,确定为每个搜索字段所属的域中每个域的域值格式。
可选的,接收信息模块还用于:接收用户下发的目标搜索请求,该目标搜索请求中包括目标搜索字段,用于请求查找包含该目标搜索字段的数据文件。
索引管理装置还包括文件搜索模块,用于:查找目标搜索字段对应的新建索引;若查找到该目标搜索字段对应的新建索引,则根据目标搜索字段对应的新建索引对应,获取包含该目标搜索字段的数据文件。
可选的,文件搜索模块还用于:若未查找到目标搜索字段对应的新建索引,则查找该目标搜索字段对应的默认索引。
可选的,文件生成模块还用于:当搜索系统中导入新的数据文件时,若该新的数据文件中包含确定符合格式模块所确定的域值格式的字段,则生成该新的数据文件对应的第二数据文件,该新的数据文件对应的第二数据文件中包括:该新的数据文件中符合该域值格式的字段,以及该新的数据文件中符合该域值格式的字段所属的域。
索引管理模块还用于:生成新的数据文件对应的第二数据文件对应的新建索引,该新的数据文件对应的第二数据文件对应的新建索引中包括:该新的数据文件对应的第二数据文件在搜索系统中的保存位置。
可选的,索引管理模块还用于:隔预置周期,统计每个新建索引的搜索参数,其中,搜索参数包括每个新建索引在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;删除搜索参数低于阈值的一个或多个新建索引。
本申请第五方面提供了一种计算设备,包括处理器、存储器以及通信接口,其特征在于,通过调用存储器中存储的程序代码,所述处理器用于执行本申请第一方面提供的数据配置方法。
本申请第六方面提供了一种计算设备,包括处理器、存储器以及通信接口,其特征在于,通过调用存储器中存储的程序代码,所述处理器用于执行本申请第二方面提供的索引管理方法。
本申请第七方面提供了一种计算机程序产品,该该计算机程序产品可以为一个软件安装包,该软件安装包被计算设备运行时,执行本申请第一方面或第一方面任一种实现方式提供的数据配置方法。
本申请第八方面提供了一种计算机程序产品,该该计算机程序产品可以为一个软件安装包,该软件安装包被计算设备运行时,执行本申请第二方面或第二方面任一种实现方式提供的索引管理方法。
本申请第九方面提供了一种存储介质,该存储介质中存储了程序代码,该程序代码被计算设备运行时,执行本申请第一方面提供的数据配置方法。该存储介质包括但不限于快闪存储器、硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid statedrive,缩写:SSD)。
本申请第十方面提供了一种存储介质,该存储介质中存储了程序代码,该程序代码被计算设备运行时,执行本申请第二方面提供的索引管理方法。该存储介质包括但不限于快闪存储器、HDD或SSD。
附图说明
图1(a)为搜索系统一种实现方式示意图;
图1(b)为搜索系统另一种实现方式示意图;
图2为本申请提供的计算设备一个实施例结构图;
图3为本申请提供的数据配置方法一个实施例流程图;
图4为本申请提供的索引管理方法一个实施例流程图;
图5为本申请提供的数据配置装置一个实施例结构图;
图6为本申请提供的索引管理装置一个实施例结构图。
具体实施方式
本申请提供了一种数据配置方法、索引管理方法、相关装置和计算设备,以下将分别进行描述。
搜索系统部署在搜索设备上,通过搜索设备与用户进行交互,请参阅图1(a)。搜索设备100主要包括通信单元101、处理单元102以及存储单元103。其中,存储单元103用于存储搜索系统要保存的数据,例如用于存储搜索系统的数据文件、索引等。通信单元101用于搜索系统与用户之间的信息交互,例如用于接收用户下发的搜索请求,并向用户回复该搜索请求的响应消息。处理单元102用于执行数据处理操作,例如用于根据用户的搜索请求进行搜索操作,并根据搜索结果生成该搜索请求的响应消息。
图1(a)展示的是在单台搜索设备上部署搜索系统的场景。在实际应用中,搜索系统也可以部署在多台搜索设备上,请参阅图1(b)。图1(b)所示的搜索系统包括多台如图1(a)中所示的搜索设备100,搜索系统所要保存的数据分布式的保存在每台搜索设备100中的存储单元中,每台搜索设备100之间通过通信单元101进行信息交互。当用户向其中一台搜索设备100下发搜索请求时,该多台搜索设备100的处理单元可以根据用户的搜索请求进行分布式的搜索操作,并将搜索结果汇总后生成响应消息反馈给用户。
图1(a)与图1(b)中的搜索设备可以通过图2所示的计算设备200来实现,其组织结构包括:处理器201、存储器202、通信接口203,还可以包括总线204。其中,处理器201可以为处理单元102的一种实现方式,存储器可以为存储单元103的一种实现方式,通信接口203可以为通信单元101的一种实现方式。
其中,处理器201、存储器202和通信接口203可以通过总线204实现彼此之间的通信连接,也可以通过无线传输等其他手段实现通信。
存储器202可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),HDD或SSD;存储器202还可以包括上述种类的存储器的组合。计算设备200在运行时,存储器202加载其中的数据文件、索引等数据以供处理器201使用。在通过软件来实现本申请提供的技术方案时,软件的程序代码可以保存在存储器202中,并由处理器201来调用执行。
处理器201可以为中央处理器(英文:central processing unit,缩写:CPU),也可以由专用集成电路(英文:application specific integrated circuits,缩写ASIC)、现场可编程门阵列(英文:field-programmable gate array,缩写:FPGA)等具有数据处理功能的元器件来实现。计算设备200在运行时,处理器201调用存储器202中的程序代码,执行数据处理操作。
通信接口203作为用户和搜索系统之间的交互接口,用于将用户下发的搜索请求传递给处理器201,并将处理器201生成的响应消息传递给用户。
搜索系统一般以doc为基本单位来保存信息。搜索系统在运行后,为保存的doc建立对应的默认索引,默认索引中记录有doc保存在搜索系统中的位置信息。用户在搜索时下发搜索请求,搜索请求中包括搜索字段,用于请求搜索系统查找包含该搜索字段的doc。搜索系统通过查找与搜索字段相匹配的默认索引,就能够从匹配的默认索引中记录的位置处获取包含搜索字段的doc。搜索系统将doc携带在响应消息中反馈给用户。
doc中的数据一般被保存为域+域值的结构形式,每个doc可以包括一个域和其对应的域值,也可以包括多个域和其对应的域值。其中,域用于表示对应的域值的类型,域值用于记录对应的域的具体取值。
搜索系统中的doc的结构通过字段配置(英文:schema)配置文件来进行管理。schema配置文件是一种xml格式的文件,一般保存在conf目录下,用于定义搜索系统中doc的结构形式。具体的,doc中的域也由schema配置文件来定义。
以schema配置文件中定义了content域为例:content域用于表示“内容”这一类型。若搜索系统中保存有doc 1:(“hostname:node 1,IP:192.199.0.1”),则doc 1包括content域,且doc 1的content域的域值为“hostname:node 1,IP:192.199.0.1”。
又举例来说,假设schema配置文件中除了定义content域之外,还定义有hostname域和IP域。其中hostname域用于表示“主机名”这一类型,IP域用于表示“IP地址”这一类型。若搜索系统中保存有doc 2:(“hostname:node 1,IP:192.199.0.1”,“hostname:node 1”,“IP:192.199.0.1”),则doc 2包括content域、hostname域以及IP域,其中content域的域值为“hostname:node 1,IP:192.199.0.1”,hostname域的域值为node 1(即表示主机名为node1),IP域的域值为192.199.0.1(即表示IP地址为192.199.0.1)。
schema配置文件定义了域后,搜索系统便能够实现按域搜索的功能。按域搜索往往比直接搜索更为迅速高效。举例来说,假设用户下发搜索请求为“IP:192.199.0.1”。若schema配置文件除了定义content域之外,还定义有IP域,则搜索系统直接查找包括IP域且IP域的域值为192.199.0.1的doc即可。若schema配置文件仅仅定义了content域,没有定义IP域,则搜索系统需要搜索每个doc的content域的域值中是否包括“IP:192.199.0.1”字段。显而易见的,通过schema配置文件定义多个域,使得搜索系统进行按域搜索,能够减少搜索的doc数量和搜索字段长度,进而提升搜索操作的速度和效率。
现阶段的技术中,schema配置文件的域一般是技术人员人为设定的。人为设定的域不一定能够贴近用户对搜索系统的即时需求,故无法发挥出按域搜索带来的速度和效率的提升。
为了解决上述问题,本申请提供了一种数据配置方法,图1(a)与图1(b)所示的搜索设备100与图2所示的计算设备200在运行时执行该方法,其基本流程请参阅图3:
301、接收用户下发的N条搜索请求,该N条搜索请求包括M个搜索字段。
搜索系统接收用户下发的N条搜索请求,N为大于1的正整数。本申请对该N条搜索请求不做具体限定,举例来说,该N条搜索请求可以是搜索系统在预设时间段内接收到的搜索请求,又举例来说,该N条搜索请求可以是搜索系统接收到的用户下发的最新的N条搜索请求。
该N条搜索请求中,每条搜索请求均包括搜索字段,用于搜索包含该搜索字段的doc。其中,每条搜索请求中可以包括一个搜索字段,也可以包括多个搜索字段。
若一条搜索请求包括多个搜索字段,则该多个搜索字段可以用“AND”、“OR”或其他逻辑连接词相连,用于表示“和”、“或”等关系,本申请中不做限定。
该N条搜索请求中,不同的搜索请求所包括的搜索字段可以相同也可以不同。本申请中以该N条搜索请求中共包括M个不同的搜索字段为例进行说明,其中M为正整数。
302、确定该M个搜索字段所属的域。
搜索系统确定该M个搜索字段中每个搜索字段所属的域,即确定该M个搜索字段中每个搜索字段的类型。
在有些场景中,搜索字段中可能已经携带了其所属的域。在这种场景下,搜索系统可以根据搜索请求中的搜索字段直接确定搜索字段所属的域。举例来说:若搜索请求为“IP:192.199.0.1”,则显而易见的,IP是该搜索字段所属的域。
在有些场景中,搜索字段中也可能没有携带其所属的域。在这种场景下,搜索系统无法根据搜索请求中的搜索字段直接确定搜索字段所属的域。但由于搜索请求的相应消息中携带有完整的doc,而doc中携带有域,故搜索系统可以根据响应确定搜索字段所属的域。举例来说:用户下发的搜索字段仅为“192.199.0.1”,而该搜索请求的相应消息中携带有doc 1:(“hostname:node 1,IP:192.199.0.1”),则显而易见的,IP是该搜索字段所属的域。
可选的,搜索系统可以根据搜索请求或响应消息中的间隔符来确定搜索字段所属的域。举例来说,若搜索请求为“IP:192.199.0.1”,则搜索系统可以确定搜索请求中间隔符“:”前面的字段IP即为搜索字段所属的域。又举例来说,若搜索请求为“192.199.0.1”,响应消息中携带有doc 1:(“hostname:node 1,IP:192.199.0.1”)中,则搜索系统可以确定响应消息中位于192.199.0.1相邻的间隔符“:”前面,且位于间隔符“,”后面的字段IP即为搜索字段所属的域。搜索系统具体根据哪种间隔符来确定搜索字段所属的域与doc的格式有关,本申请仅以间隔符“:”和“,”为例进行说明,在某些搜索系统中,也可能根据其它间隔符来确定搜索字段所属的域,本申请中不做限定。
303、确定K个热点域。
搜索系统确定了该M个搜索字段所属的域后,在该M个搜索字段所属的域中选择K个热点域,其中K为正整数。
该M个搜索字段中,不同的搜索字段所属的域可以相同也可以不同。故该M个搜索字段所属的域中,某些域可以包括多个搜索字段,某些域可以包括一个搜索字段。可选的,搜索系统可以将该M个搜索字段所属的域中,包括搜索字段的个数最多的前K个域确定为热点域。
304、将该K个热点域添加到schema配置文件中。
搜索系统确定了热点域后,将热点域添加到schema配置文件中。
本实施例提供的数据配置方法中,搜索系统接收用户下发的N个搜索请求,并确定该N个搜索请求中的M个搜索字段所属的域,然后在该M个搜索字段所属的域中确定K个热点域,并将该K个热点域添加到schema配置文件中。这样搜索系统后续接收到属于热点域的搜索字段后,可以直接进行按域搜索。本实施例中,schema配置文件中的域不是由技术人员人为设定的域,而是由搜索系统根据用户即时下发的搜索请求确定的热点域。由于热点域是该N个搜索请求中搜索频率较高的域,故在后续时间内热点域有很大的概率能够被用户再次搜索。通过向schema配置文件中添加热点域,能够提高按域搜索的使用频率,进而充分发挥了按域搜索带来的速度和效率的提升,进一步提高了搜索系统的搜索性能。
需要指出的是,由于schema配置文件用于定义搜索系统中doc格式的配置文件,故在将热点域添加到schema配置文件中后,搜索系统需要根据添加了热点域的schema配置文件,更新系统中保存的doc以及doc的默认索引。在doc以及其默认索引更新完成后,搜索系统才能进行后续的搜索操作。
可选的,在步骤303之后,搜索系统还可以执行步骤:
305、确定该K个热点域的域值格式。
搜索系统确定了确定了K个热点域之后,根据该K个热点域中每个热点域所包括的搜索字段,确定该K个热点域的域值格式。其中,热点域的域值格式表示热点域的域值所符合的格式。
具体的,搜索系统可以将每个热点域所包括的搜索字段所共同符合的格式,确定为每个热点域的域值格式。举例来说,若热点域为“IP”,该IP域包括两个搜索字段:“192.199.0.1”与“192.199.0.2”。则搜索系统将“192.199.0.*”确定为IP域的域值格式,其中*表示模糊匹配。
域值格式可以为正则表达式的形式,也可以为其它形式,本申请中不做限定。
本申请对步骤305与步骤304的顺序不做限定,步骤305也可以在步骤304之前。
可选的,在确定了该K个热点域的域值格式之后,搜索系统接收用户新下发的第一搜索请求,第一搜索请求中包括第一搜索字段。若第一搜索字段中没有携带其所属的域,则搜索系统判断第一搜索字段是否符合热点域的格式。若第一搜索字段符合热点域中的第一域的格式,则认为第一搜索字段属于第一域,搜索系统可以执行按域搜索操作。
可选的,搜索系统可以每隔预置周期,统计schema配置文件所定义的域中,每个域对应的的搜索数据。其中,搜索数据包括对应的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项。搜索系统删除schema配置文件中搜索数据低于阈值的一个或多个域,以实现schema配置文件中非热点域的动态淘汰。
图3所示的数据配置方法通过根据用户的搜索请求动态的修改schema配置文件,实现了搜索系统的性能提升。下面将介绍一种索引管理方法,以同样达到提升搜索系统的性能的目的。图1(a)与图1(b)所示的搜索设备100与图2所示的计算设备200在运行时执行该方法,其基本流程请参阅图4:
401、接收用户下发的N条搜索请求,该N条搜索请求包括M个搜索字段。
搜索系统接收用户下发的N条搜索请求,N为正整数。本申请对该N条搜索请求不做具体限定,举例来说,该N条搜索请求可以是搜索系统在预设时间段内接收到的搜索请求,又举例来说,该N条搜索请求可以是搜索系统接收到的用户下发的最新的N条搜索请求。
该N条搜索请求中,每条搜索请求均包括搜索字段,用于搜索包含该搜索字段的doc。其中,每条搜索请求中可以包括一个搜索字段,也可以包括多个搜索字段。一条搜索请求中的多个搜索字段可以用“AND”、“OR”或其他逻辑连接词相连,用于表示“和”、“或”等关系,本申请中不做限定。该N条搜索请求中,不同的搜索请求所包括的搜索字段可以相同也可以不同。本申请中以该N条搜索请求中共包括M个不同的搜索字段为例进行说明,其中M为正整数。
402、确定该M个搜索字段所属的L个域。
搜索系统确定该M个搜索字段中每个搜索字段所属的域,即确定该M个搜索字段中每个搜索字段的类型。
在有些场景中,搜索字段中可能已经携带了其所属的域。在这种场景下,搜索系统可以根据搜索请求中的搜索字段直接确定搜索字段所属的域。举例来说:若搜索请求为“IP:192.199.0.1”,则显而易见的,IP是该搜索字段所属的域。
在有些场景中,搜索字段中也可能没有携带其所属的域。在这种场景下,搜索系统无法根据搜索请求中的搜索字段直接确定搜索字段所属的域。但由于搜索请求的相应消息中携带有完整的doc,而doc中携带有域,故搜索系统可以根据响应确定搜索字段所属的域。举例来说:用户下发的搜索字段仅为“192.199.0.1”,而该搜索请求的相应消息中携带有doc 1:(“hostname:node 1,IP:192.199.0.1”),则显而易见的,IP是该搜索字段所属的域。
可选的,搜索系统可以根据搜索请求或响应消息中的间隔符来确定搜索字段所属的域。举例来说,若搜索请求为“IP:192.199.0.1”,则搜索请求中间隔符“:”前面的字段IP即为搜索字段所属的域。又举例来说,若搜索请求为“192.199.0.1”,响应消息中携带有doc1:(“hostname:node 1,IP:192.199.0.1”)中,则响应消息中位于192.199.0.1相邻的间隔符“:”前面,且位于间隔符“,”后面的字段IP即为搜索字段所属的域。搜索系统具体根据哪种间隔符来确定搜索字段所属的域与doc的格式有关,本申请仅以间隔符“:”和“,”为例进行说明,在某些搜索系统中,也可能根据其它间隔符来确定搜索字段所属的域,本申请中不做限定。
该M个搜索字段中,不同的搜索字段所属的域可以相同也可以不同。本实施例中仅以该M个搜索字段共属于L个不同的域为例进行说明。
403、确定该L个域的域值格式。
本申请发明人经过研究发现,用户的搜索行为在时间上具有局部性:若某时刻用户请求搜索某个搜索字段,则在之后的一段时间内,该搜索字段以及与该搜索字段相似的字段均有较大概率被再次搜索。为此,本实施例中搜索系统确定了确定该M个搜索字段所属的L个域后,根据该L个域中每个域所包括的搜索字段,确定每个域的域值格式。可以认为,符合该L个域的域值格式的字段在搜索系统的后续运行中有较大概率被搜索。
具体的,搜索系统可以将该L个域中每个域所包括的搜索字段所共同符合的格式,确定为每个域的域值格式。举例来说,若该L个域中存在域“IP”,该IP域包括两个搜索字段:“192.199.0.1”与“192.199.0.2”。则搜索系统将“192.199.0.*”确定为IP域的域值格式,其中*表示模糊匹配。
404、确定包含有符合域值格式的字段的第一doc。
搜索系统确定了该L个域中每个域的域值格式后,在搜索系统所保存的doc中确定第一doc,其中第一doc为:包含符合该L个域中任一个域的域值格式的字段的doc。可以理解的,第一doc的个数可以为一个也可为多个。
举例来说,搜索系统已确定IP域的域值格式为“192.199.0.*”。则由于doc 1:(“hostname:node 1,IP:192.199.0.1”)中包括字段“192.199.0.1”,且“192.199.0.1”符合域值格式“192.199.0.*”,故doc 1倍确定为第一doc。
搜索系统确定第一doc的方法有很多。举例来说,搜索系统可以将该L个域的域值格式作为搜索字段,直接对搜索系统的默认索引进行搜索,即可得到第一doc。
405、生成第二doc。
搜索系统确定了第一doc后,根据第一doc中符合域值格式的字段生成对应的第二doc。第二doc中包括:对应的第一doc中符合域值格式的字段,以及该字段的域。
举例来说,搜索系统已确定IP域的域值格式为“192.199.0.*”,第一doc为:(“hostname:node 1,IP:192.199.0.1”),其中第一doc中包括字段“192.199.0.1”符合域值格式“192.199.0.*”,则搜索系统根据第一doc生成对应的第二doc为:(“IP:192.199.0.1”)。
由于第一doc的个数可以为一个也可为多个,故第二doc的个数也可以为一个或多个。但由于第二doc是根据搜索系统原有的doc中的部分doc(即第一doc)生成的,故第二doc的个数远远小于搜索系统原有的doc的个数;且每个第二doc中仅包括一个域和一个域值字段,其长度也小于大部分搜索系统原有的doc。
406、为第二doc建立新建索引。
搜索系统生成了第二doc后,为第二doc建立对应的新建索引。
由于第二doc的个数与长度均较小,故第二doc的新建索引的数据体量要远远小于搜索系统原有的doc的默认索引的数据体量。
本实施例提供的索引管理方法中,搜索系统接收用户下发的N个搜索请求;确定该N个搜索请求中的M个搜索字段所属的L个域;确定该L个域的域值格式;在搜索系统所保存的doc中确定包含有符合域值格式的字段的第一doc;根据第一doc生成第二doc;为第二doc建立新建索引。由于第二doc符合该L个域的域值格式,故在搜索系统的后续运行中有较大概率被搜索。这样当搜索系统接收到用户新下发的搜索请求时,搜索请求中的搜索字段有较大概率能够命中新建索引。由于新建索引的数据体量要远远小于默认索引的数据体量,故查找新建索引与直接查找默认索引相比,能够大幅度节约搜索系统的工作量,提高搜索系统的搜索速度和效率,提升搜索系统的搜索性能。
可选的,在步骤406之后,搜索系统接收用户新下发的目标搜索请求,目标搜索请求中包括目标搜索字段,用于请求查找包含该目标搜索字段的doc。搜索系统查找与目标搜索字段相匹配的新建索引,若查找到与目标搜索字段相匹配的新建索引,则搜索系统获取查找到的新建索引对应的第二doc,并将获取的第二doc携带在响应消息中反馈给用户。若未查找到与目标搜索字段相匹配的新建索引,则搜索系统查找与目标搜索字段相匹配的默认索引。
可选的,当有新的doc导入搜索系统时,若该新的doc中包含符合步骤403中确定的域值格式的字段,则搜索系统生成该新的doc对应的第二doc。生成该新的doc对应的第二doc的具体方法与步骤405类似,此处不做赘述。在生成了新的doc对应的第二doc后,搜索系统为新的doc对应的第二doc建立新建索引,并为该新的doc生成默认索引。
可选的,搜索系统可以每隔预置周期,统计每个新建索引的搜索参数。其中,每个新建索引的搜索参数包括该新建索引对应的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项。搜索系统删除搜索参数低于阈值的一个或多个新建索引,以实现新建索引中非热点索引的动态淘汰。
上面的实施例介绍了本申请提供的数据配置方法以及索引管理方法,下面将介绍用于实现上述方法的装置。
首先介绍用于实现图3所示的数据配置方法的数据配置装置,请参阅图5,该数据配置装置的基本结构包括:
信息接收模块501,用于接收用户下发的多条搜索请求,该多条搜索请求中每条搜索请求均包括搜索字段,用于请求查找包含该搜索字段的数据文件。
域确定模块502,用于确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域。
热点确定模块503,用于在每个搜索字段所属的域中确定一个或多个热点域。
配置修改模块504,用于将该一个或多个热点域添加到schema配置文件中,并根据添加了该一个或多个热点域的schema配置文件更新搜索系统中的数据文件。
图5所示的数据配置装置的具体介绍可以参考图3所示的数据配置方法中的相关描述,此处不做赘述。
本实施例所提供的数据配置装置中,信息接收模块501接收用户下发的多条搜索请求,域确定模块502确定该多个搜索请求所包括的搜索字段中每个搜索字段所属的域,热点确定模块503在搜索字段所属的域中确定热点域,配置修改模块504将确定的热点域添加到schema配置文件中。这样搜索系统后续接收到属于热点域的搜索字段后,可以直接进行按域搜索。本实施例中,schema配置文件中的域不是由技术人员人为设定的域,而是由数据配置装置根据用户即时下发的搜索请求确定的热点域。由于热点域是该N个搜索请求中搜索频率较高的域,故在后续时间内热点域有很大的概率能够被用户再次搜索。通过向schema配置文件中添加热点域,能够提高按域搜索的使用频率,进而充分发挥了按域搜索带来的速度和效率的提升,进一步提高了搜索系统的搜索性能。
可选的,域确定模块502具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,域确定模块502具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息中的间隔符,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,热点确定模块503具体用于:将该每个搜索字段所属的域中,包括搜索字段最多的前一个或多个域确定为热点域。
可选的,数据配置装置还包括格式确定模块505,用于根据该一个或多个热点域中每个热点域所包括的搜索字段,确定每个热点域的域值格式。
可选的,格式确定模块505具体用于:将该一个或多个热点域中每个热点域所包括的搜索字段所共同符合的格式,确定为该每个热点域的域值格式。
可选的,配置修改模块504还用于:每隔预置周期,统计schema配置文件所定义的域中每个域的搜索数据,该搜索数据包括schema配置文件所定义的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;在schema配置文件中删除搜索数据低于阈值的一个或多个域。
下面介绍用于实现图4所示的索引管理方法的索引管理装置,请参阅图6,该索引管理装置的基本结构包括:
接收信息模块601,用于接收用户下发的多条搜索请求,该多条搜索请求中,每条搜索请求均包括搜索字段,用于请求查找包含该搜索字段的数据文件;
确定域模块602,用于确定该多条搜索请求所包括的搜索字段中,每个搜索字段所属的域;
确定格式模块603,用于根据每个搜索字段所属的域中每个域所包括的搜索字段,确定每个搜索字段所属的域中每个域的域值格式;
文件确定模块604,用于将搜索系统中,包含符合确定格式模块603中确定的域值格式的字段的数据文件,确定为第一数据文件;
文件生成模块605,用于生成每个第一数据文件对应的第二数据文件,每个第二数据文件中包括对应的第一数据文件所包含的符合域值格式的字段,以及该符合所述域值格式的字段所属的域;
索引管理模块606,用于生成每个第二数据文件对应的新建索引,该新建索引中包括对应的第二数据文件在搜索系统中的保存位置。
图6所示的索引管理装置的具体介绍可以参考图4所示的索引管理方法中的相关描述,此处不做赘述。
本实施例提供的索引管理装置中,接收信息模块601接收用户下发的多条搜索请求,确定域模块602确定该多个搜索请求所包括的搜索字段中每个搜索字段所属的域,确定格式模块603确定这些域的域值格式,文件确定模块604将搜索系统中,包含有符合域值格式的字段的数据文件确定为第一数据文件,文件生成模块605生成第一数据文件对应的第二数据文件,索引管理模块606生成第二数据文件的新建索引。当搜索系统接收到用户新下发的搜索请求时,搜索请求中的搜索字段有较大概率能够命中新建索引。由于新建索引的数据体量要远远小于默认索引的数据体量,故查找新建索引与直接查找默认索引相比,能够大幅度节约搜索系统的工作量,提高搜索系统的搜索速度和效率,提升搜索系统的搜索性能。
可选的,确定域模块602具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,确定域模块602具体用于:根据每条搜索请求,和/或搜索系统对每条搜索请求的响应消息中的间隔符,确定该多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
可选的,确定格式模块603具体用于:将每个搜索字段所属的域中每个域所包括的搜索字段所共同符合的格式,确定为每个搜索字段所属的域中每个域的域值格式。
可选的,接收信息模块601还用于:接收用户下发的目标搜索请求,该目标搜索请求中包括目标搜索字段,用于请求查找包含该目标搜索字段的数据文件。
索引管理装置还包括文件搜索模块607,用于:查找目标搜索字段对应的新建索引;若查找到该目标搜索字段对应的新建索引,则根据目标搜索字段对应的新建索引对应,获取包含该目标搜索字段的数据文件。
可选的,文件搜索模块607还用于:若未查找到目标搜索字段对应的新建索引,则查找该目标搜索字段对应的默认索引。
可选的,文件生成模块605还用于:当搜索系统中导入新的数据文件时,若该新的数据文件中包含确定符合格式模块603所确定的域值格式的字段,则生成该新的数据文件对应的第二数据文件,该新的数据文件对应的第二数据文件中包括:该新的数据文件中符合该域值格式的字段,以及该新的数据文件中符合该域值格式的字段所属的域。
索引管理模块606还用于:生成新的数据文件对应的第二数据文件对应的新建索引,该新的数据文件对应的第二数据文件对应的新建索引中包括:该新的数据文件对应的第二数据文件在搜索系统中的保存位置。
可选的,索引管理模块606还用于:隔预置周期,统计每个新建索引的搜索参数,其中,搜索参数包括每个新建索引在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;删除搜索参数低于阈值的一个或多个新建索引。
在一种实现方式中,图(5)和图(6)所示的实施例中的各模块可以是软件模块,且以程序代码的形式存储在图2所示的计算设备的存储器202中,并由处理器201调用执行。
在另一种实现方式中,图(5)和图(6)所示的实施例中的各模块可以是硬件模块,例如可以为CPU、硬件芯片或CPU与硬件芯片的组合,作为图2所示的计算设备的处理器201执行本申请提供的方法。
本申请还提供了一种计算机程序产品,该该计算机程序产品可以为一个软件安装包,该软件安装包被计算设备运行时,执行图3或图4所示的方法。
本申请说明书中所举例的doc、搜索请求、搜索字段和响应消息等实例,仅用于实例性的对本申请的技术方案进行介绍,并不对doc、搜索请求、搜索字段和响应消息的实际格式做任何限定。举例来说,本申请说明书中doc1为:(“hostname:node 1,IP:192.199.0.1”)。在实际应用中,doc 1也可以为符合搜索系统设定的其他格式,例如域和域值之间除了可以用“:”间隔符做分隔之外,也可以使用空格间隔符或其它间隔符做分隔;不同域的数据之间除了可以用“,”间隔符做分隔之外,也可以使用“;”间隔符或其它间隔符做分隔。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (32)

1.一种数据配置方法,适用于搜索系统,所述搜索系统包括多个数据文件,每个数据文件包括一个或多个域、以及所述一个或多个域对应的域值,其中,所述域用于表示对应的域值的类型,所述域值用于记录对应的域的具体取值,所述搜索系统还包括字段配置schema配置文件,所述schema配置文件用于定义所述搜索系统中的数据文件的域,其特征在于,所述方法包括:
接收用户下发的多条搜索请求,所述多条搜索请求中,每条搜索请求均包括搜索字段,所述每条搜索请求用于请求查找包含所述搜索字段的数据文件;
确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域;
在所述每个搜索字段所属的域中确定一个或多个热点域;
将所述一个或多个热点域添加到所述schema配置文件中,并根据添加了所述一个或多个热点域的schema配置文件更新所述搜索系统中的数据文件。
2.根据权利要求1所述的数据配置方法,其特征在于,所述确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域包括:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
3.根据权利要求2所述的数据配置方法,其特征在于,所述根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域包括:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息中的间隔符,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
4.根据权利要求1至3中任一项所述的数据配置方法,其特征在于,所述在所述每个搜索字段所属的域中确定一个或多个热点域包括:
将所述每个搜索字段所属的域中,包括搜索字段最多的前一个或多个域确定为热点域。
5.根据权利要求4所述的数据配置方法,其特征在于,所述在所述每个搜索字段所属的域中确定一个或多个热点域包括之后还包括:
根据所述一个或多个热点域中每个热点域所包括的搜索字段,确定每个热点域的域值格式。
6.根据权利要求5所述的数据配置方法,其特征在于,所述根据所述一个或多个热点域中每个热点域所包括的搜索字段,确定所述每个热点域的域值格式包括:
将所述一个或多个热点域中每个热点域所包括的搜索字段所共同符合的格式,确定为搜索每个热点域的域值格式。
7.根据权利要求6所述的数据配置方法,其特征在于,所述方法还包括:
每隔预置周期,统计所述schema配置文件所定义的域中每个域的搜索数据,所述搜索数据包括所述schema配置文件所定义的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;
在所述schema配置文件中删除搜索数据低于阈值的一个或多个域。
8.一种索引管理方法,适用于搜索系统,所述搜索系统包括多个数据文件,每个数据文件包括一个或多个域、以及所述一个或多个域对应的域值,其中,所述域用于表示对应的域值的类型,所述域值用于记录对应的域的具体取值,所述搜索系统还包括所述多个数据文件对应的默认索引,每个默认索引中包括其对应的数据文件在所述搜索系统中的保存位置,所述方法包括:
接收用户下发的多条搜索请求,所述多条搜索请求中,每条搜索请求均包括搜索字段,所述每条搜索请求用于请求查找包含所述搜索字段的数据文件;
确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域;
根据所述每个搜索字段所属的域中每个域所包括的搜索字段,确定所述每个搜索字段所属的域中每个域的域值格式;
将所述搜索系统中,包含符合所述域值格式的字段的数据文件,确定为第一数据文件;
生成每个所述第一数据文件对应的第二数据文件,每个所述第二数据文件中包括对应的第一数据文件所包含的符合所述域值格式的字段,以及所述符合所述域值格式的字段所属的域;
生成每个所述第二数据文件对应的新建索引,所述新建索引中包括对应的第二数据文件在所述搜索系统中的保存位置。
9.根据权利要求8所述的索引管理方法,其特征在于,所述确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域包括:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
10.根据权利要求9所述的索引管理方法,其特征在于,所述根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域包括:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息中的间隔符,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
11.根据权利要求8至10中任一项所述的索引管理方法,其特征在于,所述根据所述每个搜索字段所属的域中每个域所包括的搜索字段,确定所述每个搜索字段所属的域中每个域的域值格式包括:
将所述每个搜索字段所属的域中每个域所包括的搜索字段所共同符合的格式,确定为所述每个搜索字段所属的域中每个域的域值格式。
12.根据权利要求11所述的索引管理方法,其特征在于,所述方法还包括:
接收用户下发的目标搜索请求,所述目标搜索请求中包括目标搜索字段,所述目标搜索请求用于请求查找包含所述目标搜索字段的数据文件;
查找所述目标搜索字段对应的新建索引;
若查找到所述目标搜索字段对应的新建索引,则根据所述目标搜索字段对应的新建索引对应,获取包含所述目标搜索字段的数据文件。
13.根据权利要求12所述的索引管理方法,其特征在于,所述方法还包括:
若未查找到所述目标搜索字段对应的新建索引,则查找所述目标搜索字段对应的默认索引。
14.根据权利要求13所述的索引管理方法,其特征在于,所述方法还包括:
当所述搜索系统中导入新的数据文件时,若所述新的数据文件中包含符合所述域值格式的字段,则生成所述新的数据文件对应的第二数据文件,所述新的数据文件对应的第二数据文件中包括:所述新的数据文件中符合所述域值格式的字段,以及所述新的数据文件中符合所述域值格式的字段所属的域;
生成所述新的数据文件对应的第二数据文件对应的新建索引,所述新的数据文件对应的第二数据文件对应的新建索引中包括:所述新的数据文件对应的第二数据文件在所述搜索系统中的保存位置。
15.根据权利要求14所述的索引管理方法,其特征在于,所述方法还包括:
每隔预置周期,统计每个所述新建索引的搜索参数,所述搜索参数包括所述新建索引在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;
删除搜索参数低于阈值的一个或多个新建索引。
16.一种数据配置装置,适用于搜索系统,所述搜索系统包括多个数据文件,每个数据文件包括一个或多个域、以及所述一个或多个域对应的域值,其中,所述域用于表示对应的域值的类型,所述域值用于记录对应的域的具体取值,所述搜索系统还包括字段配置schema配置文件,所述schema配置文件用于定义所述搜索系统中的数据文件的域,其特征在于,所述数据配置装置包括:
信息接收模块,用于接收用户下发的多条搜索请求,所述多条搜索请求中,每条搜索请求均包括搜索字段,所述每条搜索请求用于请求查找包含所述搜索字段的数据文件;
域确定模块,用于确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域;
热点确定模块,用于在所述每个搜索字段所属的域中确定一个或多个热点域;
配置修改模块,用于将所述一个或多个热点域添加到所述schema配置文件中,并根据添加了所述一个或多个热点域的schema配置文件更新所述搜索系统中的数据文件。
17.根据权利要求16所述的数据配置装置,其特征在于,所述域确定模块具体用于:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
18.根据权利要求17所述的数据配置装置,其特征在于,所述域确定模块具体用于:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息中的间隔符,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
19.根据权利要求16至18中任一项所述的数据配置装置,其特征在于,所述热点确定模块具体用于:
将所述每个搜索字段所属的域中,包括搜索字段最多的前一个或多个域确定为热点域。
20.根据权利要求19所述的数据配置装置,其特征在于,所述装置还包括:
格式确定模块,用于根据所述一个或多个热点域中每个热点域所包括的搜索字段,确定每个热点域的域值格式。
21.根据权利要求20所述的数据配置装置,其特征在于,所述格式确定模块具体用于:
将所述一个或多个热点域中每个热点域所包括的搜索字段所共同符合的格式,确定为所述每个热点域的域值格式。
22.根据权利要求21所述的数据配置装置,其特征在于,所述配置修改模块还用于:
每隔预置周期,统计所述schema配置文件所定义的域中每个域的搜索数据,所述搜索数据包括所述schema配置文件所定义的域在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;
在所述schema配置文件中删除搜索数据低于阈值的一个或多个域。
23.一种索引管理装置,适用于搜索系统,所述搜索系统包括多个数据文件,每个数据文件包括一个或多个域、以及所述一个或多个域对应的域值,其中,所述域用于表示对应的域值的类型,所述域值用于记录对应的域的具体取值,所述搜索系统还包括所述多个数据文件对应的默认索引,每个默认索引中包括其对应的数据文件在所述搜索系统中的保存位置,所述索引管理装置包括:
接收信息模块,用于接收用户下发的多条搜索请求,所述多条搜索请求中,每条搜索请求均包括搜索字段,所述每条搜索请求用于请求查找包含所述搜索字段的数据文件;
确定域模块,用于确定所述多条搜索请求所包括的搜索字段中,每个搜索字段所属的域;
确定格式模块,用于根据所述每个搜索字段所属的域中每个域所包括的搜索字段,确定所述每个搜索字段所属的域中每个域的域值格式;
文件确定模块,用于将所述搜索系统中,包含符合所述域值格式的字段的数据文件,确定为第一数据文件;
文件生成模块,用于生成每个所述第一数据文件对应的第二数据文件,每个所述第二数据文件中包括对应的第一数据文件所包含的符合所述域值格式的字段,以及所述符合所述域值格式的字段所属的域;
索引管理模块,用于生成每个所述第二数据文件对应的新建索引,所述新建索引中包括对应的第二数据文件在所述搜索系统中的保存位置。
24.根据权利要求23所述的索引管理装置,其特征在于,所述确定域模块具体用于:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
25.根据权利要求24所述的索引管理装置,其特征在于,所述确定域模块具体用于:
根据所述每条搜索请求,和/或所述搜索系统对所述每条搜索请求的响应消息中的间隔符,确定所述多条搜索请求所包括的搜索字段中每个搜索字段所属的域。
26.根据权利要求23至25中任一项所述的索引管理装置,其特征在于,所述确定格式模块具体用于:
将所述每个搜索字段所属的域中每个域所包括的搜索字段所共同符合的格式,确定为所述每个搜索字段所属的域中每个域的域值格式。
27.根据权利要求26所述的索引管理装置,其特征在于:
所述接收信息模块,还用于接收用户下发的目标搜索请求,所述目标搜索请求中包括目标搜索字段,所述目标搜索请求用于请求查找包含所述目标搜索字段的数据文件;
所述索引管理装置还包括文件搜索模块,用于:
查找所述目标搜索字段对应的新建索引;
若查找到所述目标搜索字段对应的新建索引,则根据所述目标搜索字段对应的新建索引对应,获取包含所述目标搜索字段的数据文件。
28.根据权利要求27所述的索引管理装置,其特征在于,所述文件搜索模块还用于:
若未查找到所述目标搜索字段对应的新建索引,则查找所述目标搜索字段对应的默认索引。
29.根据权利要求28所述的索引管理装置,其特征在于,所述文件生成模块还用于:
当所述搜索系统中导入新的数据文件时,若所述新的数据文件中包含符合所述域值格式的字段,则生成所述新的数据文件对应的第二数据文件,所述新的数据文件对应的第二数据文件中包括:所述新的数据文件中符合所述域值格式的字段,以及所述新的数据文件中符合所述域值格式的字段所属的域;
所述索引管理模块还用于:生成所述新的数据文件对应的第二数据文件对应的新建索引,所述新的数据文件对应的第二数据文件对应的新建索引中包括:所述新的数据文件对应的第二数据文件在所述搜索系统中的保存位置。
30.根据权利要求29所述的索引管理装置,其特征在于,所述索引管理模块还用于:
每隔预置周期,统计每个所述新建索引的搜索参数,所述搜索参数包括所述新建索引在当前预置周期内的被搜索次数、被搜索频率、搜索命中率中的一项或多项;
删除搜索参数低于阈值的一个或多个新建索引。
31.一种计算设备,包括处理器、存储器,其特征在于,通过调用存储器中存储的程序代码,所述处理器用于执行如权利要求1至7中任一项所述的数据配置方法。
32.一种计算设备,包括处理器、存储器,其特征在于,通过调用存储器中存储的程序代码,所述处理器用于执行如权利要求8至15中任一项所述的索引管理方法。
CN201610939364.5A 2016-10-24 2016-10-24 数据配置方法、索引管理方法、相关装置以及计算设备 Active CN107977381B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610939364.5A CN107977381B (zh) 2016-10-24 2016-10-24 数据配置方法、索引管理方法、相关装置以及计算设备
PCT/CN2017/107343 WO2018077138A1 (zh) 2016-10-24 2017-10-23 数据配置方法、索引管理方法、相关装置以及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610939364.5A CN107977381B (zh) 2016-10-24 2016-10-24 数据配置方法、索引管理方法、相关装置以及计算设备

Publications (2)

Publication Number Publication Date
CN107977381A CN107977381A (zh) 2018-05-01
CN107977381B true CN107977381B (zh) 2021-08-27

Family

ID=62004877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610939364.5A Active CN107977381B (zh) 2016-10-24 2016-10-24 数据配置方法、索引管理方法、相关装置以及计算设备

Country Status (2)

Country Link
CN (1) CN107977381B (zh)
WO (1) WO2018077138A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829880B (zh) * 2018-06-27 2020-12-01 烽火通信科技股份有限公司 一种光网络终端设备的配置管理的方法
CN112231356A (zh) * 2020-10-20 2021-01-15 中国建设银行股份有限公司 数据处理的方法及装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317917A (zh) * 2011-06-30 2012-01-11 华为技术有限公司 热点域虚拟机cpu调度方法及虚拟机系统
US8886628B1 (en) * 2009-03-12 2014-11-11 Akeakamai, Inc. Management of multilevel metadata in the PORTAL-DOORS system with bootstrapping
CN104823169A (zh) * 2012-10-12 2015-08-05 A9.com股份有限公司 用于网络中的可搜索数据的索引配置
CN105493075A (zh) * 2013-07-15 2016-04-13 微软技术许可有限责任公司 基于所标识的实体的属性值检索

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898592B2 (en) * 2000-12-27 2005-05-24 Microsoft Corporation Scoping queries in a search engine
CN102217413A (zh) * 2009-06-10 2011-10-12 华为技术有限公司 一种移动搜索接口适配的方法、搜索服务器以及系统
US9152674B2 (en) * 2012-04-27 2015-10-06 Quixey, Inc. Performing application searches
CN104361005B (zh) * 2014-10-11 2017-10-31 北京中搜网络技术股份有限公司 一种垂直搜索引擎中对信息单元的调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886628B1 (en) * 2009-03-12 2014-11-11 Akeakamai, Inc. Management of multilevel metadata in the PORTAL-DOORS system with bootstrapping
CN102317917A (zh) * 2011-06-30 2012-01-11 华为技术有限公司 热点域虚拟机cpu调度方法及虚拟机系统
CN104823169A (zh) * 2012-10-12 2015-08-05 A9.com股份有限公司 用于网络中的可搜索数据的索引配置
CN105493075A (zh) * 2013-07-15 2016-04-13 微软技术许可有限责任公司 基于所标识的实体的属性值检索

Also Published As

Publication number Publication date
WO2018077138A1 (zh) 2018-05-03
CN107977381A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN108255958B (zh) 数据查询方法、装置和存储介质
US9906477B2 (en) Distributing retained messages information in a clustered publish/subscribe system
CN104794123A (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
WO2010129063A1 (en) Method and system for search engine indexing and searching using the index
US11188443B2 (en) Method, apparatus and system for processing log data
CN108540508B (zh) 用于推送信息的方法、装置和设备
WO2014173151A1 (en) Method, device and terminal for data processing
CN110688096B (zh) 包含插件的应用程序的构建方法、装置、介质及电子设备
CN107844488B (zh) 数据查询方法和装置
CN109753424B (zh) Ab测试的方法和装置
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN108959294B (zh) 一种访问搜索引擎的方法和装置
CN114398520A (zh) 数据检索方法、系统、装置、电子设备及存储介质
CN104503983A (zh) 为搜索引擎提供网站认证数据的方法及装置
CN106156258B (zh) 一种在分布式存储系统中统计数据的方法、装置及系统
CN113312355A (zh) 一种数据管理的方法和装置
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN111310076A (zh) 地理位置查询方法、装置、介质及电子设备
CN114116827B (zh) 一种用户画像数据的查询系统及方法
JP6233846B2 (ja) 可変長ノンスの生成
CN112148925B (zh) 用户标识关联查询方法、装置、设备及可读存储介质
CN103631930A (zh) 一种搜索引擎空间占用统计方法及系统
US10185729B2 (en) Index creation method and system
CN110019671B (zh) 一种处理实时消息的方法和系统
CN115687810A (zh) 网页搜索方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220216

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right