CN113407785B - 一种基于分布式储存系统的数据处理方法和系统 - Google Patents

一种基于分布式储存系统的数据处理方法和系统 Download PDF

Info

Publication number
CN113407785B
CN113407785B CN202110651810.3A CN202110651810A CN113407785B CN 113407785 B CN113407785 B CN 113407785B CN 202110651810 A CN202110651810 A CN 202110651810A CN 113407785 B CN113407785 B CN 113407785B
Authority
CN
China
Prior art keywords
data set
data
size
paging
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110651810.3A
Other languages
English (en)
Other versions
CN113407785A (zh
Inventor
何军红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110651810.3A priority Critical patent/CN113407785B/zh
Publication of CN113407785A publication Critical patent/CN113407785A/zh
Application granted granted Critical
Publication of CN113407785B publication Critical patent/CN113407785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Abstract

本申请公开了一种基于分布式储存系统的数据处理方法,该方法包括:获取关键词和关键词对应的字段;根据所述字段在分布式存储系统中确定对应的索引;在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;将多个第一数据集合并为第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。本申请根据字段分类在不同的数据库中搜索数据获取第一数据集,能够减少对不必要的记录的访问,快速获取到第一数据集,如果关键词设置有多个,通过多个第一数据集获取的第二数据集数据量有限,容易通过检索获取最终返回给客户的数据,该方案检索效率高。

Description

一种基于分布式储存系统的数据处理方法和系统
技术领域
本申请涉及全文分布式检索技术领域,尤其涉及一种基于分布式储存系统的数据处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机运算能力的提升,物联网、大数据等概念逐年实用化,计算机系统所需要处理的数据量产生了井喷,因此对众多信息管理成为一项信息技术挑战。新增数据在数据量扩增的同时,数据的复杂度也产生了巨大的变化,其中为了处理大量结构化并不充分的文字数据,数据的索引和检索引入了全文检索的方式,与之相配合的是索引方式的改变。通过倒排索引的方式,以一个具体的字段作为索引的依据,存储字段下的值出现过的所有记录,如此能够对全文出现的各种信息进行索引,相较于传统关系型数据库对个别字段进行的索引,信息的索引更为全面,索引的数量以及每个索引当中存放的数据也更多。这对检索过程造成了压力。
Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。具备Elasticsearch的水平伸缩性,能够有效通过倒序索引的方式对文本数据进行全文索引,并实施后续的检索工作。然而,海量的数据仍然会降低检索的效率。From-size的检索方式,将数据分成多页,并且对指定页进行检索,在数据量大时,因为分页执行效率大幅降低容易造成查询超时,而Scroll的检索方式对所有指定数据进行检索,一次性筛选在数据量较大时仍然会造成超时。
发明内容
本申请实施例的目的在于提出一种能够提升检索效率的分布式的检索方法。
一种基于分布式储存系统的数据处理方法,该方法包括:
获取关键词和关键词对应的字段;
根据所述字段在分布式存储系统中确定对应的索引;
在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;
根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
进一步的,所述步骤在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集,具体包括:
根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
根据所述预选数据集的大小,对预选数据集分页;
通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
通过Scroll检索所述目标分页,以获取第一数据集。
进一步的,所述步骤通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中,具体包括:
通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的所述预设标识;
记录的所述预设标识,确定对应的分页为所述目标分页。
进一步的,所述步骤根据所述预选数据集的大小,对预选数据集分页具体包括:
根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
为了解决上述技术问题,本申请实施例提供一种基于分布式储存系统的数据处理系统,采用了如下所述技术方案
一种基于分布式储存系统的数据处理系统,包括:
关键字获取模块,用于获取至少一个关键词和关键词对应的字段;
索引确定模块,用于根据所述字段在分布式存储系统中确定对应的索引;
第一数据集获取模块,用于在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;
结果获取模块,用于根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
进一步的,所述第一数据集获取模块,具体包括:
预选数据集获取子模块,用于根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
分页子模块,用于根据所述预选数据集的大小,对预选数据集分页;
目标分页确定子模块,用于通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
第一数据集获取子模块,用于通过Scroll检索所述目标分页,以获取第一数据集。
进一步的,所述目标分页确定子模块,具体包括:
关键词查询子模块,用于通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
标识查询子模块,用于根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的所述预设标识;
标识记录子模块,用于记录的所述预设标识,确定对应的分页为所述目标分页。
进一步的,所述分页子模块具体包括:
规模判断子模块,用于根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
最大分量确定子模块,根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
向下取整子模块,用于根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的一种基于分布式储存系统的数据处理方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于分布式储存系统的数据处理方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:获取关键词和关键词对应的字段;根据所述字段在分布式存储系统中确定对应的索引;在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
其中,关键词是信息检索的依据,根据关键词对应的字段进行检索能够得到一组包含了关键词的记录。
分布式存储系统中通过倒排索引的方式存储有大量的索引其中每个字段对应的索引在相应的索引中存放。
对关键词的搜索是在对应的索引中进行的,通过对每个关键词的搜索能够得到一个第一数据集。
第一数据集中的记录是具有结构化的,若干第一数据集中的数据能够存储在一起形成一个完整的数据集,通常一组第一数据的第一个记录直接排列在另一组第一数据集的最后一个记录后方,形成完整的第二数据集。
经过获取第一数据集时的检索过程,第二数据集的数据量通常有限通过Scroll方式能够直接快速检索。
根据字段分类在不同的数据库中搜索数据获取第一数据集,能够减少对不必要的记录的访问,快速获取到第一数据集,如果关键词设置有多个,通过多个第一数据集获取的第二数据集数据量有限,容易通过检索获取最终返回给客户的数据,该方案检索效率高。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的一种基于分布式储存系统的数据处理方法的一个实施例的流程图;
图3是图2中步骤S300的一种具体实施方式的流程图;
图4是图2中步骤S303的一种具体实施方式的流程图;
图5是图2中步骤S302的一种具体实施方式的流程图;
图6是根据本申请的一种基于分布式储存系统的数据处理装置的一个实施例的结构示意图;
图7是图6所示300模块一种具体实施方式的结构示意图;
图8是图6所示302模块一种具体实施方式的结构示意图;
图9是图6所示303模块一种具体实施方式的结构示意图;
图10是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构10可以包括终端设备11、12、13,网络14和服务器15。网络14用以在终端设备11、12、13和服务器15之间提供通信链路的介质。网络14可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备11、12、13通过网络14与服务器15交互,以接收或发送消息等。终端设备11、12、13上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备11、12、13可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器15可以是提供各种服务的服务器,例如对终端设备11、12、13上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的一种基于分布式储存系统的数据处理方法一般由服务器/终端设备执行,相应地,一种基于分布式储存系统的数据处理装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的一种基于分布式储存系统的数据处理的方法的一个实施例的流程图。所述的一种基于分布式储存系统的数据处理方法,包括以下步骤:
一种基于分布式储存系统的数据处理方法,该方法包括:
步骤S100:获取关键词和关键词对应的字段;
步骤S200:根据所述字段在分布式存储系统中确定对应的索引;
步骤S300:在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;
步骤S400:根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
其中,关键词是信息检索的依据,根据关键词对应的字段进行检索能够得到一组包含了关键词的记录。
分布式存储系统中通过倒排索引的方式存储有大量的索引其中每个字段对应的索引在相应的索引中存放。
对关键词的搜索是在对应的索引中进行的,通过对每个关键词的搜索能够得到一个第一数据集。
在一种实施例中,使用者对通过分布式存储系统对药品信息进行分布式的索引和检索,在该实施例当中,通过药品说明书采集的药品信息被采集为药品名称、药品形状、药品适应症及无类别指定等多个字段,每个药品的说明书都被全文索引在该分布式索引系统当中。并且根据字段在逻辑上形成索引,每个索引根据数据量大小的不同,在物理上分为若干分片,每个分片生成三个副本分别存储在不同的节点当中,上述节点可以通过单独的服务器存在,多个节点也可以设置在一台服务器中,整个系统可设置多台服务器形成集群,以提升索引和检索的访问效率。
在检索的过程当中,如果用户输入一个所属字段明确的关键词,例如用户输入关键词诺氟沙星,对应字段商标名称,在商标名称字段对应的索引中以诺氟沙星作为关键字进行检索,得到第一数据集,将整个第一数据集输出,作为搜索的结果。
如果用户输入一个字段不明确的关键词,比如用户输入关键词腹泻,但未指定关键词对应的字段是适应症还是副作用,则将关键词对应的字段定义为无类别指定字段,并且在无类别指定字段对应的索引中进行检索,得到第一数据集,将整个第一数据集输出作为搜索的结果。可选的,系统还可以将关键词腹泻对应的字段定义为每个字段,此时对该关键词的搜索相当于对多个所属字段明确的关键词进行搜索。
如果用户输入两个或两个以上的关键词,每个关键词明确对应有字段,比如用户输入关键词诺氟沙星,指定字段为商标名称,关键词氟哌酸,指定字段名称为成分,分别在商标名称对应的索引当中对关键词诺氟沙星进行检索得到第一数据局,同时在成分对应的缩影当中对关键词氟哌酸进行检索得到第一数据,根据两组所述第一数据以关联和模糊对比的方式生成第二数据集,其中关联是以数据库检索的方式,通过对两组第一数据集中的记录,进行内容或属性上的对比,以将符合数据库检索规则的记录提取出来,作为第二数据集的内容。模糊对比的方式,具体可以通过引入机器学习,通过训练好的模型对两组第一数据集中的记录进行读取和加工,以提取出相关的记录作为第二数据集的内容,输出的第二数据集的数据规模会大大降低,之后对第二数据集以Scroll的方式进行检索,检索到最终的药品信息,并且将药品信息输出。
第一数据集中的记录是具有结构化的,若干第一数据集中的数据能够存储在一起形成一个完整的数据集,通常一组第一数据的第一个记录直接排列在另一组第一数据集的最后一个记录后方,形成完整的第二数据集。
经过获取第一数据集时的检索过程,第二数据集的数据量通常有限通过Scroll方式能够直接快速检索。
根据字段分类在不同的数据库中搜索数据获取第一数据集,能够减少对不必要的记录的访问,快速获取到第一数据集,如果关键词设置有多个,通过多个第一数据集获取的第二数据集数据量有限,容易通过检索获取最终返回给客户的数据,该方案检索效率高。
进一步的,所述步骤S300:在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集,具体包括:
步骤S301:根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
步骤S302:根据所述预选数据集的大小,对预选数据集分页;
步骤S303:通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
步骤S304:通过Scroll检索所述目标分页,以获取第一数据集。
预选数据集中包括了以上述字段为索引的索引中的所有记录,通常是一组比较大的数据,对这样的数据查询需要耗费较大的计算机硬件资源,并且容易造成超时。
对预选数据集进行分页的过程需要根据计算机的运行环境以及检索过程中的运算量进行确定,单个分页分的太大,容易造成检索超时,单个分页分的太小容易造成内存资源使用不到位,影响数据处理的效率,理想情况下,一次性的在内存当中提取一个或数个分页,并且预留有足够的程序运行所需的内存空间,并且考虑到缓存的调用是否方便进行分页大小的指定。
通过From-size检索方式能够对分页进行检索,在elasticsearch当中,数据根据相关性进行排序,而根据关键词提取的数据,通常存放在相同或相邻的分页当中,通过From-size对每个分页查询以查找关键词对应的记录存放的若干分页作为目标分页,并将目标分页提取出来。
通过Scroll方式对提取出的目标分页进行检索以获取第一数据集,该方案通过逐步缩小检索范围,结合两种检索方式,最终获取第一数据集,搜索效率高,容错率高。
在本实施例当中,数据库中存在有海量的药品信息,用户输入关键词诺氟沙星,指定字段为商标名称,关键词氟哌酸,指定字段名称为成分,通过搜索得到两个数据规模较大的第一数据集,以对关键词氟哌酸的检索为例,输出第一数据集的具体方法,包括:在成分对应的索引中对关键词氟哌酸进行检索,其中成分对应索引中的内容均作为预选数据集的内容,预选数据集的内容,逻辑上同属于一个索引,物理上可以通过多个分片同时存储在不同节点或不同的服务器上,根据预选数据集的大小,以及检索过程使用到的服务器的内存大小,对预选数据集进行分页,之后通过From-size的方式对分页进行检索,无需对每个分页进行完整的检索,如果在一个分页中检索到了成分为氟哌酸的记录,将这一分页标记为目标分页,将所述目标分页提取出来,并通过Scroll的方式对目标分页进行检索,因为elasticsearch在索引的过程中,会根据字段内容进行相关性排序,因此目标分页的个数有限,而Scroll的方式检索的对象有限,如此检索出药品名为氟哌酸的所有药品的药品信息。
进一步的,所述步骤S303:通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中,具体包括:
S3031:通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
S3032:根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的所述预设标识;
S3033:记录的所述预设标识,确定对应的分页为所述目标分页。
通过From-size方式对每个分页中的记录进行抽样检索,通常检索分页中的第一项记录和最后一项记录,也可以在分页的中部抽取记录进行检索如果检索到关键词对应的记录,对该分页进行标记作为目标分页,该方案能够快速提取分页。有利于提升数据检索和处理的效率。
进一步的,所述步骤S302:根据所述预选数据集的大小,对预选数据集分页具体包括:
步骤S3021:根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
步骤S3022:根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
步骤S3023:根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
分页大小指的是一个分页中存储数据量的大小,一个分页的数据量大小存在推荐的最大值,分页数量的多少存在最大值,通常将分页能够存在的最大值与一个分页数量的推荐最大值的乘积作为判断的阈值,如果数据集的记录条数小于这一阈值,那么就能够基于分页中存在的记录数量进行分页。同时结合内存确定出一个最适于内存存储的分页大小,具体实施过程中还需要考虑到每条记录所占字节数,计算机结构能因素,定义分页的大小,该方案能够充分利用计算机的存储资源,以提升数据处理的效率。
在本实施例中,一种基于分布式储存系统的数据处理方法所运行的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式请求或者接收数据和信息。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种一种基于分布式储存系统的数据处理系统的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述一种基于分布式储存系统的数据处理系统,包括:
关键字获取模块100,用于获取至少一个关键词和关键词对应的字段;
索引确定模块200,用于根据所述字段在分布式存储系统中确定对应的索引;
第一数据集获取模块300,用于在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;
结果获取模块400,用于根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
根据字段分类在不同的数据库中搜索数据获取第一数据集,能够减少对不必要的记录的访问,快速获取到第一数据集,如果关键词设置有多个,通过多个第一数据集获取的第二数据集数据量有限,容易通过检索获取最终返回给客户的数据,该方案检索效率高。
进一步的,所述第一数据集获取模块300,具体包括:
预选数据集获取子模块301,用于根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
分页子模块302,用于根据所述预选数据集的大小,对预选数据集分页;
目标分页确定子模块303,用于通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
第一数据集获取子模块304,用于通过Scroll检索所述目标分页,以获取第一数据集。
该方案通过逐步缩小检索范围,结合两种检索方式,最终获取第一数据集,搜索效率高,容错率高。
进一步的,所述目标分页确定子模块303,具体包括:
关键词查询子模块3031,用于通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
标识查询子模块3032,用于根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的所述预设标识;
标识记录子模块3033,用于记录的所述预设标识,确定对应的分页为所述目标分页。
该方案能够快速提取分页。有利于提升数据检索和处理的效率。
进一步的,所述分页子302模块具体包括:
规模判断子模块3021,用于根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
最大分量确定子模块3022,根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
向下取整子模块3023,用于根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
该方案能够充分利用计算机的存储资源,以提升数据处理的效率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如一种基于分布式储存系统的数据处理方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述一种基于分布式储存系统的数据处理方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有一种基于分布式储存系统的数据处理程序,所述一种基于分布式储存系统的数据处理程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的一种基于分布式储存系统的数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种基于分布式储存系统的数据处理方法,其特征在于,该方法包括:
获取关键词和关键词对应的字段;
根据所述字段在分布式存储系统中确定对应的索引;
在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;具体包括:
根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
根据所述预选数据集的大小,对预选数据集分页;
通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
通过Scroll检索所述目标分页,以获取第一数据集;
根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
2.根据权利要求1所述的一种基于分布式储存系统的数据处理方法,其特征在于,所述步骤通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中,具体包括:
通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的预设标识;
记录的所述预设标识,确定对应的分页为所述目标分页。
3.根据权利要求1所述的一种基于分布式储存系统的数据处理方法,其特征在于,所述步骤根据所述预选数据集的大小,对预选数据集分页具体包括:
根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
4.一种基于分布式储存系统的数据处理系统,其特征在于,包括:
关键字获取模块,用于获取至少一个关键词和关键词对应的字段;
索引确定模块,用于根据所述字段在分布式存储系统中确定对应的索引;
第一数据集获取模块,用于在索引中通过对应的关键词获取一组第一数据集,当所述关键词设置有多个时,根据每个所述关键词分别获取一组第一数据集;具体包括:
预选数据集获取子模块,用于根据关键词与所述字段的对应关系,在所述索引中提取预选数据集;
分页子模块,用于根据所述预选数据集的大小,对预选数据集分页;
目标分页确定子模块,用于通过From-size检索所述预选数据集,以确定至少一组目标分页,其中第一数据集合存放在目标分页当中;
第一数据集获取子模块,用于通过Scrol l检索所述目标分页,以获取第一数据集;
结果获取模块,用于根据多个第一数据集通过关联或模糊匹配生成第二数据集,并通过Scroll方式检索所述第二数据集以获取检索结果,并将结果返回给用户。
5.根据权利要求4所述的一种基于分布式储存系统的数据处理系统,其特征在于,所述目标分页确定子模块,具体包括:
关键词查询子模块,用于通过From-size对至少一个所述分页的至少一条记录对所述关键词进行搜索;
标识查询子模块,用于根据在所述分页中搜索到所述关键词,记录所述分页第一项记录的预设标识;
标识记录子模块,用于记录的所述预设标识,确定对应的分页为所述目标分页。
6.根据权利要求5所述的一种基于分布式储存系统的数据处理系统,其特征在于,所述分页子模块具体包括:
规模判断子模块,用于根据所述预选数据集的记录条数小于预设值,获取所述索引预留内存大小;
最大分量确定子模块,根据所述索引预留内存大小,和预设的冗余比例确定分页最大数据量;
向下取整子模块,用于根据所述分页最大数据量所能存储的记录条数向下取整,确定分页大小。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的一种基于分布式储存系统的数据处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的一种基于分布式储存系统的数据处理方法的步骤。
CN202110651810.3A 2021-06-11 2021-06-11 一种基于分布式储存系统的数据处理方法和系统 Active CN113407785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110651810.3A CN113407785B (zh) 2021-06-11 2021-06-11 一种基于分布式储存系统的数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110651810.3A CN113407785B (zh) 2021-06-11 2021-06-11 一种基于分布式储存系统的数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN113407785A CN113407785A (zh) 2021-09-17
CN113407785B true CN113407785B (zh) 2023-02-28

Family

ID=77683510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110651810.3A Active CN113407785B (zh) 2021-06-11 2021-06-11 一种基于分布式储存系统的数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN113407785B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946296B (zh) * 2021-11-03 2024-03-12 蜂巢科技(南通)有限公司 一种具有掉电保护功能的分布式储存系统
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置
CN114238458A (zh) * 2022-02-23 2022-03-25 国网北京市电力公司 数据查询方法、其装置及电子设备
CN116561230B (zh) * 2023-07-07 2023-09-01 长通智能(深圳)有限公司 一种基于云计算的分布式存储与检索系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092665A (zh) * 2017-03-31 2017-08-25 合肥民众亿兴软件开发有限公司 一种数据检索系统及检索方法
CN107341217A (zh) * 2017-06-27 2017-11-10 武汉斗鱼网络科技有限公司 一种数据获取方法及设备
EP3373161A1 (en) * 2017-03-09 2018-09-12 Wipro Limited Method and system for classification of web browsing history
CN111914020A (zh) * 2020-06-18 2020-11-10 北京旷视科技有限公司 数据同步方法及装置、数据查询方法及装置
CN112800287A (zh) * 2021-04-15 2021-05-14 杭州欧若数网科技有限公司 基于图数据库的全文索引方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582514B2 (en) * 2014-12-27 2017-02-28 Ascava, Inc. Performing multidimensional search and content-associative retrieval on data that has been losslessly reduced using a prime data sieve
US10192000B2 (en) * 2016-01-29 2019-01-29 Walmart Apollo, Llc System and method for distributed system to store and visualize large graph databases
CN106326429A (zh) * 2016-08-25 2017-01-11 武汉光谷信息技术股份有限公司 一种基于solr的Hbase秒级查询方案
CN107958080A (zh) * 2017-12-14 2018-04-24 上海特易信息科技有限公司 一种基于ElasticSearch的大数据报表处理方法
US10891165B2 (en) * 2019-04-12 2021-01-12 Elasticsearch B.V. Frozen indices
CN111625728B (zh) * 2020-05-28 2022-08-19 苏州浪潮智能科技有限公司 一种网页文档生成检索目录的方法、装置、设备和介质
CN112288306A (zh) * 2020-11-07 2021-01-29 西北工业大学 一种基于xgboost的移动应用众包测试任务推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3373161A1 (en) * 2017-03-09 2018-09-12 Wipro Limited Method and system for classification of web browsing history
CN107092665A (zh) * 2017-03-31 2017-08-25 合肥民众亿兴软件开发有限公司 一种数据检索系统及检索方法
CN107341217A (zh) * 2017-06-27 2017-11-10 武汉斗鱼网络科技有限公司 一种数据获取方法及设备
CN111914020A (zh) * 2020-06-18 2020-11-10 北京旷视科技有限公司 数据同步方法及装置、数据查询方法及装置
CN112800287A (zh) * 2021-04-15 2021-05-14 杭州欧若数网科技有限公司 基于图数据库的全文索引方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Real-Time or Near Real-Time Persisting Daily Healthcare Data Into HDFS and ElasticSearch Index Inside a Big Data Platform;Dequan Chen等;《IEEE Transactions on Industrial Informatics》;20161208;第595-606页 *
基于WebGIS的TB级南极遥感影像发布系统关键技术研究;刘天悦等;《极地研究》;20110615(第02期);第115-121页 *
海量图书检索信息的快速查询系统优化设计研究;高玉平;《现代电子技术》;20170315(第06期);第5-9页 *

Also Published As

Publication number Publication date
CN113407785A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
US11176124B2 (en) Managing a search
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN110647614A (zh) 智能问答方法、装置、介质及电子设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN110162522B (zh) 一种分布式数据搜索系统及方法
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN111782763A (zh) 基于语音语义的信息检索方法、及其相关设备
CN107844493B (zh) 一种文件关联方法及系统
CN113836131B (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN113010484A (zh) 日志文件管理方法及装置
CN109189760A (zh) 一种基于大数据技术的交通要素画像构建与分析方法
CN110874366A (zh) 数据处理、查询方法和装置
WO2019071907A1 (zh) 基于操作页面识别帮助信息的方法及应用服务器
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
CN111126034B (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
CN113051900B (zh) 同义词识别方法、装置、计算机设备及存储介质
CN115098534A (zh) 基于索引权重提升的数据查询方法、装置、设备及介质
US20120117449A1 (en) Creating and Modifying an Image Wiki Page
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
CN103164491A (zh) 一种数据处理和检索的方法及设备
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备
CN116127086B (zh) 基于科技文献资源的地理科学数据需求分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant