CN110109906B - 数据存储系统及方法 - Google Patents
数据存储系统及方法 Download PDFInfo
- Publication number
- CN110109906B CN110109906B CN201910381774.6A CN201910381774A CN110109906B CN 110109906 B CN110109906 B CN 110109906B CN 201910381774 A CN201910381774 A CN 201910381774A CN 110109906 B CN110109906 B CN 110109906B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- search command
- preset
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据存储系统及方法,涉及计算机技术领域,该系统包括数据模块、预测模块、执行模块和监测模块,数据模块从数据信息端读取数据并对获取的数据进行分片存储;预测模块对数据进行数据预分析;执行模块接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,并将搜索命令进行分解,根据分步后的搜索命令搜索需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;监测模块监测系统的运行状态生成运行日志;数据模块还可以对数据进行清理以释放存储空间。数据模块支持数据分类和数据清理,以确保存储空间和运行效率;预测模块可以为客户提供数据辅助作用;执行模块可以将搜索命令分步执行,确保了执行效率。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种数据存储系统及方法。
背景技术
随着新型互联网的兴起,传统的关系数据库在应付所见即所得的高体验网站,特别是超大规模和高并发的社交网络服务类型的纯动态网站已经显得力不从心,暴露了很多难以克服的问题。
以能源行业为例,由于能源公司信息读写频率较高,且能源公司分类统计、地区归类运算量大;用户在前端进行信息时要求的查询速度快;用户行为日志记录量频繁,系统推送能源服务频率较高。对于能源行业而言,通常采用传统关系数据库进行数据的存储,能源行业信息通过爬虫手段所获取的数据的数据结构不稳定性,无法支持快速回应用户的查询需求,且面对大量的数据种类和快速的读写频率,传统的关系数据库无法很好地支持数据库中数据信息的更迭,容易出现数据库运行迟缓等问题。采用传统的关系数据库进行能源信息的存储,用户在对信息进行查询时,回应速度慢,用户体验感差。
发明内容
有鉴于此,本发明的目的在于提供一种数据存储系统及方法,以缓解了传统关系数据库无法很好地处理海量数据的检索、读写响应速度慢的技术问题。
第一方面,本发明实施例提供了一种数据存储系统,该系统包括数据模块,以及与数据模块通信连接的预测模块、执行模块和监测模块;数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;其中,数据获取原则包括期望获取的行业信息,数据信息端包括公开网页,数据处理原则至少包括应用场景划分处理原则;预测模块用于根据预设数据挖掘算法,对数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;其中,数据预分析包括数据汇总、数据提炼和数据挖掘;执行模块用于接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;监测模块用于监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志。数据模块还用于当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则,对数据模块分片存储的数据进行清理,以释放数据模块的存储空间。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,数据模块包括数据处理单元;数据处理单元用于根据数据处理原则将数据模块获取的数据进行应用场景分片存储。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,执行模块包括多个执行单元;执行模块用于将分步后的搜索命令分配至一个或多个空闲状态下的执行单元;空闲状态下的执行单元用于执行分步处理后的搜索命令。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,该系统还包括关联模块;关联模块用于提取数据模块中的数据的关联词,将数据与关联词进行关联存储;以及,将关联词和数据发送至数据模块,其中,关联词至少包括以下分类的一种:数据的行业分类、领域分类、产品分类;数据模块还用于将携带关联词的数据存储至关联词匹配的存储区。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,搜索命令包括关联词搜索命令;执行模块还用于根据关联词搜索命令,在关联词匹配的存储区中搜索与搜索命令匹配的需求数据。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,数据模块包括多个集合单元;每个集合单元均配置有关联词对应的标识,用于对携带关联词的数据进行压缩存储;当搜索命令包含关联词时,配置该关联词对应的标识的集合单元用于将该集合单元压缩存储的数据进行缓存,以便于执行模块进行数据搜索;集合单元还用于当集合单元存储的数据所占空间达到预设单元存储空间占比时,集合单元根据数据存入集合单元的时间顺序,对集合单元存储的数据进行清理,以释放集合单元的存储空间。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,该系统还包括与数据模块连接的索引模块;索引模块用于生成数据模块存储的数据对应的索引指针。
结合第一方面的第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,搜索命令还包括索引信息;执行模块还用于将索引信息发送至索引模块,接收索引模块根据索引信息反馈对应的索引指针;以及,根据索引指针对数据进行数据搜索。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,系统还包括爬取模块和数据清洗模块,数据信息端、爬取模块、数据清洗模块和数据模块依次连接;数据模块触发爬取模块按照数据获取原则从数据信息端进行数据的爬取;当爬取模块爬取到数据时,数据模块触发数据清洗模块读取爬取模块中的爬取到的数据,按照预先设置的清洗规则对读取的数据进行清洗,将清洗后的数据发送至数据模块进行分片存储。
第二方面,本发明实施例还提供一种数据存储方法,该方法应用于第一方面所述的数据存储系统,该方法包括:数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;其中,数据获取原则包括期望获取的行业信息,数据信息端包括公开网页,数据处理原则至少包括场景划分处理原则;预测模块根据预设数据挖掘算法,对数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;其中,数据预分析包括数据汇总、数据提炼和数据挖掘;执行模块接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;监测模块监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志;当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则,对数据模块分片存储的数据进行清理,以释放数据模块的存储空间。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种数据存储系统及方法,包括数据模块,以及与数据模块通信连接的预测模块、执行模块和监测模块,数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储,根据预设数据挖掘算法,预测模块对分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;执行模块接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;监测模块监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志;数据模块还用于当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则对数据进行清理,以释放数据模块的存储空间。数据模块支持数据分类和数据清理,以确保数据模块的存储空间和运行效率;预测模块可以对数据进行预分析,为客户提供数据辅助作用;执行模块可以将搜索命令分步执行,确保了执行效率。此外,运行日志的生成方便管理者对该系统进行预先和事后的运行维护;监测模块还可对异常情况进行预警,便于管理者及时修复系统运行;搜索日志的生成有助于根据搜索日志查询热门信息,以便于对热门信息等进行大数据分析。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据存储系统的结构示意图;
图2为本发明实施例提供的另一种数据存储系统的结构示意图;
图3为本发明实施例提供的另一种数据存储系统的结构示意图;
图4为本发明实施例提供的一种数据存储方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前传统关系数据库无法很好地处理大量数据的读写,读写的响应速度慢的技术问题,基于此,本发明实施例提供的一种数据存储系统及方法,可以存储大量数据,并快速响应读写请求。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据存储系统进行详细介绍。
实施例一:
参考图1所示的一种数据存储系统的结构示意图,该数据存储系统包括数据模块102,以及与数据模块102通信连接的预测模块100、执行模块104和监测模块106;
其中,数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;具体地,数据获取原则通常包括期望获取的行业信息,行业信息通常包括行业简称、行业常用语、行业领军人物等,数据信息端通常包括公开网页,还可以包括公开数据库等具有存储数据信息能力的实体和虚拟的存储设备;数据处理原则至少包括应用场景划分处理原则,例如该应用场景包括能源汽车场景、交通运输场景、化石燃烧等场景等,具体行业信息所包括的内容,以及具体数据信息端的类型,数据处理原则的依据可以根据实际情况进行设定,本发明实施例对此不进行限制。数据模块可以直接获取数据之类复杂的数据类型,如文档形式的数据类型,其中,该数据的数据类型和存储字段的长度均不限制。
进一步,预测模块用于根据预设数据挖掘算法,对数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;其中,数据预分析包括数据汇总、数据提炼和数据挖掘;
具体实现时,预测模块可以预存数据挖掘算法,该数据挖掘算法可以为常用的大数据分析方法,决策树算法等,该数据挖掘算法是根据能源领域等期望行业的行业特性预先编译的,可以对存储的数据进行预先分析,如对多家发电企业设备,装备企业零部件相关数据进行汇总;对存储的数据进行多维分析设备缺陷与设备型号等,提取行业内供应商的采购情况、厂家经营情况等数据,挖掘数据中厂家、投运年限等变量之间的关联关系和分布情况,该预测模块还可以对企业生产、销售等与企业相关的数据进行数据提炼,以得到直接互补数据,该预测模块还可以根据上述直接互补数据进行企业缺陷预判、经营环节数据分析等。进一步,在电力行业,该预测模块还可以利用大数据分析平台对采集关键点的电力情况进行预测分配,根据存储的压力等运行参数和客户用气情况等进行电力使用情况负荷预测、优化比较和管网分析等计算。上述示出了几种预测模块的实现方式和预分析功能,由于具体行业内的数据不同,以及对数据的分析要求和预测、挖掘方法也不同,基于此,该预测模块的功能以及对应的数据挖掘算法可以根据行业的具体需要进行设定,本发明实施例对此不进行限制。
进一步,为了能够统计外部终端或用户所关注的热门信息,进行后续的大数据分析,及时获得外部终端的搜索需求,并根据搜索需求及时反馈数据,该执行模块用于接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;
具体实现时,由于外部终端在进行数据搜索时,搜索命令可能会包括多个搜索要求,如:搜索(能源)和(汽车),或者搜索(能源)或(汽车),在根据上述搜索命令进行数据搜索时,可以将该搜索命令进行分解,生成包含能源字符的命令和包含汽车字符的命令,该包含能源字符的命令和包含汽车字符的命令即为分步后的搜索命令,执行模块可以执行上述包含能源字符的命令和包含汽车字符的命令。此外,为了更好反馈数据,便于外部终端利用该系统进行数据获取和分析,该执行模块还可以将与搜索命令匹配的需求数据及需求数据关联的数据分析报告发送到外部终端,以便于为外部终端的数据分析起到辅助作用。
为了便于对该系统维护和管理,该系统还包括与数据模块连接的监测模块;该监测模块用于监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志。
具体地,在安装部署并允许该系统服务后,监测模块对该系统进行模块运行情况的监测,并查看该系统的性能。确保该系统在大流量的情况下可以较快较好地应对外部终端的读取访问等需求。对于该系统出现的运行缓慢、删除数据过大、数据压力过大或模块执行异常等异常情况,监测模块及时记录异常信息详情,并将异常信息详情发送至外部终端进行预警提示。具体异常情况的类型可以根据实际情况进行设定,本发明实施例对此不进行限制。
监测模块记录该系统的运行状态,并按照预设的时间周期生成系统运行日志,用于管理者根据系统运行日志进行系统的预先和事后运行维护工作。具体时间周期的长短可以根据实际需要进行设定,本发明实施例对此不进行限制。
进一步,由于数据模块时刻在更新模块内部所存储的数据,为了防止数据存储过多而引发数据模块运行缓慢等不良影响,需要对数据模块的数据进行清理旧数据,基于此,该数据模块还用于当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则,对数据模块分片存储的数据进行清理,以释放数据模块的存储空间。
具体地,该预设数据存储空间占比可以为数据模块在正常运行状态下可以存储数据的最大量与数据模块存储空间的比值;预设的删除原则可以为根据存入数据模块的时间顺序进行删除,也可以根据数据信息端发布该数据时对应的发布时间顺序进行删除,以删除最早存入或发布对应的数据,确保所存入的数据为最新数据。
本发明实施例提供了一种数据存储系统,通过数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储,预测模块根据预设数据挖掘算法,对数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;执行模块接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;监测模块监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志;数据模块还用于当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则,对数据模块分片存储的数据进行清理,以释放数据模块的存储空间。数据模块能够对大量数据进行分类存储,还可自主清理旧数据已释放存储空间;执行模块通过分步执行命令的方式提高了响应速度;预测模块可以自主进行数据分析和挖掘,为用户获取数据提供了辅助帮助;该系统适用于存储大量数据,数据运算量大且读写频率较快的场所,具有广泛的适用性。此外,运行日志的生成方便管理者对该系统进行预先和事后的运行维护;监测模块还可对异常情况进行预警,便于管理者及时修复系统运行。
进一步,数据模块包括数据处理单元;该数据处理单元用于根据数据处理原则将数据模块获取的数据进行应用场景分片存储。
具体实现时,以能源行业为例,该能源行业分类细致,大致统计有1000多种,由于行业分类中对应的数据类型不同,对应的具体承载的业务、应用环境不同,基于此,将多种应用场景进行抽象化后得到对应的应用场景划分处理原则,根据该原则对数据进行数据匹配,将获取的数据根据所属于的应用场景进行分片存储,以扩展数据模块的存储可扩展性。
为了确保执行模块能够及时执行分步后的搜索命令,该执行模块包括多个执行单元;其中,执行模块用于将分步后的搜索命令分配至一个或多个空闲状态下的执行单元;空闲状态下的执行单元用于执行分步处理后的搜索命令。具体实现时,执行模块可以监控执行单元的业务工作情况,以实现对搜索命令的分步执行,确保系统对读负载(搜索命令)的均衡运行。
为了快速响应外部终端发出的搜索命令,数据模块能够快速根据搜索命令查询到与搜索命令相匹配的需求数据,上述系统还包括关联模块,因此,图2示出了本发明实施例的另一种数据存储系统的结构示意图,为了便于理解,图2在图1的基础上仅仅绘出了两个执行单元200、关联模块202和一个数字处理单元206,其中,关联模块用于提取数据模块中的数据的关联词,将数据与关联词进行关联存储;以及,将关联词和数据发送至数据模块,其中,关联词至少包括以下分类的一种:数据的行业分类、领域分类、产品分类。
具体实现时,关联模块通过获取数据模块中的数据,会对该数据进行关联词提取,其中,该关联词的提取手段通常提取出现频率较多的词语或短语作为关联词;具体关联词的提取手段,可以根据实际情况进行设定,本发明实施例对此不进行限制。
数据模块还用于将携带关联词的数据存储至关联词匹配的存储区。具体实现时,为了方便数据模块对携带关联词的数据进行存储和管理,关联词匹配的存储区通常包括配置有关联词对应的标识的集合单元,为了便于说明,图2仅仅示出了两个集合单元204。上述每个集合单元均配置有关联词对应的标识,用于对携带关联词的数据进行压缩存储;
当搜索命令包含关联词时,配置该关联词对应的标识的集合单元用于将该集合单元压缩存储的数据进行缓存,以便于执行模块进行数据搜索;
集合单元还用于当集合单元存储的数据所占空间达到预设单元存储空间占比时,集合单元根据数据存入集合单元的时间顺序,对集合单元存储的数据进行清理,以释放集合单元的存储空间。
具体实现时,集合单元可以对存储的数据进行压缩处理,以减少占用的空间,一般来说集合单元的空间大小通常是预先定义的,该系统可以对集合单元的数据进行循环队列处理,如集合单元的存储空间饱和了,如集合单元存储的数据所占空间达到预设单元存储空间占比时,集合单元会自动去清理旧数据,此外,以该系统应用在能源领域为例,由于能源领域数据量非常庞大,集合单元或所属于的数据模块在记录各种日志性等文字数据时,采用上述清理集合单元的方式可以确保了数据写入时所要使用的缓存空间等,保证了写作的有效性和高效性。另外,在进行集合单元数据清理的过程中,可以采用预先编译的清洗策略进行数据处理,如在能源行业使用时间关系索引,掌握所存储数据的生命周期,当发现所存储的数据达到它的数据清洗条件时可被自动删除。当然,该集合单元的数据清理条件可以与上述数据模块的数据清理原则一致,本发明仅列举了几种数据清理方法,实际集合单元和数据模块的清理方法可以根据实际情况设定,本发明实施例对此不进行限制。
此外,该数据模块还可以对集合单元的数据进行更新插入等操作,具体地,当数据模块存储新的数据时,数据模块会根据新的数据所携带的关联词,对多个集合单元的数据进行插入操作,具体插入方式通常采用单一插入,还可以采用批量插入;具体插入方式,可以根据实际情况进行设定,本发明实施例对此不进行限制。
进一步,为了保证数据模块数据的实时性,数据模块按着预设的更新周期和更新需求进行数据的更新,在具体数据更新过程中,数据模块通常根据更新需求对集合单元的数据进行查询,获得与更新需求相匹配的已有数据,并将集合单元的已有数据更新为爬取得到的更新数据。其中,更新需求通常包括行业最新新闻、行业动态、公司详情、产品详情等,具体更新需求可以根据实际情况进行设定,本发明实施例对此不进行限制。
具体更新方式通常包括单一更新,还可以采用批量更新,其中,单一更新的更新原则通常为仅更新集合单元中的第一条已有数据,批量更新的更新原则通常为对集合单元中所有的已有数据进行全部更新。具体更新方式,可以根据实际情况进行设定,本发明实施例对此不进行限制。进一步,具体更新方式中的单一更新和批量更新的更新原则,可以根据实际情况进行设定,本发明实施例对此不进行限制。
外部终端在使用该数据存储系统进行数据搜索时,为了提高该系统的搜索效率,便于执行模块快速获知外部终端的搜索需求,该系统还支持关联词搜索,具体地,搜索命令包括关联词搜索命令;执行模块还用于根据关联词搜索命令,在关联词匹配的存储区中搜索与搜索命令匹配的需求数据。
为了更进一步提高执行模块的搜索效率,避免在对数据模块进行数据搜索时进行全数据的搜索,该系统还包括与数据模块连接的索引模块,因此,在图2的基础上,图3还提出了本发明实施例的另一种数据存储系统的结构示意图,如图3所示,该系统还包括与数据模块连接的索引模块212;具体地,索引模块用于生成数据模块存储的数据对应的索引指针。索引模块通常至少采用以下索引的一种:普通索引、唯一索引、主键索引和聚集索引,上述索引用于将数据模块中的所有数据建立逻辑指针清单,该逻辑指针清单通常为索引指针。具体索引模块采用的索引的种类和个数可以根据实际情况进行设定,本发明实施例对此不进行限制。
进一步,该系统还支持外部终端下达索引命令,具体地,搜索命令还包括索引信息;其中,索引信息通常包括信息上传时间等,具体索引信息的类型可以根据实际情况进行设定,本发明实施例对此不进行限制。
执行模块还用于将索引信息发送至索引模块,接收索引模块根据索引信息反馈对应的索引指针;以及,根据索引指针,对数据进行数据搜索。
为了便于数据模块能够从数据信息端准确快速地获取满足数据获取原则的数据,该系统还包括爬取模块,如图3所示的爬取模块210和数据清洗模块208,数据信息端、爬取模块、数据清洗模块和数据模块依次连接;
具体实现时,数据模块触发爬取模块按照数据获取原则从数据信息端进行数据的爬取;当爬取模块爬取到数据时,数据模块触发数据清洗模块读取爬取模块中的爬取到的数据,按照预先设置的清洗规则对读取的数据进行清洗,将清洗后的数据发送至数据模块进行分片存储。
值得说明的是,爬取模块通常根据预先设定的时间周期内对公开数据库的数据信息进行爬取,并实时把爬取得到的数据发送到数据模块进行存储。为了确保数据模块的数据具有及时性,能够及时反映行业的当前相关信息,数据模块在支持更新操作的过程中,爬取模块还用于根据更新需求,在数据信息端进行更新数据的爬取,并将爬取得到的更新数据发送至数据模块。
此外,上述清洗规则通常包括异常数据清洗等,用于对数据模块所存储的数据进行筛选,筛除错误或无效数据,以确保数据模块所存储的数据的有效性。具体清洗规则可以根据实际情况进行设定,本发明实施例对此不进行限制。
此外,为了确保该系统运行的快速性,该系统的各个模块在执行查询、清洗、关联等动作时,通常采用分解-合体的执行手段,也就是将数据进行分解执行动作,最后将分解执行的动作结果合并为最终结果。具体执行手段可以根据实际情况进行设定,本发明实施例对此不进行限制。
综上,本发明实施例提供的数据存储系统采用爬虫手段进行数据的爬取,确保了数据的全面性;采用数据清洗模块进行数据的清洗,确保了数据的有效性;采用关联模块和索引模块对数据进行分类和索引,提高了数据的读取速度;数据模块设置多个集合单元进行数据的存放,提高了数据的读取和写入操作的便捷性;且便于对数据进行插入和更新操作,确保了数据的及时性;监测模块对该系统的运行状态进行监测,并可以反馈系统运行日志,方便管理者对该系统进行预先和事后的运行维护;监测模块还可对异常情况进行预警,便于管理者及时修复系统运行;该系统支持索引、关联词等多种搜索命令,便于外部终端获取最需要的数据信息;该系统可以生成搜索日志,有助于根据搜索日志查询热门信息,以便于对热门信息等进行大数据分析;该系统采用分解-合体的执行手段,更进一步加快了对外部终端的搜索命令的响应速度,也加快了该系统内部各个模块的运行速度。
实施例二:
在上述实施例的基础上,本发明实施例还提供了一种数据存储方法,该方法应用于实施例一所述的数据存储系统,如图4所示的一种数据存储方法的流程图,该方法包括以下步骤:
步骤S400,数据模块按照预先设定的数据获取原则,从数据信息端读取与数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;其中,数据获取原则包括期望获取的行业信息,数据信息端包括公开网页,数据处理原则至少包括场景划分处理原则;
步骤S402,预测模块根据预设数据挖掘算法,对数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;
步骤S404,执行模块接收外部终端发出的搜索命令,根据搜索命令生成搜索日志,以记录外部终端的搜索操作,并按照预设命令执行依据,将搜索命令进行分解,以获得分步后的搜索命令,并根据分步后的搜索命令在数据模块分片存储的数据中搜索与搜索命令匹配的需求数据及需求数据关联的数据分析报告;以及,将需求数据发送至外部终端;
步骤S406,监测模块监测系统的运行状态,并按照预设的时间周期生成的系统的运行日志;
步骤S408,当数据模块分片存储的数据所占空间达到预设数据存储空间占比时,数据模块按照预设的删除原则,对数据模块分片存储的数据进行清理,以释放数据模块的存储空间。
本发明实施例提供的数据存储方法,与上述实施例提供的数据存储系统具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的数据存储方法,其实现原理及产生的技术效果和前述数据存储系统的实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述实施例中相应内容。
本发明实施例所提供的数据存储方法及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种数据存储系统,其特征在于,所述系统包括数据模块,以及与所述数据模块通信连接的预测模块、执行模块、监测模块和关联模块;
所述数据模块按照预先设定的数据获取原则,从数据信息端读取与所述数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;其中,所述数据获取原则包括期望获取的行业信息,所述数据信息端包括公开网页,所述数据处理原则至少包括应用场景划分处理原则;
所述预测模块用于根据预设数据挖掘算法,对所述数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;其中,所述数据预分析包括数据汇总、数据提炼和数据挖掘;
所述执行模块用于接收外部终端发出的搜索命令,根据所述搜索命令生成搜索日志,以记录所述外部终端的搜索操作,并按照预设命令执行依据,将所述搜索命令进行分解,以获得分步后的搜索命令,并根据所述分步后的搜索命令在所述数据模块分片存储的所述数据中搜索与所述搜索命令匹配的需求数据及所述需求数据关联的数据分析报告;以及,将所述需求数据发送至所述外部终端;
所述监测模块用于监测所述系统的运行状态,并按照预设的时间周期生成的所述系统的运行日志;
所述数据模块还用于当所述数据模块分片存储的数据所占空间达到预设数据存储空间占比时,所述数据模块按照预设的删除原则,对所述数据模块分片存储的数据进行清理,以释放所述数据模块的存储空间;
所述关联模块用于提取所述数据模块中的所述数据的关联词,将所述数据与所述关联词进行关联存储;以及,将所述关联词和所述数据发送至所述数据模块,其中,所述关联词至少包括以下分类的一种:所述数据的行业分类、领域分类、产品分类;
所述数据模块还用于将携带所述关联词的所述数据存储至所述关联词匹配的存储区。
2.根据权利要求1所述的系统,其特征在于,所述数据模块包括数据处理单元;
所述数据处理单元用于根据所述数据处理原则将所述数据模块获取的数据进行应用场景分片存储。
3.根据权利要求1所述的系统,其特征在于,所述执行模块包括多个执行单元;
所述执行模块用于将所述分步后的搜索命令分配至一个或多个空闲状态下的执行单元;
所述空闲状态下的执行单元用于执行分步处理后的搜索命令。
4.根据权利要求1所述的系统,其特征在于,所述搜索命令包括关联词搜索命令;
所述执行模块还用于根据所述关联词搜索命令,在所述关联词匹配的存储区中搜索与所述搜索命令匹配的需求数据。
5.根据权利要求1所述的系统,其特征在于,所述数据模块包括多个集合单元;
每个所述集合单元均配置有关联词对应的标识,用于对携带所述关联词的所述数据进行压缩存储;
当所述搜索命令包含关联词时,配置该关联词对应的标识的集合单元用于将该集合单元压缩存储的数据进行缓存,以便于所述执行模块进行数据搜索;
所述集合单元还用于当所述集合单元存储的数据所占空间达到预设单元存储空间占比时,所述集合单元根据数据存入所述集合单元的时间顺序,对所述集合单元存储的数据进行清理,以释放所述集合单元的存储空间。
6.根据权利要求1所述的系统,其特征在于,所述系统还包括与所述数据模块连接的索引模块;
所述索引模块用于生成所述数据模块存储的数据对应的索引指针。
7.根据权利要求6所述的系统,其特征在于,所述搜索命令还包括索引信息;所述执行模块还用于将所述索引信息发送至所述索引模块,接收所述索引模块根据索引信息反馈对应的所述索引指针;
以及,根据所述索引指针对所述数据进行数据搜索。
8.根据权利要求1所述的系统,其特征在于,所述系统还包括爬取模块和数据清洗模块,所述数据信息端、所述爬取模块、所述数据清洗模块和所述数据模块依次连接;
所述数据模块触发所述爬取模块按照所述数据获取原则从所述数据信息端进行数据的爬取;
当所述爬取模块爬取到数据时,所述数据模块触发所述数据清洗模块读取所述爬取模块中的所述爬取到的数据,按照预先设置的清洗规则对读取的数据进行清洗,将清洗后的数据发送至所述数据模块进行分片存储。
9.一种数据存储方法,其特征在于,所述方法应用于权利要求1~8任一项所述的数据存储系统,所述方法包括:
数据模块按照预先设定的数据获取原则,从数据信息端读取与所述数据获取原则相对应的数据,并按照预设数据处理原则,对获取的数据进行分片存储;其中,所述数据获取原则包括期望获取的行业信息,所述数据信息端包括公开网页,所述数据处理原则至少包括场景划分处理原则;
预测模块根据预设数据挖掘算法,对所述数据模块分片存储的数据进行数据预分析,并将生成的数据分析报告与预分析的数据进行关联存储;其中,所述数据预分析包括数据汇总、数据提炼和数据挖掘;
执行模块接收外部终端发出的搜索命令,根据所述搜索命令生成搜索日志,以记录所述外部终端的搜索操作,并按照预设命令执行依据,将所述搜索命令进行分解,以获得分步后的搜索命令,并根据所述分步后的搜索命令在所述数据模块分片存储的所述数据中搜索与所述搜索命令匹配的需求数据及所述需求数据关联的数据分析报告;以及,将所述需求数据发送至所述外部终端;
监测模块监测所述系统的运行状态,并按照预设的时间周期生成的所述系统的运行日志;
当所述数据模块分片存储的数据所占空间达到预设数据存储空间占比时,所述数据模块按照预设的删除原则,对所述数据模块分片存储的数据进行清理,以释放所述数据模块的存储空间;
所述关联模块用于提取所述数据模块中的所述数据的关联词,将所述数据与所述关联词进行关联存储;以及,将所述关联词和所述数据发送至所述数据模块,其中,所述关联词至少包括以下分类的一种:所述数据的行业分类、领域分类、产品分类;
所述数据模块还用于将携带所述关联词的所述数据存储至所述关联词匹配的存储区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381774.6A CN110109906B (zh) | 2019-05-08 | 2019-05-08 | 数据存储系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381774.6A CN110109906B (zh) | 2019-05-08 | 2019-05-08 | 数据存储系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110109906A CN110109906A (zh) | 2019-08-09 |
CN110109906B true CN110109906B (zh) | 2021-04-02 |
Family
ID=67488947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910381774.6A Active CN110109906B (zh) | 2019-05-08 | 2019-05-08 | 数据存储系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110109906B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522710B (zh) * | 2020-04-16 | 2021-02-26 | 星环信息科技(上海)股份有限公司 | 基于大数据的数据压缩方法、设备及介质 |
CN112181965A (zh) * | 2020-09-29 | 2021-01-05 | 成都商通数治科技有限公司 | 一种基于mysql大数据清洗系统及其写入瓶颈的方法 |
CN114268721A (zh) * | 2021-12-22 | 2022-04-01 | 成都九洲电子信息系统股份有限公司 | 一种低流量网络视频监控系统、方法及存储介质 |
CN117786182A (zh) * | 2023-12-21 | 2024-03-29 | 杭州天亮云科技有限公司 | 基于erp系统的业务数据存储系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130067182A1 (en) * | 2011-09-09 | 2013-03-14 | Onzo Limited | Data processing method and system |
CN103927265B (zh) * | 2013-01-04 | 2017-09-01 | 深圳市龙视传媒有限公司 | 一种内容分级存储装置、内容获取方法及内容获取装置 |
CN105069112A (zh) * | 2015-08-11 | 2015-11-18 | 浪潮软件集团有限公司 | 一种行业垂直搜索引擎系统 |
CN206021347U (zh) * | 2016-07-15 | 2017-03-15 | 广东中网电力有限公司 | 全面降损节能配电网络大数据系统 |
CN106302522B (zh) * | 2016-09-20 | 2019-08-06 | 华侨大学 | 一种基于神经网络和大数据的网络安全态势分析方法和系统 |
CN106484844B (zh) * | 2016-09-30 | 2019-06-25 | 云润大数据服务有限公司 | 大数据挖掘方法及系统 |
-
2019
- 2019-05-08 CN CN201910381774.6A patent/CN110109906B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110109906A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110109906B (zh) | 数据存储系统及方法 | |
US10733149B2 (en) | Template based data reduction for security related information flow data | |
CN111552687B (zh) | 时序数据的存储方法、查询方法、装置、设备及存储介质 | |
CN109213756B (zh) | 数据存储、检索方法、装置、服务器和存储介质 | |
CN104769585A (zh) | 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法 | |
CN105512283A (zh) | 数据质量管理控制方法及装置 | |
CN111740868B (zh) | 告警数据的处理方法和装置及存储介质 | |
CN112711520A (zh) | 异常日志信息的处理方法、装置、设备及存储介质 | |
CN111459698A (zh) | 一种数据库集群故障自愈方法及装置 | |
CN113051147A (zh) | 一种数据库集群的监控方法、装置、系统、以及设备 | |
CN112181931A (zh) | 一种大数据系统链路追踪方法及电子设备 | |
CN112199394A (zh) | 告警信息推送方法、系统、智能终端及存储介质 | |
CN106407429A (zh) | 文件追踪方法、装置及系统 | |
CN111984625B (zh) | 数据库负载特征处理方法、装置、介质和电子设备 | |
CN116303628B (zh) | 基于Elasticsearch的告警数据查询方法、系统及设备 | |
CN113608952A (zh) | 一种基于日志构建支持环境的系统故障处理方法及系统 | |
CN106919566A (zh) | 一种基于海量数据的查询统计方法及系统 | |
KR101331350B1 (ko) | 데이터 큐브를 이용한 대용량 시계열 데이터 관리 방법 | |
CN109542913B (zh) | 一种复杂环境下的网络资产安全管理方法 | |
CN111414355A (zh) | 一种海上风电场数据监测存储系统及方法、装置 | |
CN115391286A (zh) | 一种链路追踪数据管理方法、装置、设备及存储介质 | |
CN115309702A (zh) | 基于usn日志的文件检索管理方法、装置、系统、设备 | |
CN112181994B (zh) | 运维大数据的分布式内存数据库的刷新方法、装置、介质 | |
CN111274316A (zh) | 多级数据流转任务的执行方法及装置、电子设备、存储介质 | |
CN114691700A (zh) | 一种基于kafaka集群的智慧园区的检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211213 Address after: Room 305, floor 3, building 3, No. 700, Yinqing Road, Jiuting Town, Songjiang District, Shanghai 201615 Patentee after: Shanghai maineng chuanghao Energy Technology Co.,Ltd. Address before: Room 202-a2, building 1, 1616 Changyang Road, Yangpu District, Shanghai 200082 Patentee before: SHANGHAI TELLHOW MEINERGY TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |