CN111444187B

CN111444187B - 一种基于计算机大数据存储系统

Info

Publication number: CN111444187B
Application number: CN202010245566.6A
Authority: CN
Inventors: 郭均纺
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-07-29
Anticipated expiration: 2040-03-31
Also published as: CN111444187A

Abstract

本发明公开了一种基于计算机大数据存储系统，包括数据获取单元、数据解析单元、监控单元、人脸库、识别单元、处理器、访问请求单元、习惯积累单元、惯性库、显示单元、主存储单元、废弃存储单元和中转单元；本发明通过数据获取单元获取到上传存储的日常数据，之后将日常数据传输到数据解析单元，借助数据解析单元进行初数据处理，得到日常数据及其对应核心信息融合形成的存储数据；之后将存储数据传输到处理器，之后处理器将存储数据传输到主存储单元，按照指定的规则进行分析，得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据，从而将相应的数据按照指定的格式和相应的标准将数据存储完毕。

Description

一种基于计算机大数据存储系统

技术领域

本发明属于存储领域，涉及大数据存储技术，具体是一种基于计算机大数据存储系统。

背景技术

公开号为CN107480283A的专利公开了一种实现大数据快速存储的方法、装置以及存储系统，涉及大数据存储技术领域。其中，实现大数据快速存储的方法包括：通过一个统一的数据入库接口接收多种数据类型的待入库数据；将接收到的待入库数据暂存至消息队列；通过轮询服务对消息队列内的暂存数据进行出列操作，将待入库数据存储到数据库内。本发明实现了大数据的快速存储，主要是针对大数据行业设计与使用，可以独立使用，作为数据存储收集的主要手段，也可以和数据服务配合使用，这样让大数据在实际应用中应用，发挥数据的更大效果。

但是，针对一些公用的基于计算机实现的公用数据存储系统，会有多人使用该类公用的存储系统进行文件存储；这样会造成一个问题，就是存储进去的内容过多，每个人存储进去的内容，以及之后需要读取出来的内容不相同，每个人的需要不同，存储的位置不同，这样对于一些公用的存储系统时，如何进行数据有效的关联性存储，以及为用户提供便捷的访问；便于用户及时获得对应的存储内容；为了解决这一技术问题，现提供一种解决方案。

发明内容

本发明的目的在于提供一种基于计算机大数据存储系统。

本发明的目的可以通过以下技术方案实现：

一种基于计算机大数据存储系统，包括数据获取单元、数据解析单元、监控单元、人脸库、识别单元、处理器、访问请求单元、习惯积累单元、惯性库、显示单元、主存储单元、废弃存储单元和中转单元；

所述数据获取单元用于获取所有用户存储的日常数据，所述数据获取单元用于将日常数据传输到数据解析单元，所述数据解析单元接收数据获取单元传输的日常数据，并对日常数据进行初数据处理，得到日常数据及其对应的核心信息融合形成的存储数据；

所述数据解析单元用于将存储数据传输到处理器，所述处理器接收数据解析单元传输的存储数据并将其传输到主存储单元，所述主存储单元接收处理器传输的存储数据，并对其进行自存储步骤，自存储步骤具体如下：

S10：获取到存储数据及其时间戳；

S20：按照日、月、年，依次建立底层、次层和表层文件夹，底层文件夹内存储存储数据，底层文件夹存储在次层文件夹内，次层文件夹存储在表层文件夹内；

S30：之后获取到所有存储数据，并获取到存储数据内的核心信息，对所有核心信息进行关联性分析，得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据；

S40：完成自存储步骤；

其中，所述访问请求单元用于用户发起访问请求，访问请求包括请求信息和请求信号，请求信息为用户所需访问的目标内容的关键字；所述访问请求单元用于将访问请求传输到处理器，同时会将访问请求内的请求信号传输到识别单元；

所述监控单元为设置在对应用户录入请求信息的设备上，用于获取访问请求录入用于的访问面部信息，所述监控单元用于将访问面部信息传输到识别单元，所述识别单元接收监控单元传输的访问面部信息，所述人脸库内存储有核准访问用户的标准面部信息，所述识别单元用于将访问面部信息与人脸库内的标准面部信息进行比对，在比对到有访问面部信息一致的标准面部信息时，产生允通信号，所述识别单元用于将允通信号传输到处理器；

所述处理器只有在接收到识别单元传输的允通信号时，才会对访问请求单元传输的访问请求进行请求分析处理，具体处理步骤为：

步骤一：获取到访问请求内的请求信息；

步骤二：将请求信息与标志数据的标志信息和存储数据的核心信息，进行比对；

步骤三：将比对一致的字眼除以请求信息的总字数，得到相似占比；

步骤四：将相似占比超过X2的存储数据和标志数据均标记为可疑数据；X2为预设值；

步骤五：将可疑数据借助显示单元呈现给用户，供用户选择，进行访问，并将访问对象和次数融合形成访问记录；

所述习惯积累单元还用于对用户的访问记录进行访问分析，访问分析每天指定时间进行一次，得到存储在惯性库内的惯性词汇；

所述处理器在对访问请求内的请求信息进行请求分析处理的同时，还会进行联想推荐，联想推荐的内容为惯性库内的关键词相关的存储数据；所述处理器用于将联想推荐内容传输到显示单元进行显示；

所述中转单元还用于对主存储单元内存储的存储数据进行转废分析，具体分析步骤为：

S010：获取到所有存储数据对应的访问次数，依次将存储数据及其对应的访问次数标记为Ci和Fi,i＝1...n；

S020：之后获取到存储数据最后一次访问距离当下的时间，将其标记为热度时间Ri，i＝1...n；

S030：获取到存储数据的大小，将其标记为对象大小Di,i＝1...n；且Ci、Fi、Ri和Di均为一一对应；

S040：求取存储数据的可选值Ki，Ki＝(0.456*Fi+0.544*Ri)*Di,i＝1...n；

S050：将Ki值低于X5的对应存储数据Ci标记为转废数据，X5为预设值。

进一步地，初数据处理的具体处理步骤为：

步骤一：首先用户需要对日常数据进行关键词录入，关键词为用户对该日常数据进行内容描述的词语；

步骤二：之后会自动对日常数据进行内容提取，内容提取步骤如下：

S1：首先，获取到日常数据的数据格式，当其为文本文件时；

S2：会获取到文本文件内的所有文本内容；

S3：对文本内容进行分词处理，得到由若干分词构成的文本内容；

S4：获取到每一个分词出现的次数，获取到次数最高的分词，若该分词的次数超过预设值；则对应将将次数最高的分词标记为核词；

S5：若日常数据的文本格式不为文本文件时，则将核词标记为无；

步骤三：将对应日常数据的关键词、核词和日常数据的数据名称标记为核心信息；

步骤四：得到日常数据及其对应的核心信息，融合形成存储数据。

进一步地，关联性分析的具体分析步骤为：

S31：当存储数据为第一个传入存储到底层文件夹内时，在底层文件夹内建立存储文件夹，将其核心信息内的关键词标记为存储文件夹的文件名，将对应存储数据存储到对应建立的存储文件夹内；

S32：将该存储数据标记为标志数据，将标志数据的核心信息标记为标志信息；

S33：在后续存储数据录入时，获取到后续录入的存储数据内的核心信息；

S34：获取到核心信息内所有的字眼，将其与标志信息内的字眼进行比对，获取到与标志信息内字眼一致的核心信息字眼的个数，将该个数标记为命中个数；

S35：将命中个数除以核心信息的总个数，得到命中占比；

S36：当命中占比大于X1时，则二者关联，将该存储数据存储到标志数据内的存储文件夹；X1为预设值；

S37：若不满足S36的内容时，则二者不关联，在不关联时，将该存储数据与其他的标志数据进行S34-S36步骤的比对，直到比对完所有的标志数据；若有则将其存储在对应的存储文件夹内，若均无，则转至下一步骤；

S38：将新的存储数据标记为新的标志数据，在底层文件夹内建立新的以该标志数据关键词命名的存储文件夹，将对应标志数据存储在存储文件内；

S39：重复获取到后续存入的数据，进行上述步骤S33-S39的步骤，直到对所有的存储数据处理完毕；得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据。

进一步地，访问分析的具体分析步骤如下：

SS01：获取到用户所有的访问记录；

SS02：获取到用户近段时间内访问次数超过X3次的访问对象，其中，近段时间指代从当下到前X4天的时间范围内；X3、X4均为预设值；

SS03：将SS02获取到的访问对象标记为热门对象，获取到其核心信息内的关键词；

SS04：将所有的关键词进行融合，滤除重复词汇，将剩余的的关键词标记为惯性词汇；

SS05：将惯性词汇传输到惯性库内进行存储，惯性库接收新的惯性词汇时会删除原有惯性词汇，以便进行实时更新。

进一步地，所述中转单元用于将主存储单元的转废数据传输到废弃存储单元进行存储，所述废弃存储单元T1天自动清空一次。

本发明的有益效果：

本发明通过数据获取单元获取到上传存储的日常数据，之后将日常数据传输到数据解析单元，借助数据解析单元进行初数据处理，得到日常数据及其对应核心信息融合形成的存储数据；之后将存储数据传输到处理器，之后处理器将存储数据传输到主存储单元，按照指定的规则进行分析，得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据，从而将相应的数据按照指定的格式和相应的标准将数据存储完毕；

之后借助访问请求单元和识别单元，锁定本次来进行数据访问的人员的人脸信息，并根据人脸信息跟随用户每次访问的存储数据，根据相关情况，获取到每个人脸信息对应的访问习惯，和用户倾向的数据，形成用户个人的惯性词汇，将惯性词汇存储在惯性库内；

之后当处理器对访问请求单元的访问请求进行处理时，会按照相关的情况对访问请求进行分析，得到用户的目标信息，同时结合用户个人的惯性词汇，获取到用户可能需要访问的其他存储数据，将该类的存储数据同时展现给用户便于用户及时访问；同时对主存储单元内存储的存储数据进行分析，将冷门的数据传输到废弃存储单元内存储，并对废弃存储单元进行数据滤除；便于及时清空主存储单元内的相关数据；本发明简单有效，且易于实用。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的系统框图。

具体实施方式

如图1所示，一种基于计算机大数据存储系统，包括数据获取单元、数据解析单元、监控单元、人脸库、识别单元、处理器、访问请求单元、习惯积累单元、惯性库、显示单元、主存储单元、废弃存储单元和中转单元；

所述数据获取单元用于获取所有用户存储的日常数据，所述数据获取单元用于将日常数据传输到数据解析单元，所述数据解析单元接收数据获取单元传输的日常数据，并对日常数据进行初数据处理，具体处理步骤为：

S2：会获取到文本文件内的所有文本内容；

步骤四：得到日常数据及其对应的核心信息，融合形成存储数据；

所述数据解析单元用于将存储数据传输到处理器，所述处理器接收数据解析单元传输的存储数据并将其传输到主存储单元，所述主存储单元接收处理器传输的存储数据，并对其进行自存储步骤，具体步骤如下：

S10：获取到存储数据及其时间戳；

S30：之后获取到所有存储数据，并获取到存储数据内的核心信息，对所有核心信息进行关联性分析，具体分析步骤为：

S35：将命中个数除以核心信息的总个数，得到命中占比；

S39：重复获取到后续存入的数据，进行上述步骤S33-S39的步骤，直到对所有的存储数据处理完毕；得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据；

S40：完成自存储步骤；

步骤一：获取到访问请求内的请求信息；

步骤五：将可疑数据借助显示单元呈现给用户，供用户选择，进行访问，并将访问对象和次数结合识别的人脸信息融合形成访问记录；

所述习惯积累单元还用于对用户的访问记录进行访问分析，访问分析每天指定时间进行一次；具体分析步骤如下：

SS01：获取到用户所有的访问记录；

SS05：将惯性词汇传输到惯性库内进行存储，惯性库接收新的惯性词汇时会删除原有惯性词汇，以便进行实时更新；

S050：将Ki值低于X5的对应存储数据Ci标记为转废数据，X5为预设值；

所述中转单元用于将主存储单元的转废数据传输到废弃存储单元进行存储，所述废弃存储单元T1天自动清空一次。

一种基于计算机大数据存储系统，在工作时首先通过数据获取单元获取到上传存储的日常数据，之后将日常数据传输到数据解析单元，借助数据解析单元进行初数据处理，得到日常数据及其对应核心信息融合形成的存储数据；之后将存储数据传输到处理器，之后处理器将存储数据传输到主存储单元，按照指定的规则进行分析，得到若干以标志数据的关键词命名的存储文件夹内存储的标志数据和存储数据，从而将相应的数据按照指定的格式和相应的标准将数据存储完毕；

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于计算机大数据存储系统，其特征在于，包括数据获取单元、数据解析单元、监控单元、人脸库、识别单元、处理器、访问请求单元、习惯积累单元、惯性库、显示单元、主存储单元、废弃存储单元和中转单元；

S10：获取到存储数据及其时间戳；

S20：按照日、月、年，依次建立底层、次层和表层文件夹，底层文件夹内存储数据，底层文件夹存储在次层文件夹内，次层文件夹存储在表层文件夹内；

S40：完成自存储步骤；

步骤一：获取到访问请求内的请求信息；

S040：求取存储数据的可选值Ki，Ki＝(0.456*Fi+0.544*Ri)*Di,

i＝1...n；

初数据处理的具体处理步骤为：

S2：会获取到文本文件内的所有文本内容；

S4：获取到每一个分词出现的次数，获取到次数最高的分词，若该分词的次数超过预设值；则对应将次数最高的分词标记为核词；

关联性分析的具体分析步骤为：

S35：将命中个数除以核心信息的总个数，得到命中占比；

2.根据权利要求1所述的一种基于计算机大数据存储系统，其特征在于，访问分析的具体分析步骤如下：

SS01：获取到用户所有的访问记录；

SS04：将所有的关键词进行融合，滤除重复词汇，将剩余的关键词标记为惯性词汇；

3.根据权利要求1所述的一种基于计算机大数据存储系统，其特征在于，所述中转单元用于将主存储单元的转废数据传输到废弃存储单元进行存储，所述废弃存储单元T1天自动清空一次。