CN112328663A - 一种应用于大数据的数据发现方法及系统 - Google Patents
一种应用于大数据的数据发现方法及系统 Download PDFInfo
- Publication number
- CN112328663A CN112328663A CN202011326722.8A CN202011326722A CN112328663A CN 112328663 A CN112328663 A CN 112328663A CN 202011326722 A CN202011326722 A CN 202011326722A CN 112328663 A CN112328663 A CN 112328663A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- value
- information
- authority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013500 data storage Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 10
- 230000003828 downregulation Effects 0.000 description 4
- 230000003827 upregulation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种应用于大数据的数据发现方法及系统,其中方法包括:接收数据节点的数据获取请求信息;解析数据获取请求信息,获取数据获取请求和数据获取请求的第一权限信息;基于第一权限信息,确定数据存储节点;解析数据获取请求,获取数据获取请求所要获取的目标数据的分类标签;基于分类标签从数据存储节点中获取目标数据。本发明的应用于大数据的数据发现方法,安全且有效的从大数据中获取数据。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种应用于大数据的数据发现方法及系统。
背景技术
目前,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据顾名思义,其为大量的数据,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
如何安全且有效的从大数据中获取想要的数据,是利用大数据的核心,因此亟需一种应用于大数据的数据发现方法。
发明内容
本发明目的之一在于提供了一种应用于大数据的数据发现方法,安全且有效的从大数据中获取数据。
本发明实施例提供的一种应用于大数据的数据发现方法,包括:
接收数据节点的数据获取请求信息;
解析数据获取请求信息,获取数据获取请求和数据获取请求的第一权限信息;
基于第一权限信息,确定数据存储节点;
解析数据获取请求,获取数据获取请求所要获取的目标数据的分类标签;
基于分类标签从数据存储节点中获取目标数据。
优选的,应用于大数据的数据发现方法,还包括:
接收数据存储节点的数据分类请求;
解析数据分类请求,获取数据存储节点的第二权限信息;
对数据存储节点的第二权限信息进行验证;
当验证通过时,获取待分类的数据;
将待分类的数据输入预设的数据分类模型,获取分类标签;
将分类标签发送至数据存储节点;数据存储节点将分类标签与待分类的数据关联并存储。
优选的,解析数据获取请求信息,获取数据获取请求和数据获取请求的第一权限信息,包括:
获取数据节点自身的第一权限值;
获取数据节点在发出数据请求时借用其他的数据节点的第二权限值;数据节点在发出数据请求时从其他的数据节点处借用第二权限值;
基于第一权限值和第二权限值计算出代表第一权限信息的第三权限值,计算公式如下:
其中,D1表示第三权限值,d0表示第一权限值;di为数据节点从第i个其他的数据节点处借用的第二权限值;βi为数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;n为基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量,其值具体为第一权限值除以预设的借用基准权限值的商取整。
优选的,在接收数据节点的数据获取请求信息之前,还包括:
接收数据节点的所要获取的目标数据的需求信息;
获取数据节点的第一权限值;
基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果;
将第一预测结果输出至数据节点;
和/或,
获取数据节点可借用第二权限值的其他的数据节点的节点列表;
基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量;
根据数据节点可借用第二权限值的其他的数据节点的数量确定数据节点借用第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个借用策略的数据获取请求信息的第一权限信息的多个第三权限值;
基于多个第三权限值与需求信息对获取的目标数据的结果进行预测,获取多个第二预测结果;
将第二预测结果输出至数据节点。
优选的,基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果,包括:
将需求信息和第一权限值输入预设的神经网络模型,获取第一预测结果;
或,
基于需求信息和第一权限值建立预测向量,基于预测向量查询预设的学习库,获取第一预测结果;
其中,学习库为基于数据节点的历史数据获取请求信息及对应历史数据获取请求信息获取的目标数据的获取结果的历史数据建立;
解析历史数据获取请求信息,获取历史数据获取请求信息中历史需求信息和历史数据获取请求信息中数据节点使用的第四权限值;
基于第四权限值和历史需求信息,对历史数据进行归类分组;
将分组内的所有的历史数据中的获取结果进行归类计算,获取第一预测结果;计算公式如下:
其中,Yk为第k个分组的第一预测结果;Gk,j为第k个分组的第j个历史数据中的获取结果;mk为第k个分组中历史数据的个数;
基于第四权限值和历史需求信息建立查询向量;
将查询向量与第一预测结果进行关联。
本发明还提供一种应用于大数据的数据发现系统,包括:
数据获取请求信息接收模块,用于接收数据节点的数据获取请求信息;
第一权限信息确定模块,用于解析数据获取请求信息,获取数据获取请求和数据获取请求的第一权限信息;
数据存储节点确定模块,用于基于第一权限信息,确定数据存储节点;
分类标签获取模块,用于解析数据获取请求,获取数据获取请求所要获取的目标数据的分类标签;
目标数据获取模块,用于基于分类标签从数据存储节点中获取目标数据。
优选的,应用于大数据的数据发现系统,还包括:
分类请求获取模块,用于接收数据存储节点的数据分类请求;
第二权限信息获取模块,用于解析数据分类请求,获取数据存储节点的第二权限信息;
验证模块,用于对数据存储节点的第二权限信息进行验证;
数据获取模块,用于当验证通过时,获取待分类的数据;
分类模块,用于将待分类的数据输入预设的数据分类模型,获取分类标签;将分类标签发送至数据存储节点;数据存储节点将分类标签与待分类的数据关联并存储。
优选的,第一权限信息确定模块执行如下操作:
获取数据节点自身的第一权限值;
获取数据节点在发出数据请求时借用其他的数据节点的第二权限值;数据节点在发出数据请求时从其他的数据节点处借用第二权限值;
基于第一权限值和第二权限值计算出代表第一权限信息的第三权限值,计算公式如下:
其中,D1表示第三权限值,d0表示第一权限值;di为数据节点从第i个其他的数据节点处借用的第二权限值;βi为数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;n为基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量,其值具体为第一权限值除以预设的借用基准权限值的商取整。
优选的,应用于大数据的数据发现系统,还包括:预测模块,用于基于数据节点的所要获取的目标数据的需求信息预测目标数据的结果;
预测模块执行如下操作:
接收数据节点的所要获取的目标数据的需求信息;
获取数据节点的第一权限值;
基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果;
将第一预测结果输出至数据节点;
和/或,
获取数据节点可借用第二权限值的其他的数据节点的节点列表;
基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量;
根据数据节点可借用第二权限值的其他的数据节点的数量确定数据节点借用第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个借用策略的数据获取请求信息的第一权限信息的多个第三权限值;
基于多个第三权限值与需求信息对获取的目标数据的结果进行预测,获取多个第二预测结果;
将第二预测结果输出至数据节点。
优选的,基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果,包括:
将需求信息和第一权限值输入预设的神经网络模型,获取第一预测结果;
或,
基于需求信息和第一权限值建立预测向量,基于预测向量查询预设的学习库,获取第一预测结果;
其中,学习库为基于数据节点的历史数据获取请求信息及对应历史数据获取请求信息获取的目标数据的获取结果的历史数据建立;
解析历史数据获取请求信息,获取历史数据获取请求信息中历史需求信息和历史数据获取请求信息中数据节点使用的第四权限值;
基于第四权限值和历史需求信息,对历史数据进行归类分组;
将分组内的所有的历史数据中的获取结果进行归类计算,获取第一预测结果;计算公式如下:
其中,Yk为第k个分组的第一预测结果;Gk,j为第k个分组的第j个历史数据中的获取结果;mk为第k个分组中历史数据的个数;
基于第四权限值和历史需求信息建立查询向量;
将查询向量与第一预测结果进行关联。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种应用于大数据安全的数据发现方法的示意图;
图2为本发明实施例中又一种应用于大数据安全的数据发现方法的示意图;
图3为本发明实施例中一种应用于大数据安全的数据发现系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种应用于大数据安全的数据发现方法,如图1所示,包括:
步骤S1:接收数据节点的数据获取请求信息;
步骤S2:解析数据获取请求信息,获取数据获取请求和所述数据获取请求的第一权限信息;
步骤S3:基于第一权限信息,确定数据存储节点;
步骤S4:解析数据获取请求,获取数据获取请求所要获取的目标数据的分类标签;
步骤S5:基于分类标签从数据存储节点中获取目标数据。
上述技术方案的工作原理及有益效果为:
大数据网络的构建由一个个数据节点和数据存储节点构成,数据节点为与外界数据交换的位置,数据存储节点为数据存储的位置;在大数据网络中同一个节点既可以作为数据节点使用,也可以作为数据存储节点使用。当节点作为数据节点进行数据获取操作时,将想要获取的数据的关键词或标识或分类标签等与此次数据获取操作的权限进行封装形成数据获取请求信息,然后向大数据平台发送数据获取请求信息。大数据平台解析数据获取请求信息,确定数据获取请求信息中包含的第一权限信息,基于第一权限信息确定可以对数据节点的该次数据获取请求开放的数据存储节点,一种实现方式是,第一权限信息为大数据平台的数据存储节点对数据节点的权限代码集合,当权限代码指代的含义为可开放时,表示数据节点可以从该数据存储节点获取数据,这样提取含义为可开放的权限代码,即可确定数据获取请求的目标的数据存储节点,另一种实现方式是第一权限信息为数据获取请求的权限值,大数据平台预先制作了权限值与该权限值许可的数据节点对应表,根据权限值查表确定数据获取请求的目标的数据存储节点;再次解析数据获取请求获取目标数据的分类标签,基于分类标签从开放的数据存储节点中获取目标数据;大数据平台基于数据获取请求信息的第一权限信息开放对应的数据存储节点,保证大数据平台的数据存储节点中存储数据的安全,通过分类标签实现快速获取数据存储节点的对应数据。在数据存储节点中分类标签与目标数据是关联绑定的。其中,数据获取请求信息中包括该请求的权限信息以及可以确定目标数据的分类标签的数据。
在一个实施例中,如图2所示,应用于大数据的数据发现方法,还包括:
步骤S11:接收数据存储节点的数据分类请求;
步骤S12:解析数据分类请求,获取数据存储节点的第二权限信息;
步骤S13:对数据存储节点的第二权限信息进行验证;
步骤S14:当验证通过时,获取待分类的数据;
步骤S15:将待分类的数据输入预设的数据分类模型,获取分类标签;
步骤S16:将分类标签发送至数据存储节点;数据存储节点将分类标签与待分类的数据关联并存储。
上述技术方案的工作原理及有益效果为:
数据存储节点在存储数据时需要确定数据对应的分类标签,通过向大数据平台发送数据分类请求,大数据平台验证该数据存储节点的权限,当权限验证通过时,将数据存储节点要存储的数据输入预设的数据分类模型中进行分类,获取分类标签,数据存储节点将分类标签与要存储的数据进行关联存储,通过分类标签实现其他数据节点的对于该数据存储节点存储的数据的获取。第二权限信息可以采用数据存储节点的自身权限,即由大数据平台分配的权限。
在一个实施例中,解析数据获取请求信息,获取数据获取请求和所述数据获取请求的第一权限信息,包括:
获取数据节点自身的第一权限值;
获取数据节点在发出数据请求时借用其他的数据节点的第二权限值;数据节点在发出数据请求时从其他的数据节点处借用第二权限值;
基于第一权限值和第二权限值计算出代表第一权限信息的第三权限值,计算公式如下:
其中,D1表示第三权限值,d0表示第一权限值;di为数据节点从第i个其他的数据节点处借用的第二权限值;βi为数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;n为基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量,其值具体为第一权限值除以预设的借用基准权限值的商取整。
上述技术方案的工作原理及有益效果为:
为了解决数据节点本身具有的权限值不足的问题,在发送数据获取请求信息时可以借用其他的数据节点的权限值,实现超越数据节点本身的权限的数据获取,当然在借用其他的数据节点的权限值时,可以与其他的数据节点达成交易,例如,资源的共享、算力的共享等;通过借用权限使数据节点能够获得更多的目标数据,为数据节点基于目标数据的决策更加准确。
在一个实施例中,在接收数据节点的数据获取请求信息之前,还包括:
接收数据节点的所要获取的目标数据的需求信息;
获取数据节点的第一权限值;
基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果;
将第一预测结果输出至数据节点;
和/或,
获取数据节点可借用第二权限值的其他的数据节点的节点列表;
基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量;
根据数据节点可借用第二权限值的其他的数据节点的数量确定数据节点借用第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个借用策略的数据获取请求的第一权限信息的多个第三权限值;
基于多个第三权限值与需求信息对获取的目标数据的结果进行预测,获取多个第二预测结果;
将第二预测结果输出至数据节点。
上述技术方案的工作原理及有益效果为:
通过将根据数据节点本身的权限值获取的数据获取结果和/或借用其他数据节点的权限值的情况下的数据获取结果推送给数据节点,使数据节点根据自身决策所需的数据结果的情况,执行最优的借用策略;数据结果可以是获取目标数据的数据量;即大数据平台将数据节点采用本身的权限值进行数据获取请求信息时获取的目标数据的数据量以及各种借用策略下发出数据获取请求信息时获取的目标数据的数据量推送给数据节点,数据节点根据做出决策需要的数据量来反向选着借用策略。其中,需求信息为数据获取请求对应的目标数据的描述信息,可以是分类标签、关键词等
在一个实施例中,基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果,包括:
将需求信息和第一权限值输入预设的神经网络模型,获取第一预测结果;
或,
基于需求信息和第一权限值建立预测向量,基于预测向量查询预设的学习库,获取第一预测结果;
其中,学习库为基于数据节点的历史数据获取请求信息及对应历史数据获取请求信息获取的目标数据的获取结果的历史数据建立;
解析历史数据获取请求信息,获取历史数据获取请求信息中历史需求信息和历史数据获取请求信息中数据节点使用的第四权限值;
基于第四权限值和历史需求信息,对历史数据进行归类分组;
将分组内的所有的历史数据中的获取结果进行归类计算,获取第一预测结果;计算公式如下:
其中,Yk为第k个分组的第一预测结果;Gk,j为第k个分组的第j个历史数据中的获取结果;mk为第k个分组中历史数据的个数;
基于第四权限值和历史需求信息建立查询向量;
将查询向量与第一预测结果进行关联。
上述技术方案的工作原理及有益效果为:
第一预测结果和第二预测结果的预测主要采用两种方案,第一种,将需求信息和权限值输入预设的神经网络模型中进行预测;神经网络模型是预先经过大量数据训练得到;第二种,是基于大量的历史数据获取请求信息及其对应的获取结果建立的学习库,学习库中时基于大量的历史数据构建预测结果与查询向量;获取当前需求信息与当前权限值构建预测向量,计算预测向量与查询向量的相似度,将相似度最大的查询向量对应的预测结果作为当前需求信息与当前权限值对应的预测结果。通过数据获取结果的预测,指导数据节点做出最佳的权限借用策略。
在一个实施例中,在数据节点借用其他的数据节点的第二权限值完成获取目标数据后,当数据节点在预设的时间内变更了自身的第一权限值时,对借用给数据节点的其他的数据节点的借用权重进行调整;借用权重的调整具体如下:
获取数据节点的第一权限值的变化量;
获取预设的调整幅度及调整幅度修正值;
基于变化量、调整幅度、调整幅度修正值对其他的数据节点的借用权重进行调整,调整公式如下:
其中,β′i表示调整后的数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;Δd为数据节点的第一权限值的变化量;d0表示数据节点权限变更前的第一权限值;θ为预设的调整幅度,θ0为预设的调整幅度修正值;调整幅度及调整幅度修正值的取值都在0至1之间,且调整幅度修正值小于调整幅度的一半。
上述技术方案的工作原理及有益效果为:
通过调整其他的数据节点的借用权重,使下次数据节点在发出数据获取请求信息中发生权限借用后,从该其他的数据节点处借用的权重能够将数据获取请求信息的权限更高,提高数据获取请求信息的获取目标数据的效果,为数据节点的数据获取提供更高的体验,使数据节点在体验后能够积极地调整其自身的第一权限值;当数据节点借用权限体验后,提高了第一权限时,借用权重的调整为上调;当数据节点借用权限体验后,降低了第一权限时,借用权重的调整为下调;在数据节点提高第一权限和降低第一权限幅度相同时,借用权重的上调幅度小于下调幅度,即权重奖励幅度小于权重惩罚幅度。更进一步地,借用权重设置上下限;即调整到上限时,就不能继续上调;同理,在调整到下限时,就不能继续下调。
本发明还提供一种应用于大数据的数据发现系统,如图3所示,包括:
数据获取请求接收模块1,用于接收数据节点的数据获取请求信息;
第一权限信息确定模块2,用于解析数据获取请求信息,获取数据获取请求和所述数据获取请求的第一权限信息;
数据存储节点确定模块3,用于基于第一权限信息,确定数据存储节点;
分类标签获取模块4,用于解析数据获取请求,获取数据获取请求所要获取的目标数据的分类标签;
目标数据获取模块5,用于基于分类标签从数据存储节点中获取目标数据。
上述技术方案的工作原理及有益效果为:
当数据节点向大数据平台发送数据获取请求信息时,大数据平台解析数据获取请求信息,确定数据获取请求信息中包含的第一权限信息,基于第一权限信息确定可以对数据获取请求开放的数据存储节点;再次解析数据获取请求获取目标数据的分类标签,基于分类标签从开放的数据存储节点中获取目标数据;大数据平台基于数据获取请求的第一权限信息开放对应的数据存储节点,保证大数据平台的数据存储节点中存储数据的安全,通过分类标签实现快速获取数据存储节点的对应数据。在数据存储节点中分类标签与目标数据是关联绑定的。
在一个实施例中,应用于大数据的数据发现系统,还包括:
分类请求获取模块,用于接收数据存储节点的数据分类请求;
第二权限信息获取模块,用于解析数据分类请求,获取数据存储节点的第二权限信息;
验证模块,用于对数据存储节点的第二权限信息进行验证;
数据获取模块,用于当验证通过时,获取待分类的数据;
分类模块,用于将待分类的数据输入预设的数据分类模型,获取分类标签;将分类标签发送至数据存储节点;数据存储节点将分类标签与待分类的数据关联并存储。
上述技术方案的工作原理及有益效果为:
数据存储节点在存储数据时需要确定数据对应的分类标签,通过向大数据平台发送数据分类请求,大数据平台验证该数据存储节点的权限,当权限验证通过时,将数据存储节点要存储的数据输入预设的数据分类模型中进行分类,获取分类标签,数据存储节点将分类标签与要存储的数据进行关联存储,通过分类标签实现其他数据节点的对于该数据存储节点存储的数据的获取。
在一个实施例中,第一权限信息确定模块执行如下操作:
获取数据节点自身的第一权限值;
获取数据节点在发出数据请求时借用其他的数据节点的第二权限值;数据节点在发出数据请求时从其他的数据节点处借用第二权限值;
基于第一权限值和第二权限值计算出代表第一权限信息的第三权限值,计算公式如下:
其中,D1表示第三权限值,d0表示第一权限值;di为数据节点从第i个其他的数据节点处借用的第二权限值;βi为数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;n为基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量,其值具体为第一权限值除以预设的借用基准权限值的商取整。
上述技术方案的工作原理及有益效果为:
为了解决数据节点本身具有的权限值不足的问题,在发送数据获取请求信息时可以借用其他的数据节点的权限值,实现超越数据节点本身的权限的数据获取,当然在借用其他的数据节点的权限值时,可以与其他的数据节点达成交易,例如,资源的共享、算力的共享等;通过借用权限使数据节点能够获得更多的目标数据,为数据节点基于目标数据的决策更加准确。
在一个实施例中,应用于大数据的数据发现系统,还包括:预测模块,用于基于数据节点的所要获取的目标数据的需求信息预测目标数据的结果;
预测模块执行如下操作:
接收数据节点的所要获取的目标数据的需求信息;
获取数据节点的第一权限值;
基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果;
将第一预测结果输出至数据节点;
和/或,
获取数据节点可借用第二权限值的其他的数据节点的节点列表;
基于第一权限值确定的数据节点可借用第二权限值的其他的数据节点的数量;
根据数据节点可借用第二权限值的其他的数据节点的数量确定数据节点借用第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个借用策略的数据获取请求信息的第一权限信息的多个第三权限值;
基于多个第三权限值与需求信息对获取的目标数据的结果进行预测,获取多个第二预测结果;
将第二预测结果输出至数据节点。
上述技术方案的工作原理及有益效果为:
通过将根据数据节点本身的权限值获取的数据获取结果和/或借用其他数据节点的权限值的情况下的数据获取结果推送给数据节点,使数据节点根据自身决策所需的数据结果的情况,执行最优的借用策略;数据结果可以是获取目标数据的数据量;即大数据平台将数据节点采用本身的权限值进行数据获取请求信息时获取的目标数据的数据量以及各种借用策略下发出数据获取请求信息时获取的目标数据的数据量推送给数据节点,数据节点根据做出决策需要的数据量来反向选着借用策略。
在一个实施例中,基于需求信息与第一权限值对获取的目标数据的结果进行预测,获取第一预测结果,包括:
将需求信息和第一权限值输入预设的神经网络模型,获取第一预测结果;
或,
基于需求信息和第一权限值建立预测向量,基于预测向量查询预设的学习库,获取第一预测结果;
其中,学习库为基于数据节点的历史数据获取请求信息及对应历史数据获取请求信息获取的目标数据的获取结果的历史数据建立;
解析历史数据获取请求信息,获取历史数据获取请求信息中历史需求信息和历史数据获取请求信息中数据节点使用的第四权限值;
基于第四权限值和历史需求信息,对历史数据进行归类分组;
将分组内的所有的历史数据中的获取结果进行归类计算,获取第一预测结果;计算公式如下:
其中,Yk为第k个分组的第一预测结果;Gk,j为第k个分组的第j个历史数据中的获取结果;mk为第k个分组中历史数据的个数;
基于第四权限值和历史需求信息建立查询向量;
将查询向量与第一预测结果进行关联。
上述技术方案的工作原理及有益效果为:
第一预测结果和第二预测结果的预测主要采用两种方案,第一种,将需求信息和权限值输入预设的神经网络模型中进行预测;神经网络模型是预先经过大量数据训练得到;第二种,是基于大量的历史数据获取请求信息及其对应的获取结果建立的学习库,学习库中时基于大量的历史数据构建预测结果与查询向量;获取当前需求信息与当前权限值构建预测向量,计算预测向量与查询向量的相似度,将相似度最大的查询向量对应的预测结果作为当前需求信息与当前权限值对应的预测结果。通过数据获取结果的预测,指导数据节点做出最佳的权限借用策略。
在一个实施例中,应用于大数据的数据发现系统,还包括:借用权重调整模块,用于在数据节点借用其他的数据节点的第二权限值完成获取目标数据后,当数据节点在预设的时间内变更了自身的第一权限值时,对借用给数据节点的其他的数据节点的借用权重进行调整;借用权重的调整具体如下:
获取数据节点的第一权限值的变化量;
获取预设的调整幅度及调整幅度修正值;
基于变化量、调整幅度、调整幅度修正值对其他的数据节点的借用权重进行调整,调整公式如下:
其中,β′i表示调整后的数据节点从第i个其他的数据节点处借用的第二权限值的借用权重;Δd为数据节点的第一权限值的变化量;d0表示数据节点权限变更前的第一权限值;θ为预设的调整幅度,θ0为预设的调整幅度修正值;调整幅度及调整幅度修正值的取值都在0至1之间,且调整幅度修正值小于调整幅度的一般。
上述技术方案的工作原理及有益效果为:
通过调整其他的数据节点的借用权重,使下次数据节点在发出数据获取请求信息中发生权限借用后,从该其他的数据节点处借用的权重能够将数据获取请求信息的权限更高,提高数据获取请求信息的获取目标数据的效果,为数据节点的数据获取提供更高的体验,使数据节点在体验后能够积极地调整其自身的第一权限值;当数据节点借用权限体验后,提高了第一权限时,借用权重的调整为上调;当数据节点借用权限体验后,降低了第一权限时,借用权重的调整为下调;在数据节点提高第一权限和降低第一权限幅度相同时,借用权重的上调幅度小于下调幅度,即权重奖励幅度小于权重惩罚幅度。更进一步地,借用权重设置上下限;即调整到上限时,就不能继续上调;同理,在调整到下限时,就不能继续下调。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种应用于大数据的数据发现方法,其特征在于,包括:
接收数据节点的数据获取请求信息;
解析所述数据获取请求信息,获取所述数据获取请求和所述数据获取请求的第一权限信息;
基于所述第一权限信息,确定数据存储节点;
解析所述数据获取请求,获取所述数据获取请求所要获取的目标数据的分类标签;
基于所述分类标签从所述数据存储节点中获取所述目标数据。
2.如权利要求1所述的应用于大数据的数据发现方法,其特征在于,还包括:
接收所述数据存储节点的数据分类请求;
解析所述数据分类请求,获取所述数据存储节点的第二权限信息;
对所述数据存储节点的第二权限信息进行验证;
当验证通过时,获取待分类的数据;
将所述待分类的数据输入预设的数据分类模型,获取所述分类标签;
将所述分类标签发送至所述数据存储节点;所述数据存储节点将所述分类标签与所述待分类的数据关联并存储。
3.如权利要求1所述的应用于大数据的数据发现方法,其特征在于,所述解析所述数据获取请求信息,获取所述数据获取请求和所述数据获取请求的第一权限信息,包括:
获取所述数据节点自身的第一权限值;
获取所述数据节点在发出所述数据请求时借用其他的数据节点的第二权限值;所述数据节点在发出所述数据请求时从其他的数据节点处借用所述第二权限值;
基于所述第一权限值和所述第二权限值计算出代表所述第一权限信息的第三权限值,计算公式如下:
其中,D1表示所述第三权限值,d0表示所述第一权限值;di为所述数据节点从第i个其他的所述数据节点处借用的所述第二权限值;βi为所述数据节点从第i个其他的所述数据节点处借用的所述第二权限值的借用权重;n为基于所述第一权限值确定的所述数据节点可借用所述第二权限值的其他的数据节点的数量,其值具体为所述第一权限值除以预设的借用基准权限值的商取整。
4.如权利要求1所述的应用于大数据的数据发现方法,其特征在于,在接收数据节点的数据获取请求信息之前,还包括:
接收所述数据节点的所要获取的目标数据的需求信息;
获取所述数据节点的第一权限值;
基于所述需求信息与所述第一权限值对获取的所述目标数据的结果进行预测,获取第一预测结果;
将所述第一预测结果输出至所述数据节点;
和/或,
获取所述数据节点可借用所述第二权限值的其他的数据节点的节点列表;
基于所述第一权限值确定的所述数据节点可借用所述第二权限值的其他的数据节点的数量;
根据所述数据节点可借用所述第二权限值的其他的数据节点的数量确定所述数据节点借用所述第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个所述借用策略的所述数据获取请求信息的第一权限信息的多个所述第三权限值;
基于多个所述第三权限值与所述需求信息对获取的所述目标数据的结果进行预测,获取多个第二预测结果;
将所述第二预测结果输出至所述数据节点。
5.如权利要求4所述的应用于大数据的数据发现方法,其特征在于,所述基于所述需求信息与所述第一权限值对获取的所述目标数据的结果进行预测,获取第一预测结果,包括:
将所述需求信息和所述第一权限值输入预设的神经网络模型,获取所述第一预测结果;
或,
基于所述需求信息和所述第一权限值建立预测向量,基于所述预测向量查询预设的学习库,获取所述第一预测结果;
其中,所述学习库为基于所述数据节点的历史数据获取请求信息及对应所述历史数据获取请求信息获取的所述目标数据的获取结果的历史数据建立;
解析所述历史数据获取请求信息,获取所述历史数据获取请求信息中历史需求信息和所述历史数据获取请求信息中所述数据节点使用的第四权限值;
基于所述第四权限值和所述历史需求信息,对所述历史数据进行归类分组;
将所述分组内的所有的所述历史数据中的所述获取结果进行归类计算,获取所述第一预测结果;计算公式如下:
其中,Yk为第k个分组的所述第一预测结果;Gk,j为第k个分组的第j个历史数据中的所述获取结果;mk为第k个分组中所述历史数据的个数;
基于所述第四权限值和所述历史需求信息建立查询向量;
将所述查询向量与所述第一预测结果进行关联。
6.一种应用于大数据的数据发现系统,其特征在于,包括:
数据获取请求接收模块,用于接收数据节点的数据获取请求信息;
第一权限信息确定模块,用于解析所述数据获取请求信息,获取所述数据获取请求和所述数据获取请求的第一权限信息;
数据存储节点确定模块,用于基于所述第一权限信息,确定数据存储节点;
分类标签获取模块,用于解析所述数据获取请求,获取所述数据获取请求所要获取的目标数据的分类标签;
目标数据获取模块,用于基于所述分类标签从所述数据存储节点中获取所述目标数据。
7.如权利要求6所述的应用于大数据的数据发现系统,其特征在于,还包括:
分类请求获取模块,用于接收所述数据存储节点的数据分类请求;
第二权限信息获取模块,用于解析所述数据分类请求,获取所述数据存储节点的第二权限信息;
验证模块,用于对所述数据存储节点的第二权限信息进行验证;
数据获取模块,用于当验证通过时,获取待分类的数据;
分类模块,用于将所述待分类的数据输入预设的数据分类模型,获取所述分类标签;将所述分类标签发送至所述数据存储节点;所述数据存储节点将所述分类标签与所述待分类的数据关联并存储。
8.如权利要求6所述的应用于大数据的数据发现系统,其特征在于,所述第一权限信息确定模块执行如下操作:
获取所述数据节点自身的第一权限值;
获取所述数据节点在发出所述数据请求时借用其他的数据节点的第二权限值;所述数据节点在发出所述数据请求时从其他的数据节点处借用所述第二权限值;
基于所述第一权限值和所述第二权限值计算出代表所述第一权限信息的第三权限值,计算公式如下:
其中,D1表示所述第三权限值,d0表示所述第一权限值;di为所述数据节点从第i个其他的所述数据节点处借用的所述第二权限值;βi为所述数据节点从第i个其他的所述数据节点处借用的所述第二权限值的借用权重;n为基于所述第一权限值确定的所述数据节点可借用所述第二权限值的其他的数据节点的数量,其值具体为所述第一权限值除以预设的借用基准权限值的商取整。
9.如权利要求1所述的应用于大数据的数据发现系统,其特征在于,还包括:预测模块,用于基于所述数据节点的所要获取的目标数据的需求信息预测所述目标数据的结果;
所述预测模块执行如下操作:
接收所述数据节点的所要获取的目标数据的需求信息;
获取所述数据节点的第一权限值;
基于所述需求信息与所述第一权限值对获取的所述目标数据的结果进行预测,获取第一预测结果;
将所述第一预测结果输出至所述数据节点;
和/或,
获取所述数据节点可借用所述第二权限值的其他的数据节点的节点列表;
基于所述第一权限值确定的所述数据节点可借用所述第二权限值的其他的数据节点的数量;
根据所述数据节点可借用所述第二权限值的其他的数据节点的数量确定所述数据节点借用所述第二权限值的其他的数据节点的多种借用策略,
计算执行各个借用策略后,生成对应各个所述借用策略的所述数据获取请求信息的第一权限信息的多个所述第三权限值;
基于多个所述第三权限值与所述需求信息对获取的所述目标数据的结果进行预测,获取多个第二预测结果;
将所述第二预测结果输出至所述数据节点。
10.如权利要求9所述的应用于大数据的数据发现系统,其特征在于,所述基于所述需求信息与所述第一权限值对获取的所述目标数据的结果进行预测,获取第一预测结果,包括:
将所述需求信息和所述第一权限值输入预设的神经网络模型,获取所述第一预测结果;
或,
基于所述需求信息和所述第一权限值建立预测向量,基于所述预测向量查询预设的学习库,获取所述第一预测结果;
其中,所述学习库为基于所述数据节点的历史数据获取请求信息及对应所述历史数据获取请求信息获取的所述目标数据的获取结果的历史数据建立;
解析所述历史数据获取请求信息,获取所述历史数据获取请求信息中历史需求信息和所述历史数据获取请求信息中所述数据节点使用的第四权限值;
基于所述第四权限值和所述历史需求信息,对所述历史数据进行归类分组;
将所述分组内的所有的所述历史数据中的所述获取结果进行归类计算,获取所述第一预测结果;计算公式如下:
其中,Yk为第k个分组的所述第一预测结果;Gk,j为第k个分组的第j个历史数据中的所述获取结果;mk为第k个分组中所述历史数据的个数;
基于所述第四权限值和所述历史需求信息建立查询向量;
将所述查询向量与所述第一预测结果进行关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326722.8A CN112328663A (zh) | 2020-11-24 | 2020-11-24 | 一种应用于大数据的数据发现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326722.8A CN112328663A (zh) | 2020-11-24 | 2020-11-24 | 一种应用于大数据的数据发现方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112328663A true CN112328663A (zh) | 2021-02-05 |
Family
ID=74322329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011326722.8A Pending CN112328663A (zh) | 2020-11-24 | 2020-11-24 | 一种应用于大数据的数据发现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328663A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448587A (zh) * | 2021-05-08 | 2021-09-28 | 北京中数创新科技股份有限公司 | 一种基于标识解析架构的信息路由系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375404A (zh) * | 2016-08-30 | 2017-02-01 | 华为技术有限公司 | 数据存储控制方法、数据存储方法、数据获取方法及装置 |
CN107241360A (zh) * | 2017-08-04 | 2017-10-10 | 北京明朝万达科技股份有限公司 | 一种数据安全共享交换方法和数据安全共享交换平台系统 |
CN108563788A (zh) * | 2018-04-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 基于区块链的数据查询方法、装置、服务器及存储介质 |
CN109670321A (zh) * | 2018-11-30 | 2019-04-23 | 深圳灵图慧视科技有限公司 | 数据存储方法、数据查询方法及装置 |
CN109857913A (zh) * | 2019-01-15 | 2019-06-07 | 苏州链读文化传媒有限公司 | 一种分布式内容查找方法 |
CN110554834A (zh) * | 2018-06-01 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 文件系统数据访问方法和文件系统 |
CN110602217A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于区块链的联盟管理方法、装置、设备及存储介质 |
CN110808974A (zh) * | 2019-10-31 | 2020-02-18 | 深圳市网心科技有限公司 | 数据获取方法及装置、计算机装置及存储介质 |
CN111563129A (zh) * | 2020-07-15 | 2020-08-21 | 江苏荣泽信息科技股份有限公司 | 一种分布式存储区块链账本的方法 |
CN111881477A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 数据内容的标引方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-24 CN CN202011326722.8A patent/CN112328663A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375404A (zh) * | 2016-08-30 | 2017-02-01 | 华为技术有限公司 | 数据存储控制方法、数据存储方法、数据获取方法及装置 |
CN107241360A (zh) * | 2017-08-04 | 2017-10-10 | 北京明朝万达科技股份有限公司 | 一种数据安全共享交换方法和数据安全共享交换平台系统 |
CN108563788A (zh) * | 2018-04-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 基于区块链的数据查询方法、装置、服务器及存储介质 |
CN110554834A (zh) * | 2018-06-01 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 文件系统数据访问方法和文件系统 |
CN109670321A (zh) * | 2018-11-30 | 2019-04-23 | 深圳灵图慧视科技有限公司 | 数据存储方法、数据查询方法及装置 |
CN109857913A (zh) * | 2019-01-15 | 2019-06-07 | 苏州链读文化传媒有限公司 | 一种分布式内容查找方法 |
CN110602217A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于区块链的联盟管理方法、装置、设备及存储介质 |
CN110808974A (zh) * | 2019-10-31 | 2020-02-18 | 深圳市网心科技有限公司 | 数据获取方法及装置、计算机装置及存储介质 |
CN111563129A (zh) * | 2020-07-15 | 2020-08-21 | 江苏荣泽信息科技股份有限公司 | 一种分布式存储区块链账本的方法 |
CN111881477A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 数据内容的标引方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
袁家斌等: "面向移动终端的云计算跨域访问委托模型", 《软件学报》, vol. 24, no. 3, 31 December 2013 (2013-12-31), pages 564 - 574 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448587A (zh) * | 2021-05-08 | 2021-09-28 | 北京中数创新科技股份有限公司 | 一种基于标识解析架构的信息路由系统及方法 |
CN113448587B (zh) * | 2021-05-08 | 2023-11-03 | 北京中数创新科技股份有限公司 | 一种基于标识解析架构的信息路由系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cormode et al. | Approximation algorithms for clustering uncertain data | |
JP6308708B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
Sun et al. | Study on the improvement of K-nearest-neighbor algorithm | |
CN112328663A (zh) | 一种应用于大数据的数据发现方法及系统 | |
Nguyen et al. | Learning reusable initial solutions for multi-objective order acceptance and scheduling problems with genetic programming | |
CN107292489A (zh) | 一种电网调度运行精益化评价系统 | |
Yu et al. | Design optimization of extrusion‐blow‐molded parts using prediction‐reliability‐guided search of evolving network modeling | |
Chen et al. | A privacy-aware approach for managing the energy of cloud-based iot resources using an improved optimization algorithm | |
CN116244484B (zh) | 一种面向不平衡数据的联邦跨模态检索方法及系统 | |
Ávila et al. | A gene expression programming algorithm for multi-label classification | |
CN115456223B (zh) | 基于全生命周期的锂电池梯次回收管理方法及系统 | |
CN114389265B (zh) | 基于增殖和缩减进化的电网紧急切负荷优化方法及系统 | |
López-Herrera et al. | Applying multi-objective evolutionary algorithms to the automatic learning of extended Boolean queries in fuzzy ordinal linguistic information retrieval systems | |
Zhang et al. | A case retrieval strategy for traffic congestion based on cluster analysis | |
Stahl et al. | Optimizing similarity assessment in case-based reasoning | |
CN113177075B (zh) | 一种基于大数据平台的笔迹数据存储方法及系统 | |
CN112328984A (zh) | 一种应用于大数据的数据安全管理方法和系统 | |
CN115147020A (zh) | 装修数据处理方法、装置、设备及存储介质 | |
CN115393925A (zh) | 一种人脸吸引力分类方法、系统、设备及介质 | |
Javidi et al. | Utilizing the advantages of both global and local search strategies for finding a small subset of features in a two-stage method | |
Cao et al. | A fuzzy-rough approach for the maintenance of distributed case-based reasoning systems | |
CN112101576A (zh) | 分布式设备使用机器学习模型聚合系统 | |
Greistorfer et al. | Controlled pool maintenance for metaheuristics | |
Mathiassen et al. | Automatic categorization of patent applications using classifier combinations | |
CN115481108B (zh) | 一种针对同一数据在不同部门之间的管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |