CN117539638B - 一种用于工业大数据平台的数据处理方法及系统 - Google Patents
一种用于工业大数据平台的数据处理方法及系统 Download PDFInfo
- Publication number
- CN117539638B CN117539638B CN202410013826.5A CN202410013826A CN117539638B CN 117539638 B CN117539638 B CN 117539638B CN 202410013826 A CN202410013826 A CN 202410013826A CN 117539638 B CN117539638 B CN 117539638B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- target
- industrial
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 claims description 101
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于工业大数据平台的数据处理方法及系统,涉及数据处理技术领域,该数据处理方法包括:获取工业大数据平台的用户历史行为数据,确定每个用户的喜好特征,获取工业大数据平台中每个数据类型的数据权限特征信息和每个用户的身份权限特征信息,为每个用户的风格类型标签添加第二影响因子和第三影响因子;基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值并生成每个访问权限级别的第一数据类型推荐列表;根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理。本发明可以提升工业大数据平台对缓存资源的利用率以及提升用户的体验。
Description
技术领域
本发明涉及数据处理技术领域,具体地涉及一种用于工业大数据平台的数据处理方法及系统。
背景技术
工业大数据包括有工业企业在研发设计、生产制造、经营管理和运维服务等环节中生成和使用的数据,工业大数据平台作为处理工业领域的大规模数据系统,通过对工业大数据进行稽核、清洗和挖掘等操作,生成包含高价值信息的工业数据,企业和管理部门可以通过工业大数据平台实现对工业产业各个维度运行情况的有效掌握。
工业大数据平台存储有大量机密性不一的工业数据,为了保证数据的安全性,不同的用户的会被设置有不同的数据权限。工业大数据平台在为用户提供数据资源的过程中,一般会对一些下载频次高的数据进行提前缓存,以实现快速获取数据,提升用户的体验。然而,平台的活跃用户会发生变动,数据权限的差异会导致下载频次高的数据不适合不同时段下的平台的活跃用户,造成缓存资源的浪费。
发明内容
为了解决现有的工业大数据平台对缓存资源的利用率不高的问题,本发明实施例提出了一种用于工业大数据平台的数据处理方法及系统。
作为本发明实施例的一个方面,提供一种用于工业大数据平台的数据处理方法,所述数据处理方法包括:
获取工业大数据平台的用户历史行为数据,从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征,喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子,第一影响因子表征用户对风格类型标签对应数据类型的访问频次占比;
获取工业大数据平台中每个数据类型的数据权限特征信息,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子,第二影响因子表征工业大数据平台中风格类型标签对应数据类型的访问权限级别;
获取工业大数据平台中每个用户的身份权限特征信息,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子,第三影响因子表征工业大数据平台中风格类型标签对应用户的身份权限级别;
获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征,基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值;
根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理。
进一步地,所述基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值,包括:
通过如下公式进行数据类型的推荐值的计算:
式中,表示第/>个数据类型在第/>个访问权限级别上的推荐值,/>表示活跃用户的索引,/>表示活跃用户的数量,/>表示第/>位活跃用户的身份权限级别参量,/>表示第/>位活跃用户的第一影响因子;
其中,的取值为0或1,当第/>位活跃用户的身份权限级别不低于第/>个访问权限级别时/>的取值为1,否则/>的取值为0;
基于上述公式计算得到每个数据类型在每个访问权限级别上的推荐值。
进一步地,所述根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理,包括:
基于多个活跃用户的喜好特征计算每个访问权限级别的缓存参数,其中,采用下式进行缓存参数的计算:
式中,表示第/>个访问权限级别的缓存参数;
基于多个访问权限级别的缓存参数将第一预设缓存空间分配为多个子缓存空间,每个访问权限级别的子缓存空间的大小比值等于对应缓存参数的比值;
在确定每个访问权限级别的第一目标缓存数据类型和子缓存空间后,基于预设缓存规则对工业大数据平台中每个访问权限级别的工业数据进行缓存处理。
进一步地,所述数据处理方法还包括:
获取工业大数据平台的在线用户数据,提取多个在线用户在预设时间范围内的浏览行为数据,基于浏览行为数据确定在预设时间范围内不存在下载行为的多个目标用户;
从浏览行为数据中提取多个目标用户的行为特征数据并输入到行为分析模型中,输出每个目标用户的目标数据类型;
对每个目标用户的目标数据类型进行统计处理,生成第二数据类型推荐列表,包括所有目标数据类型所涉及到的每个数据类型对应的目标用户数量;
根据第二数据类型推荐列表确定第二目标缓存数据类型,第二目标缓存数据类型的目标用户数量大于预设推荐阈值;
确定第二目标缓存数据类型的目标身份权限级别,目标身份权限级别为第二目标缓存数据类型对应的多个用户中最低的身份权限级别;
基于第二预设缓存空间对目标身份权限级别的工业数据进行缓存处理。
进一步地,对于行为分析模型,还包括:
基于工业大数据平台的用户历史行为数据构建训练数据集,包括:
根据用户历史行为数据确定多个下载行为,确定每个下载行为前预设时间范围内用户的浏览行为数据,从浏览行为数据中提取出用户的行为特征数据;
提取每个下载行为对应的数据类型,将每个下载行为对应的行为特征数据和数据类型关联,构建得到训练数据集;
通过训练数据集预先训练得到行为分析模型。
进一步地,所述数据处理方法还包括:接收用户的数据下载请求,从数据下载请求中提取用户的身份验证信息和目标数据信息;
基于身份验证信息确定用户的身份权限级别,基于目标数据信息确定目标数据的访问权限级别,基于数据下载请求对用户进行权限验证,若用户的身份权限级别不低于目标数据的访问权限级别,则表示对用户的权限验证通过;
响应于对用户的权限验证通过,确定目标数据是否已被缓存处理,若是则从缓存空间中提取出目标数据并发送至用户,否则从本地数据库中提取出目标数据并发送至用户。
进一步地,行为分析模型为神经网络模型。
作为本发明实施例的另一个方面,提供一种用于工业大数据平台的数据处理系统,所述数据处理系统包括:
数据采集模块,用于获取工业大数据平台的用户历史行为数据、获取工业大数据平台中每个数据类型的数据权限特征信息以及获取工业大数据平台中每个用户的身份权限特征信息;
特征提取模块,用于从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子,其中,喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子;
用户分析模块,用于获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征;
推荐分析模块,用于基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值,根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
数据缓存模块,用于根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理。
进一步地,所述数据处理系统还包括:
模型训练模块,用于基于工业大数据平台的用户历史行为数据构建训练数据集,通过训练数据集预先训练得到行为分析模型。
进一步地,所述数据处理系统还包括:
请求处理模块,用于接收用户关于目标数据的数据下载请求并对用户进行权限验证,在对用户的权限验证通过后提取出目标数据并发送至用户。
本发明具有以下优点:
1、本发明通过分析工业大数据平台的用户历史行为数据,确定每个用户的喜好特征,通过分析获取工业大数据平台的用户活跃数据,根据活跃用户的喜好特征确定每个数据类型的推荐值,并根据每个访问权限级别的第一目标缓存数据类型对契合活跃用户的喜好的工业数据进行缓存处理,在保证数据安全性的同时提升了工业大数据平台对缓存资源的利用率,同时提升了用户的体验。
2、本发明通过分析在线用户的浏览行为数据,通过行为分析模型对部分在线用户短期内的行为特征数据进行处理,确定目标用户的第二目标缓存数据类型以及第二目标缓存数据类型的目标身份权限级别,对契合部分非活跃且在线用户的喜好的工业数据进行缓存处理,进一步提升工业大数据平台对缓存资源的利用率,以及提升用户的体验。
附图说明
图1为本发明一个实施例中提供的一种用于工业大数据平台的数据处理方法的流程示意图。
图2为本发明一个实施例中提供的一种用于工业大数据平台的数据处理系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明部分实施例进行进一步详细说明。
请参见图1,图1示出了本发明一个实施例中提供的一种用于工业大数据平台的数据处理方法的流程示意图,该数据处理方法具体包括:
S01、获取工业大数据平台的用户历史行为数据,从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征。
本发明实施例中,用户历史行为数据记录了用户在工业大数据平台的行为信息,例如浏览、评论、下载等行为,通过提取出包含用户下载行为信息的历史访问数据,以确定表征不同用户对工业大数据平台中各类数据的需求的喜好特征,示例性的,每个用户的喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子,其中,每个风格类型标签对应一种数据类型,第一影响因子表征用户对风格类型标签对应数据类型的访问频次占比。
本发明实施例中,数据类型的划分可以结合实际情况进行具体的设定,示例性的,对于产品加工的企业的加工这一大类的数据,所涉及的数据类型例如产品配方、生产设备、生产进度、生产流程和阶段产量等,此处不进行具体限定。每个风格类型标签的第一影响因子基于用户的下载行为信息进行确定,示例性的,统计用户对每个风格类型标签对应数据类型的下载频次,将多个下载频次与总下载次数的比值作为每个风格类型标签对应数据类型的访问频次占比,从而得到风格类型标签的第一影响因子。
S02、获取工业大数据平台中每个数据类型的数据权限特征信息,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子。
本发明实施例中,企业或组织为数据类型预先设定数据安全等级,示例性的,部分企业设定绝密、机密、秘密和公开四种级别,在其它的实施例中本领域的技术人员结合实际情况选择其它的方式设定不同数据类型的数据安全等级,此处不进行具体限定。
本发明实施例中,在获取每个数据类型的数据权限特征信息后,对数据安全等级进行量化,结合用户的历史访问数据确定每个用户的风格类型标对应的数据类型的第二影响因子,第二影响因子表征工业大数据平台中风格类型标签对应数据类型的访问权限级别,示例性的,对于m个数据安全等级,按照安全程度从低到高依次记为D1级、D2级、…、Dm级共m个访问权限级别。
值得说明的是,不同数据安全等级对应数据的数据类型存在差异,例如配方数据,不同配方的重要程度存在差异导致配方数据这一数据类型可能会对应多个访问权限级别,因此,在为每个用户的风格类型标签添加第二影响因子的过程中,结合用户的历史访问数据进行综合分析,以配方数据为例,根据用户历史下载的所有配方数据中所涉及的最高的访问权限级别确定配方这一风格类型标签的第二影响因子,示例性的,若用户下载过的配方数据中安全程度最高的一组数据所涉及到的访问权限级别为D3,则配方这一风格类型标签的第二影响因子为3。
S03、获取工业大数据平台中每个用户的身份权限特征信息,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子。
本发明实施例中,采集企业或组织为不同用户预先设定的身份安全等级,示例性的,每个身份安全等级具备对不同数据安全等级的浏览下载权限。通过分析不同用户的身份权限特征信息,确定每个用户的风格类型标签添加第三影响因子,第三影响因子表征工业大数据平台中风格类型标签对应用户的身份权限级别,示例性的,E1级、E2级、…、Em级共m个身份权限级别,依次对应m个访问权限级别,其中,用户不具备对访问权限级别高于其身份权限级别对应的访问权限级别的数据的浏览下载权限,示例性的,若某用户的身份权限级别为E4,则该用户的所有风格类型标签的第三影响因子为4,并且对于工业大数据平台中存储的工业数据,只具备对访问权限级别不高于D4的数据的浏览下载权限。
值得说明的是,为了保证数据的安全性,企业或组织会对不同的用户设定不同的身份安全等级,用于指示用户浏览下载工业大数据平台中的数据的权限,本发明实施例通过分析记录有表示用户浏览下载各类数据权限信息的身份权限特征信息,与数据权限特征信息相关联,从而确定用户的风格类型标签的第三影响因子。
S04、获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征,基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值。
本发明实施例中,活跃用户可以是在一段时间内存在登录行为的用户,例如在最近三天内存在登录行为的用户。可选的是,为了对活跃用户进一步地限定,活跃用户可以是在最近三天内存在登录行为,并且在线时间不低于预设时长的用户。本领域技术人员可以基于实际情况合理地对活跃用户进行定义,本实施例中不对其进行限制。
本发明实施例中,在通过用户活跃数据确定多个活跃用户后,根据每个活跃用户的喜好特征对工业大数据平台中所涉及到的多个数据类型进行分析,计算每个数据类型的推荐值,用于指示每个数据类型的工业数据与工业大数据平台当前的活跃用户的契合度。
本发明实施例中,采用以下公式计算数据类型的推荐值:
式中,表示第/>个数据类型在第/>个访问权限级别上的推荐值,/>表示活跃用户的索引,/>表示活跃用户的数量,/>表示第/>位活跃用户的身份权限级别参量,/>表示第/>位活跃用户的第一影响因子;
其中,的取值为0或1,当第/>位活跃用户的身份权限级别不低于第/>个访问权限级别时/>的取值为1,否则/>的取值为0;
本发明实施例中,由于不同访问权限级别的数据对应的数据类型存在差异,最终计算得到的数据类型的推荐值的数量可能只有一个也可能包含多个,每个推荐值仅对应一个访问权限级别,通过上述公式可确定每个数据类型的至少一个推荐值。
S05、根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
S06、根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理。
本发明实施例中,第一数据类型推荐列表中各个数据类型可基于推荐值从高到低的顺序进行排序。在确定每个访问权限级别的第一数据类型推荐列表后,可基于第一数据类型推荐列表确定个访问权限级别的第一目标缓存数据类型,示例性的,将每个第一数据类型推荐列表中前三个数据类型作为对应访问权限级别的第一目标缓存数据类型,本实施例不对其进行具体限定。
本发明实施例中,在确定每个访问权限级别的第一目标缓存数据类型后,可结合工业大数据平台提供得到缓存空间大小,以及每个访问权限级别对应的活跃用户的数量确定相关的缓存方案,或者结合每个数据类型中各个数据文件的下载频次确定适合的缓存方案。
本发明实施例提供的一种用于工业大数据平台的数据处理方法,通过分析工业大数据平台的用户历史行为数据,确定每个用户的喜好特征,用于表示用户对不同数据类型的工业数据的感兴趣程度,在这基础上考虑到数据的安全性,基于数据权限特征信息和用户的身份权限特征信息,为用户的风格类型标签添相关的影响因子,更全面地展示出符合用户身份的喜好特征。通过分析获取工业大数据平台的用户活跃数据,根据活跃用户的喜好特征确定每个数据类型的推荐值,用于指示不同数据类型的数据与平台的活跃用户的契合度,并根据每个访问权限级别的第一目标缓存数据类型对工业大数据平台的工业数据进行缓存处理。相较于对最近下载的数据文件进行缓存,或者将下载频次高的数据文件作为缓存对象进行缓存的方式,本发明实施例从数据安全性作为切入点,综合分析了用户的需求,结合用户的活跃状态,以确定最佳的缓存对象,在保证数据安全性的同时提升了工业大数据平台对缓存资源的利用率,同时提升了用户的体验。
作为本发明实施例的一个优选,步骤S06中,根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理,采用以下方式实现:
基于多个活跃用户的喜好特征计算每个访问权限级别的缓存参数,其中,缓存参数的计算公式如下:
式中,表示第/>个访问权限级别的缓存参数。
基于多个访问权限级别的缓存参数将第一预设缓存空间分配为多个子缓存空间,每个访问权限级别的子缓存空间的大小比值等于对应缓存参数的比值;
本发明实施例中,通过缓存参数的计算公式对每个访问权限级别对应的活跃用户进行分析,确定每个访问权限级别的缓存参数,通过每个访问权限级别的缓存参数对第一预设缓存空间进行分配,其中,缓存参数用于表征活跃用户在每个访问权限级别上的分布,示例性的,若访问权限级别D2的缓存参数为0.263,则表示工业大数据平台当前的活跃用户中,26.3%的用户具备对访问权限级别为D2的工业数据的浏览下载权限,在此基础上,可以将缓存参数0.263作为参考值,从而确定第一预设缓存空间用于缓存访问权限级别为D2的工业数据的子缓存空间的大小。例如,直接将每个访问权限级别的缓存参数,作为该访问权限级别的子缓存空间与第一预设缓存空间大小的比值,本领域技术人员也可以结合实际情况对每个访问权限级别的子缓存空间的大小进行调整。
在确定每个访问权限级别的第一目标缓存数据类型和子缓存空间后,基于预设缓存规则对工业大数据平台中每个访问权限级别的工业数据进行缓存处理。
本发明实施例中,通过分析活跃用户的喜好特征,确定每个访问权限级别的缓存参数,从而确定每个访问权限级别对应的子缓存空间的大小。在这基础上,可结合预设缓存规则和第一目标缓存数据类型,确定每个访问权限级别的数据缓存对象。示例性地,对于任意一个访问权限级别的工业数据,若第一目标缓存数据类型仅包括一个数据类型,则确定第一目标缓存数据类型的工业数据中每个数据文件的历史下载频次,按照历史下载频次从高到低的数据依次进行缓存;若第一目标缓存数据类型包括多个数据类型,可基于单个数据类型的推荐值与多个数据类型的推荐值总和的占比确定每个数据类型的分配比值,根据分配比值对该访问权限级别的子缓存空间进一步地分配,再基于上述仅包括一个数据类型时的缓存方式,对第一目标缓存数据类型中的多个数据类型对应的工业数据进行缓存。
值得说明的是,访问权限级别的第一目标缓存数据类型和子缓存空间仅用于对分配至每个数据类型的最大缓存空间进行限定,具体的缓存方式可以结合实际情况进行设定,本领域技术人员也可采用其它的缓存方式对工业数据进行缓存处理,本实施例中不对其进行具体限定。
作为本发明实施例的一个优选,一种用于工业大数据平台的数据处理方法,还包括:
S401、获取工业大数据平台的在线用户数据,提取多个在线用户在预设时间范围内的浏览行为数据,基于浏览行为数据确定在预设时间范围内不存在下载行为的多个目标用户。
本发明实施例中,可从工业大数据平台的用户活跃数据中提取出在线用户数据,考虑到在线用户中存在非活跃用户,例如较长时间未登录的用户或者新用户等,根据每个用户在预设时间范围内的浏览行为数据,筛选出多个目标用户,示例性的,预设时间范围可以是当前时间之前的20分钟、半小时等。
S402、从浏览行为数据中提取多个目标用户的行为特征数据并输入到行为分析模型中,输出每个目标用户的目标数据类型。
本发明实施例中,行为分析模型为预先训练得到的卷积神经网络模型,由基于工业大数据平台的用户历史行为数据构建的训练数据集训练得到,示例性的,根据用户历史行为数据确定多个下载行为,确定每个下载行为前预设时间范围内用户的浏览行为数据,从浏览行为数据中提取出用户的行为特征数据;提取每个下载行为对应的数据类型,将每个下载行为对应的行为特征数据和数据类型关联,构建得到训练数据集,通过训练数据集对行为分析模型进行训练。
本发明实施例中,用户的浏览行为数据例如用户对信息摘要、评论、报表和来源等相关信息的浏览行为,从中提取出用于表示用户对各类用于介绍数据内容的信息的关注行为的行为特征数据,训练得到的行为分析模型可通过所输入的用户的行为特征数据,对用户短期喜好的数据类型进行预测。
S403、对每个目标用户的目标数据类型进行统计处理,生成第二数据类型推荐列表,根据第二数据类型推荐列表确定第二目标缓存数据类型。
本发明实施例中,第二数据类型推荐列表包括所有目标数据类型所涉及到的多个数据类型中,每个数据类型对应的目标用户数量,通过预设推荐阈值对多个数据类型进行筛选,得到第二目标缓存数据类型,其中,第二目标缓存数据类型的目标用户数量大于预设推荐阈值。预设推荐阈值的意义在于对用户数量进行限定,以使得第二目标缓存数据类型能适合更多目标用户。
S404、确定第二目标缓存数据类型的目标身份权限级别,基于第二预设缓存空间对目标身份权限级别的工业数据进行缓存处理。
本发明实施例中,第二目标缓存数据类型对应的多个用户中最低的身份权限级别为目标身份权限级别,这种情况下,第二目标缓存数据类型对应工业数据作为数据缓存对象后,将有更多的目标用户具备相关的浏览下载权限。
本发明实施例中,对于目标身份权限级别的工业数据,可通过分析第二目标缓存数据类型下每个数据文件的下载频次,基于下载频次从高到低的顺序对数据进行缓存处理。
本发明实施例中,在通过预设缓存空间对工业数据进行缓存处理的过程中,可综合分析预设缓存空间中已经缓存的数据,调整相关的缓存方式。示例性的,对于第二预设缓存空间,若在某个时刻执行完上述步骤,再确定第二目标缓存数据类型的目标身份权限级别后,基于第二预设缓存空间对目标身份权限级别的工业数据进行缓存处理的过程中,可确定第二预设缓存空间中已经存储的工业数据进行分析,删除其中不属于第二目标缓存数据类型的工业数据,暂时保留属于第二目标缓存数据类型的工业数据,这种情况下先基于下载频次从高到低的顺序通过剩余的缓存空间对数据进行缓存处理,然后进一步分析目标用户的下载行为,综合分析所缓存的数据与目标用户的下载对象的契合程度后再确定是否对第二预设缓存空间中已经存储的属于第二目标缓存数据类型的工业数据进行删除或保留,示例性的,通过统计到的一段时间内此次对第二预设缓存空间中更新的工业数据中目标用户的下载次数与该时间段内目标用户的总下载次数的比值作为所缓存的数据与目标用户的下载对象的契合程度,若高于某个阈值则进行删除操作,并采用对应的数据更新方式对空出的缓存空间进行利用,否则保留数据不进行操作。
作为本发明实施例的一个优选,一种用于工业大数据平台的数据处理方法,还包括:
接收用户的数据下载请求,基于数据下载请求确定用户的身份权限级别,以及确定目标数据的访问权限级别。
本发明实施例中,数据下载请求中至少包括有表征用户身份的身份验证信息和表征预期下载对象的目标数据信息,基于身份验证信息确定用户的身份权限级别,基于目标数据信息确定目标数据的访问权限级别,便于对用户的数据下载请求进行审核。
基于数据下载请求对用户进行权限验证,响应于对用户的权限验证通过,确定目标数据是否已被缓存处理,若是则从缓存空间中提取出目标数据并发送至用户,否则从本地数据库中提取出目标数据并发送至用户。
本发明实施例中,若用户的身份权限级别不低于目标数据的访问权限级别,则表示对用户的权限验证通过,若目标数据正好已被提前缓存,则直接从缓存空间中提取出并发送给用户,否则从用于存储大量工业数据的本地数据库中提取出目标数据后再发送给用户,以提高数据共享过程中的数据安全性和共享便利性。
请参见图2,图2示出了本发明另一个实施例中提供的一种用于工业大数据平台的数据处理系统的结构示意图。该数据处理系统具体包括:
数据采集模块,用于获取工业大数据平台的用户历史行为数据、获取工业大数据平台中每个数据类型的数据权限特征信息以及获取工业大数据平台中每个用户的身份权限特征信息;
特征提取模块,用于从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子,其中,喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子;
用户分析模块,用于获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征;
推荐分析模块,用于基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值,根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
数据缓存模块,用于根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理。
作为本发明实施例的一个优选,一种用于工业大数据平台的数据处理系统,还包括:
模型训练模块,用于基于工业大数据平台的用户历史行为数据构建训练数据集,通过训练数据集预先训练得到行为分析模型,其中,行为分析模型为卷积神经网络模型;
请求处理模块,用于接收用户关于目标数据的数据下载请求并对用户进行权限验证,在对用户的权限验证通过后提取出目标数据并发送至用户。
作为本发明实施例的一个优选,一种用于工业大数据平台的数据处理系统,还包括:
通过用户分析模块从工业大数据平台提取出在线用户数据,确定多个在线用户在预设时间范围内的浏览行为数据,基于浏览行为数据确定在预设时间范围内不存在下载行为的多个目标用户,从浏览行为数据中提取多个目标用户的行为特征数据并输入到行为分析模型中,输出每个目标用户的目标数据类型;对每个目标用户的目标数据类型进行统计处理,生成第二数据类型推荐列表;
通过数据缓存模块基于第二数据类型推荐列表确定第二目标缓存数据类型,以及确定第二目标缓存数据类型的目标身份权限级别,并基于第二目标缓存数据类型通过第二预设缓存空间对目标身份权限级别的工业数据进行缓存处理。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。
Claims (7)
1.一种用于工业大数据平台的数据处理方法,其特征在于,所述数据处理方法包括:
获取工业大数据平台的用户历史行为数据,从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征,喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子,第一影响因子表征用户对风格类型标签对应数据类型的访问频次占比;
获取工业大数据平台中每个数据类型的数据权限特征信息,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子,第二影响因子表征工业大数据平台中风格类型标签对应数据类型的访问权限级别;
获取工业大数据平台中每个用户的身份权限特征信息,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子,第三影响因子表征工业大数据平台中风格类型标签对应用户的身份权限级别;
获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征,基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值;
根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理;
所述基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值,包括:
通过如下公式进行数据类型的推荐值的计算:
;
式中,表示第/>个数据类型在第/>个访问权限级别上的推荐值,/>表示活跃用户的索引,/>表示活跃用户的数量,/>表示第/>位活跃用户的身份权限级别参量,表示第/>位活跃用户的第一影响因子;
其中,的取值为0或1,当第/>位活跃用户的身份权限级别不低于第/>个访问权限级别时/>的取值为1,否则/>的取值为0;
基于上述公式计算得到每个数据类型在每个访问权限级别上的推荐值。
2.如权利要求1所述的一种用于工业大数据平台的数据处理方法,其特征在于,所述根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理,包括:
基于多个活跃用户的喜好特征计算每个访问权限级别的缓存参数,其中,采用下式进行缓存参数的计算:
;
式中,表示第/>个访问权限级别的缓存参数;
基于多个访问权限级别的缓存参数将第一预设缓存空间分配为多个子缓存空间,每个访问权限级别的子缓存空间的大小比值等于对应缓存参数的比值;具体为:通过缓存参数的计算公式对每个访问权限级别对应的活跃用户进行分析,确定每个访问权限级别的缓存参数,通过每个访问权限级别的缓存参数对第一预设缓存空间进行分配,其中,缓存参数用于表征活跃用户在每个访问权限级别上的分布、并将缓存参数作为参考值,从而确定第一预设缓存空间用于缓存访问权限级别为工业数据的子缓存空间的大小;
将每个访问权限级别的缓存参数,作为该访问权限级别的子缓存空间与第一预设缓存空间大小的比值;
在确定每个访问权限级别的第一目标缓存数据类型和子缓存空间后,基于预设缓存规则对工业大数据平台中每个访问权限级别的工业数据进行缓存处理。
3.如权利要求2所述的一种用于工业大数据平台的数据处理方法,其特征在于,所述数据处理方法还包括:
获取工业大数据平台的在线用户数据,提取多个在线用户在预设时间范围内的浏览行为数据,基于浏览行为数据确定在预设时间范围内不存在下载行为的多个目标用户;
从浏览行为数据中提取多个目标用户的行为特征数据并输入到行为分析模型中,输出每个目标用户的目标数据类型;
对每个目标用户的目标数据类型进行统计处理,生成第二数据类型推荐列表,包括所有目标数据类型所涉及到的每个数据类型对应的目标用户数量;
根据第二数据类型推荐列表确定第二目标缓存数据类型,第二目标缓存数据类型的目标用户数量大于预设推荐阈值;
确定第二目标缓存数据类型的目标身份权限级别,目标身份权限级别为第二目标缓存数据类型对应的多个用户中最低的身份权限级别;
基于第二预设缓存空间对目标身份权限级别的工业数据进行缓存处理。
4.如权利要求3所述的一种用于工业大数据平台的数据处理方法,其特征在于,对于行为分析模型,还包括:
基于工业大数据平台的用户历史行为数据构建训练数据集,包括:
根据用户历史行为数据确定多个下载行为,确定每个下载行为前预设时间范围内用户的浏览行为数据,从浏览行为数据中提取出用户的行为特征数据;
提取每个下载行为对应的数据类型,将每个下载行为对应的行为特征数据和数据类型关联,构建得到训练数据集;
通过训练数据集预先训练得到行为分析模型。
5.如权利要求1所述的一种用于工业大数据平台的数据处理方法,其特征在于,所述数据处理方法还包括:接收用户的数据下载请求,从数据下载请求中提取用户的身份验证信息和目标数据信息;
基于身份验证信息确定用户的身份权限级别,基于目标数据信息确定目标数据的访问权限级别,基于数据下载请求对用户进行权限验证,若用户的身份权限级别不低于目标数据的访问权限级别,则表示对用户的权限验证通过;
响应于对用户的权限验证通过,确定目标数据是否已被缓存处理,若是则从缓存空间中提取出目标数据并发送至用户,否则从本地数据库中提取出目标数据并发送至用户。
6.如权利要求4所述的一种用于工业大数据平台的数据处理方法,其特征在于,行为分析模型为神经网络模型。
7.一种用于工业大数据平台的数据处理系统,使用如权利要求1至6任一所述的一种用于工业大数据平台的数据处理方法,其特征在于,所述数据处理系统包括:
数据采集模块,用于获取工业大数据平台的用户历史行为数据、获取工业大数据平台中每个数据类型的数据权限特征信息以及获取工业大数据平台中每个用户的身份权限特征信息;
特征提取模块,用于从用户历史行为数据中提取出多个用户的历史访问数据,基于历史访问数据确定每个用户的喜好特征,基于数据权限特征信息为每个用户的风格类型标签添加第二影响因子,基于身份权限特征信息为每个用户的风格类型标签添加第三影响因子,其中,喜好特征包括至少一个风格类型标签和每个风格类型标签的第一影响因子;
用户分析模块,用于获取工业大数据平台的用户活跃数据,提取多个活跃用户的喜好特征;
推荐分析模块,用于基于多个活跃用户的喜好特征计算工业大数据平台中每个数据类型的推荐值,根据推荐值对每个访问权限级别内的数据类型进行排序,得到每个访问权限级别的第一数据类型推荐列表;
数据缓存模块,用于根据第一数据类型推荐列表确定每个访问权限级别的第一目标缓存数据类型并对工业大数据平台的工业数据进行缓存处理;
模型训练模块,用于基于工业大数据平台的用户历史行为数据构建训练数据集,通过训练数据集预先训练得到行为分析模型;
请求处理模块,用于接收用户关于目标数据的数据下载请求并对用户进行权限验证,在对用户的权限验证通过后提取出目标数据并发送至用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013826.5A CN117539638B (zh) | 2024-01-04 | 2024-01-04 | 一种用于工业大数据平台的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013826.5A CN117539638B (zh) | 2024-01-04 | 2024-01-04 | 一种用于工业大数据平台的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117539638A CN117539638A (zh) | 2024-02-09 |
CN117539638B true CN117539638B (zh) | 2024-03-22 |
Family
ID=89782597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410013826.5A Active CN117539638B (zh) | 2024-01-04 | 2024-01-04 | 一种用于工业大数据平台的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117539638B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117931958B (zh) * | 2024-03-21 | 2024-06-18 | 山东山科世鑫科技有限公司 | 一种基于人工智能的数据仓库管理系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663627A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 个性化推荐方法 |
CN106339469A (zh) * | 2016-08-29 | 2017-01-18 | 乐视控股(北京)有限公司 | 数据推荐方法及装置 |
CN109992982A (zh) * | 2019-04-11 | 2019-07-09 | 北京信息科技大学 | 大数据访问授权方法、装置和大数据平台 |
CN111460279A (zh) * | 2020-02-25 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 信息推荐方法、装置、存储介质及计算机设备 |
CN111538910A (zh) * | 2020-06-23 | 2020-08-14 | 上海摩莱信息科技有限公司 | 一种智能推荐方法、装置及计算机存储介质 |
CN112818377A (zh) * | 2019-11-18 | 2021-05-18 | 广东美云智数科技有限公司 | 权限数据推荐、权限设置方法及系统、电子设备及介质 |
CN114036404A (zh) * | 2021-09-25 | 2022-02-11 | 长沙后浪网络科技有限公司 | 基于单服务器的数据加载方法、内容推荐方法、系统、芯片和介质 |
WO2022142519A1 (zh) * | 2020-12-30 | 2022-07-07 | 北京锐安科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN115187015A (zh) * | 2022-06-24 | 2022-10-14 | 平安银行股份有限公司 | 一种业务人员分配方法、装置、计算机设备及存储介质 |
CN115391669A (zh) * | 2022-10-31 | 2022-11-25 | 江西渊薮信息科技有限公司 | 一种智能推荐方法、装置、电子设备 |
CN115640325A (zh) * | 2021-07-19 | 2023-01-24 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、可读介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5962926B2 (ja) * | 2011-03-03 | 2016-08-03 | 日本電気株式会社 | レコメンダシステム、レコメンド方法、及びプログラム |
-
2024
- 2024-01-04 CN CN202410013826.5A patent/CN117539638B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663627A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 个性化推荐方法 |
CN106339469A (zh) * | 2016-08-29 | 2017-01-18 | 乐视控股(北京)有限公司 | 数据推荐方法及装置 |
CN109992982A (zh) * | 2019-04-11 | 2019-07-09 | 北京信息科技大学 | 大数据访问授权方法、装置和大数据平台 |
CN112818377A (zh) * | 2019-11-18 | 2021-05-18 | 广东美云智数科技有限公司 | 权限数据推荐、权限设置方法及系统、电子设备及介质 |
CN111460279A (zh) * | 2020-02-25 | 2020-07-28 | 拉扎斯网络科技(上海)有限公司 | 信息推荐方法、装置、存储介质及计算机设备 |
CN111538910A (zh) * | 2020-06-23 | 2020-08-14 | 上海摩莱信息科技有限公司 | 一种智能推荐方法、装置及计算机存储介质 |
WO2022142519A1 (zh) * | 2020-12-30 | 2022-07-07 | 北京锐安科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN115640325A (zh) * | 2021-07-19 | 2023-01-24 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、可读介质及电子设备 |
CN114036404A (zh) * | 2021-09-25 | 2022-02-11 | 长沙后浪网络科技有限公司 | 基于单服务器的数据加载方法、内容推荐方法、系统、芯片和介质 |
CN115187015A (zh) * | 2022-06-24 | 2022-10-14 | 平安银行股份有限公司 | 一种业务人员分配方法、装置、计算机设备及存储介质 |
CN115391669A (zh) * | 2022-10-31 | 2022-11-25 | 江西渊薮信息科技有限公司 | 一种智能推荐方法、装置、电子设备 |
Non-Patent Citations (1)
Title |
---|
基于ESSVM的分类推荐;侯君;刘魁;李千目;;数据分析与知识发现;20180325(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117539638A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117539638B (zh) | 一种用于工业大数据平台的数据处理方法及系统 | |
CN111831636B (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
CN102947819B (zh) | 信息追踪系统和方法 | |
CN109614238B (zh) | 一种目标对象识别方法、装置、系统及可读存储介质 | |
CN111639497A (zh) | 一种基于大数据机器学习的异常行为发现方法 | |
CN112540811B (zh) | 缓存数据的检测方法、装置、计算机设备和存储介质 | |
CN115936572A (zh) | 一种农作物种质资源信息管理方法及系统 | |
CN102870110B (zh) | 文档登记系统 | |
CN114428813A (zh) | 基于报表平台的数据统计方法、装置、设备及存储介质 | |
CN117352188B (zh) | 一种基于大数据分析的临床信息共享方法及系统 | |
CN111159429B (zh) | 基于知识图谱的数据分析方法及装置、设备、存储介质 | |
US20170300837A1 (en) | Business operation evaluation system | |
CN117574436A (zh) | 一种基于张量的大数据隐私安全防护方法 | |
CN114298565A (zh) | 一种基于被下载文件的大数据软件推荐方法 | |
CN113850541A (zh) | 一种基于sql数据库的库存驱动的光缆订单分配方法 | |
CN111324594B (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
CN111063407B (zh) | 一种基于区块链的医疗资源数据处理方法及系统 | |
CN111831817A (zh) | 问卷生成分析方法、装置、计算机设备及可读存储介质 | |
CN112001539A (zh) | 一种高精度的客运预测方法及客运预测系统 | |
CN108108444B (zh) | 一种企业业务单元自适应系统及其实现方法 | |
WO2022193415A1 (zh) | 数据生成方法、装置、计算机设备和存储介质 | |
CN114579398A (zh) | 一种日志的存储方法、装置、设备及存储介质 | |
CN113220545A (zh) | 分派工单的方法、装置和电子设备 | |
CN112000727A (zh) | 一种动态配置业务数据脱敏显示方法 | |
CN105787075A (zh) | 一种基于数据挖掘的事件预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |