CN113505167A - 一种链路预测关系推荐的用户数据预处理系统 - Google Patents

一种链路预测关系推荐的用户数据预处理系统 Download PDF

Info

Publication number
CN113505167A
CN113505167A CN202110798691.4A CN202110798691A CN113505167A CN 113505167 A CN113505167 A CN 113505167A CN 202110798691 A CN202110798691 A CN 202110798691A CN 113505167 A CN113505167 A CN 113505167A
Authority
CN
China
Prior art keywords
data
user
layer
preprocessing
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110798691.4A
Other languages
English (en)
Inventor
任越美
李垒
杨云
孙立伟
毛峥
边青全
王培培
吕品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Polytechnic Institute
Original Assignee
Henan Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Polytechnic Institute filed Critical Henan Polytechnic Institute
Priority to CN202110798691.4A priority Critical patent/CN113505167A/zh
Publication of CN113505167A publication Critical patent/CN113505167A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明公开了一种链路预测关系推荐的用户数据预处理系统,所述数据预处理系统钩架包括:链路预测关系推荐层、数据层、数据处理层、系统管理层、业务层、应用层、数据访问层以及视图层。本发明通过分析具体预处理算法的特点并得到相应的智能推荐方案,构造一个多代理架构的数据预处理整体框架,框架将预处理算法、用户交互、系统调度等功能集成在整个系统中,链路预测关系层使该框架具有开放性和可扩充性,为不同背景下的预处理任务提供支持,针对数据预处理系统的智能化问题,知识发现模型代理描述数据预处理过程的各个部分,用知识库方式为用户提供一个科学的算法推荐方案,通过粗糙集理论对知识的分类能力,实现算法的智能推荐。

Description

一种链路预测关系推荐的用户数据预处理系统
技术领域
本发明涉及账本管理技术领域,更具体地说,本发明涉及一种链路预测关系推荐的用户数据预处理系统。
背景技术
随着物联网、移动互联网及智能手机的快速发展,数据产量呈指数式增长,大数据技术应运而生,由于各种因素,采集到的数据不可避免的出现质量问题,使用这些“脏数据”进行数据挖掘,可能导致不正确的知识挖掘和错误的数据分析,会给研究人员甚至企业带来误导和损失。为提高数据质量,需要对用户数据集进行数据预处理,特别是相似重复数据检测和异常数据检测尤为重要。
现有技术存在以下不足:现有数据预处理系统存在处理大规模数据效率低下、字段匹配算法选取不当以及检测精度依赖于特征选取,且数据预处理系统通用性差、不易扩展和对资源调度不够充分。
发明内容
本发明提供一种链路预测关系推荐的用户数据预处理系统,通过分析具体预处理算法的特点并得到相应的智能推荐方案,构造一个多代理架构的数据预处理整体框架,框架将预处理算法、用户交互、系统调度等功能集成在整个系统中,链路预测关系层使该框架具有开放性和可扩充性,为不同背景下的预处理任务提供支持,针对数据预处理系统的智能化问题,知识发现模型代理描述数据预处理过程的各个部分,用知识库方式为用户提供一个科学的算法推荐方案,通过粗糙集理论对知识的分类能力,实现算法的智能推荐,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种链路预测关系推荐的用户数据预处理系统,所述数据预处理系统钩架包括:链路预测关系推荐层、数据层、数据处理层、系统管理层、业务层、应用层、数据访问层以及视图层;
链路预测关系推荐层包括多个节点的数据集合,各所述节点携带有个人数据及关系数据;
数据层位于系统底层,是整个系统的数据提供层,由不同形式的数据组成,实现系统数据的存储,保证数据的完整性,数据存储的位置根据系统需要进行指定;
数据处理层包括对数据进行预处理操作,对外部数据源的抽取和转存操作,对数据的存储备份和历史数据的持久化存储,在减少各层间耦合性的同时,优化后续算法;
系统管理层包括解析用户提交的服务请求,得到相应任务的预处理任务计划,并按照得到的计划调度执行,中间管理层分为注册/注销、分析智能体和调度智能体,分别实现管理层的注册管理、任务分析管理和任务执行调度;
业务层汇集数据处理层的算法输出结果,并根据应用的具体需求,提供相应的服务接口;
应用层与用户进行交互,包括当前集群使用情况以及数据内容展示;
数据访问层对数据库的连接操作,通过数据库共享连接来对数据库进行访问;
视图层是系统与用户联系的窗口,用户通过前端页面对系统进行访问操作,系统将用户所能使用的功能按页面模块的形式展示给用户。
优选的,所述链路预测关系推荐层中,根据各所述节点的关系数据建立包括多个节点的关系网络图,根据各所述节点的个人数据建立各所述节点的属性向量空间,根据各所述节点的属性向量空间计算所述关系网络图中每任意两个节点之间的属性相似度,利用存在连边的两个节点之间的属性相似度对所述关系网络图中的该两个节点之间的连边进行加权处理,根据加权处理后的关系网络图进行链路预测,得到链路预测结果,其中,所述链路预测结果中包含所述关系网络图中任意两个不存在连边的节点之间建立链路的可能性,该可能性根据所述关系网络图中的连边信息和节点信息所建立。
优选的,所述链路预测关系推荐层获得加权处理后的关系网络图中的连边集合,并将所述连边集合划分为训练集合和测试集合,根据所述训练集合进行链路预测,得到预测结果,基于预设指标,根据所述测试集合中的连边关系及所述预测结果表征的连边关系得到预设指标值,获得链路预测结果。
优选的,所述不同形式的数据包括数据仓库、文件系统、用户提供的任务对象数据、离散化知识库以及决策规则知识库,数据层存储方式包括数据库以及文件存储。
优选的,所述注册/注销为审核和批准机构,负责管理服务提供代理人的注册、维护和注销,待定的服务代理人正式进入系统后,也可以申请离开系统,分析智能体从用户请求智能体处接受任务,通过分析任务,分解产生一个数据预处理计划,并将任务计划提交给调度智能体进行任务序列的调度执行,调度智能体调度整个系统中的服务提供代理,保证任务序列的顺利执行,并协调各智能体之间的协作运行。
优选的,所述分析智能体在任务分析后,对产生的任务序列采用联合结构、分离结构和混合结构设计,联合结构中,任务被划分为若干个子任务结点,每个子任务结点详细定义了其父节点的一个任务子集,分离结构有一个子任务结点完成保证其父节点完成任务,混合结构内部同时具有联合结构和分离结构,调度智能体从分析智能体处得到任务序列后,根据该任务序列进行任务的调度执行,其中具体的任务执行则是通过调度业务提供层的算法,智能体来执行的,执行完之后将处理结果传送给用户。
优选的,所述视图层生成包括动态生成和静态生,静态生成时通过超文本标记语言文件解析方式生成,动态生成时通过javascript将视图动态载入,
优选的,所述业务层提供数据清理、数据集成、数据选择、数据变换与数据归约,数据清洗消除数据中的噪声或不一致数据、推导空缺数据、消除重复记录以及识别并删除数据中的孤立点,数据集成把多种数据源组合在一起,数据选择从数据库中检索与分析任务相关的数据,数据变换与数据归约通过选择语言变量、划分语言值、连续属性离散化以及汇总或聚集把真实数据变换或统一成适合挖掘的形式,形成挖掘数据库。
优选的,所述数据预处理系统模块包括:系统管理模块、数据抽取转存模块、数据预处理模块、数据存储模块以及数据展示模块;
系统管理模块包括管理用户的角色权限、添加用户以及调整系统的体系架构;
数据抽取转存模块将海量数据按照规则从外部批量转换,通过解析用户编写的配置文件中的规则进行分布式处理,从外部不同类型的数据文件中抽取数据转换成本系统所需格式的数据,将数据按照类型存放在HDFS文件系统中,供后续预处理操作;
数据预处理模块对数据完整性以及一致性进行检测并完成数据填充修正,对数据集进行相似重复记录检测;
数据存储模块对海量数据存储和管理,采用Hadoop框架作为基础架构,提供分布式开发环境,使用MySQL和HBase数据库作为基础存储介质;
数据展示模块对数据进行预处理和存储后,所有信息和结果都应以图形化方式直观地展示给用户。
优选的,所述系统管理模块中系统服务对象包括用户和管理员:
(1)每个用户在系统中通过唯一的ID来进行标识,ID自动生成,同时使用用户名进行辅助标识,用户通过用户名和密码登陆系统;
(2)管理员具有对系统进行管理和维护的职能,具有特定的权限,主要体现在能够对系统中的人员体系架构进行调整,对角色对应的权限进行调整,对用户进行增删该查,对用户信息进行查看修改;
系统管理模块包含体系架构管理和用户管理两个次级模块:
(1)体系架构管理按用户所在组织、公司的人员体系架构在本系统中构建相同的体系架构,在体系架构建成之后,系统管理员能够对体系架构进行添加修改,系统角色按照体系架构中的用户职位一一对应,并将系统的资源权限挂靠在系统角色之上,同时系统管理员同样能够对角色权限进行修改添加,系统的权限和资源需要开发工程师进行维护;
(2)用户管理模块对系统中的用户进行操作,包含对用户的增删改查,同时在用户管理模块中能够对用户进行角色分配,也包含对用户角色修改。
本发明的技术效果和优点:
本发明通过分析具体预处理算法的特点并得到相应的智能推荐方案,构造一个多代理架构的数据预处理整体框架,框架将预处理算法、用户交互、系统调度等功能集成在整个系统中,链路预测关系层使该框架具有开放性和可扩充性,为不同背景下的预处理任务提供支持,针对数据预处理系统的智能化问题,知识发现模型代理描述数据预处理过程的各个部分,整个预处理过程即是一个多代理系统,引入智能化推荐模型,用知识库方式为用户提供一个科学的算法推荐方案,通过粗糙集理论对知识的分类能力,实现算法的智能推荐。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种链路预测关系推荐的用户数据预处理系统,所述数据预处理系统钩架包括:链路预测关系推荐层、数据层、数据处理层、系统管理层、业务层、应用层、数据访问层以及视图层;
链路预测关系推荐层包括多个节点的数据集合,各所述节点携带有个人数据及关系数据;
数据层位于系统底层,是整个系统的数据提供层,由不同形式的数据组成,实现系统数据的存储,保证数据的完整性,数据存储的位置根据系统需要进行指定;
数据处理层包括对数据进行预处理操作,对外部数据源的抽取和转存操作,对数据的存储备份和历史数据的持久化存储,在减少各层间耦合性的同时,优化后续算法;
系统管理层包括解析用户提交的服务请求,得到相应任务的预处理任务计划,并按照得到的计划调度执行,中间管理层分为注册/注销、分析智能体和调度智能体,分别实现管理层的注册管理、任务分析管理和任务执行调度;
业务层汇集数据处理层的算法输出结果,并根据应用的具体需求,提供相应的服务接口;
应用层与用户进行交互,包括当前集群使用情况以及数据内容展示;
数据访问层对数据库的连接操作,通过数据库共享连接来对数据库进行访问;
视图层是系统与用户联系的窗口,用户通过前端页面对系统进行访问操作,系统将用户所能使用的功能按页面模块的形式展示给用户。
进一步的,在上述技术方案中,所述链路预测关系推荐层中,根据各所述节点的关系数据建立包括多个节点的关系网络图,根据各所述节点的个人数据建立各所述节点的属性向量空间,根据各所述节点的属性向量空间计算所述关系网络图中每任意两个节点之间的属性相似度,利用存在连边的两个节点之间的属性相似度对所述关系网络图中的该两个节点之间的连边进行加权处理,根据加权处理后的关系网络图进行链路预测,得到链路预测结果,其中,所述链路预测结果中包含所述关系网络图中任意两个不存在连边的节点之间建立链路的可能性,该可能性根据所述关系网络图中的连边信息和节点信息所建立。
实施例1
用户构建数据挖掘案例提交任务,系统接收任务案例、接收数据文件或者连接到该数据库所在位置后,进行任务分解,得到子任务序列,离散化推荐引擎将文件转交给数据分析智能体,分析得到任务数据文件信息后,提交到离散化推荐智能体,智能控制智能体检查离散化数据库数据,进行粗糙集分析得到相应的离散化决策规则。
进一步的,在上述技术方案中,所述链路预测关系推荐层获得加权处理后的关系网络图中的连边集合,并将所述连边集合划分为训练集合和测试集合,根据所述训练集合进行链路预测,得到预测结果,基于预设指标,根据所述测试集合中的连边关系及所述预测结果表征的连边关系得到预设指标值,获得链路预测结果。
进一步的,在上述技术方案中,所述不同形式的数据包括数据仓库、文件系统、用户提供的任务对象数据、离散化知识库以及决策规则知识库,数据层存储方式包括数据库以及文件存储。
进一步的,在上述技术方案中,所述注册/注销为审核和批准机构,负责管理服务提供代理人的注册、维护和注销,待定的服务代理人正式进入系统后,也可以申请离开系统,分析智能体从用户请求智能体处接受任务,通过分析任务,分解产生一个数据预处理计划,并将任务计划提交给调度智能体进行任务序列的调度执行,调度智能体调度整个系统中的服务提供代理,保证任务序列的顺利执行,并协调各智能体之间的协作运行。
进一步的,在上述技术方案中,所述分析智能体在任务分析后,对产生的任务序列采用联合结构、分离结构和混合结构设计,联合结构中,任务被划分为若干个子任务结点,每个子任务结点详细定义了其父节点的一个任务子集,分离结构有一个子任务结点完成保证其父节点完成任务,混合结构内部同时具有联合结构和分离结构,调度智能体从分析智能体处得到任务序列后,根据该任务序列进行任务的调度执行,其中具体的任务执行则是通过调度业务提供层的算法,智能体来执行的,执行完之后将处理结果传送给用户。
进一步的,在上述技术方案中,所述视图层生成包括动态生成和静态生,静态生成时通过超文本标记语言文件解析方式生成,动态生成时通过javascript将视图动态载入,
进一步的,在上述技术方案中,所述业务层提供数据清理、数据集成、数据选择、数据变换与数据归约,数据清洗消除数据中的噪声或不一致数据、推导空缺数据、消除重复记录以及识别并删除数据中的孤立点,数据集成把多种数据源组合在一起,数据选择从数据库中检索与分析任务相关的数据,数据变换与数据归约通过选择语言变量、划分语言值、连续属性离散化以及汇总或聚集把真实数据变换或统一成适合挖掘的形式,形成挖掘数据库。
进一步的,在上述技术方案中,所述数据预处理系统模块包括:系统管理模块、数据抽取转存模块、数据预处理模块、数据存储模块以及数据展示模块;
系统管理模块包括管理用户的角色权限、添加用户以及调整系统的体系架构;
数据抽取转存模块将海量数据按照规则从外部批量转换,通过解析用户编写的配置文件中的规则进行分布式处理,从外部不同类型的数据文件中抽取数据转换成本系统所需格式的数据,将数据按照类型存放在HDFS文件系统中,供后续预处理操作;
数据预处理模块对数据完整性以及一致性进行检测并完成数据填充修正,对数据集进行相似重复记录检测;
数据存储模块对海量数据存储和管理,采用Hadoop框架作为基础架构,提供分布式开发环境,使用MySQL和HBase数据库作为基础存储介质;
数据展示模块对数据进行预处理和存储后,所有信息和结果都应以图形化方式直观地展示给用户。
实施例2
系统解析完数据配置文件后,数据抽取模块从外部数据文件中抽取数据,数据转存模块将数据以文本的形式存储下来,不同配置文件抽取的数据对应存放在不同文本中,并为文本生成可唯一识别的ID,文本按照配置文件中的字段顺序存储,这样在恢复数据时只需解析配置文件中的字段,便可识别记录中的值所对应的字段,数据抽取完成后,将抽取到的数据按照规定格式存储到HDFS文件系统中供后续预处理模块使用,数据预处理模块分为三部分,第一部分是数据的完整性、一致性、有效性检测,第二部分是相似重复数据检测,第三部分是异常数据检测,数据完整性、一致性、有效性检测从HDFS文件系统获取到要处理的数据后,对每个数据文件首先检测各属性是否含有缺失值,若属性值为空则用字符串‘null’进行填充,然后检测各属性是否一致,如电话号码这一属性,若属性值中出现‘-’、‘(’、‘)’和字母等无关字符时,将这些字符剔除,,最后检测各属性的有效性,如年龄属性,若出现负值和大于130的情况,将属性值进行修正,以该数据集年龄属性值的均值进行填充。
进一步的,在上述技术方案中,所述系统管理模块中系统服务对象包括用户和管理员:
(1)每个用户在系统中通过唯一的ID来进行标识,ID自动生成,同时使用用户名进行辅助标识,用户通过用户名和密码登陆系统;
(2)管理员具有对系统进行管理和维护的职能,具有特定的权限,主要体现在能够对系统中的人员体系架构进行调整,对角色对应的权限进行调整,对用户进行增删该查,对用户信息进行查看修改;
系统管理模块包含体系架构管理和用户管理两个次级模块:
(1)体系架构管理按用户所在组织、公司的人员体系架构在本系统中构建相同的体系架构,在体系架构建成之后,系统管理员能够对体系架构进行添加修改,系统角色按照体系架构中的用户职位一一对应,并将系统的资源权限挂靠在系统角色之上,同时系统管理员同样能够对角色权限进行修改添加,系统的权限和资源需要开发工程师进行维护;
(2)用户管理模块对系统中的用户进行操作,包含对用户的增删改查,同时在用户管理模块中能够对用户进行角色分配,也包含对用户角色修改。
实施例3
数据经过数据预处理模块的处理后,数据质量提高,数据存储模块的任务是将这些数据批量地导入到指定的数据库中,数据存储介质和存储方式需根据不同业务类型特征决定,对于与业务逻辑相关的数据,使用RDBMS进行强关系约束,而对结构要求较弱的重要性不强且数据规模庞大的数据,使用分布式存储方式,采用HBase数据库,数据存储不仅要存入RDBMS数据库中,还要存入HBase数据库中。
实施例4
数据展示模块使用BS架构,Web页面采用HTML实现,最后发布到Tomcat服务器,根据界面展示分布,数据展示模块还可细分为数据管理,完整性、一致性、有效性检测,相似重复数据检测和异常数据检测四个模块;
(1)数据管理模块:用户在登录系统后,默认展示的是数据管理模块,数据管理模块展示当前存储在HDFS分布式文件系统中各数据文件的属性、状态、权限等以及HDFS文件系统的使用情况,若点击某数据文件,则跳转显示存储在该文件的数据内容;
(2)完整性、一致性、有效性检测模块:在完整性、一致性、有效性检测模块中,用户可自行制定清洗规则;
(3)相似重复数据检测模块:在相似重复数据检测模块中,用户选择需要进行处理的数据文件后,界面将展示测重结果的可视化分析,若用户对检测结果满意,保留检测结果,并对重复数据进行合并处理,用户也可以自定义模型特征,制定不同的冗余检测方案;
(4)异常数据检测模块:在异常数据检测模块中,用户选择需要处理的文件后,界面将展示异常数据检测的可视化结果,用户可删除异常数据或者存储异常检测结果,重点关注异常对象,并且用户也可自定义模型特征,制定不同的异常检测方案。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述数据预处理系统钩架包括:链路预测关系推荐层、数据层、数据处理层、系统管理层、业务层、应用层、数据访问层以及视图层;
链路预测关系推荐层包括多个节点的数据集合,各所述节点携带有个人数据及关系数据;
数据层位于系统底层,是整个系统的数据提供层,由不同形式的数据组成,实现系统数据的存储,保证数据的完整性,数据存储的位置根据系统需要进行指定;
数据处理层包括对数据进行预处理操作,对外部数据源的抽取和转存操作,对数据的存储备份和历史数据的持久化存储,在减少各层间耦合性的同时,优化后续算法;
系统管理层包括解析用户提交的服务请求,得到相应任务的预处理任务计划,并按照得到的计划调度执行,中间管理层分为注册/注销、分析智能体和调度智能体,分别实现管理层的注册管理、任务分析管理和任务执行调度;
业务层汇集数据处理层的算法输出结果,并根据应用的具体需求,提供相应的服务接口;
应用层与用户进行交互,包括当前集群使用情况以及数据内容展示;
数据访问层对数据库的连接操作,通过数据库共享连接来对数据库进行访问;
视图层是系统与用户联系的窗口,用户通过前端页面对系统进行访问操作,系统将用户所能使用的功能按页面模块的形式展示给用户。
2.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述链路预测关系推荐层中,根据各所述节点的关系数据建立包括多个节点的关系网络图,根据各所述节点的个人数据建立各所述节点的属性向量空间,根据各所述节点的属性向量空间计算所述关系网络图中每任意两个节点之间的属性相似度,利用存在连边的两个节点之间的属性相似度对所述关系网络图中的该两个节点之间的连边进行加权处理,根据加权处理后的关系网络图进行链路预测,得到链路预测结果,其中,所述链路预测结果中包含所述关系网络图中任意两个不存在连边的节点之间建立链路的可能性,该可能性根据所述关系网络图中的连边信息和节点信息所建立。
3.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述链路预测关系推荐层获得加权处理后的关系网络图中的连边集合,并将所述连边集合划分为训练集合和测试集合,根据所述训练集合进行链路预测,得到预测结果,基于预设指标,根据所述测试集合中的连边关系及所述预测结果表征的连边关系得到预设指标值,获得链路预测结果。
4.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述不同形式的数据包括数据仓库、文件系统、用户提供的任务对象数据、离散化知识库以及决策规则知识库,数据层存储方式包括数据库以及文件存储。
5.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述注册/注销为审核和批准机构,负责管理服务提供代理人的注册、维护和注销,待定的服务代理人正式进入系统后,也可以申请离开系统,分析智能体从用户请求智能体处接受任务,通过分析任务,分解产生一个数据预处理计划,并将任务计划提交给调度智能体进行任务序列的调度执行,调度智能体调度整个系统中的服务提供代理,保证任务序列的顺利执行,并协调各智能体之间的协作运行。
6.根据权利要求5所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述分析智能体在任务分析后,对产生的任务序列采用联合结构、分离结构和混合结构设计,联合结构中,任务被划分为若干个子任务结点,每个子任务结点详细定义了其父节点的一个任务子集,分离结构有一个子任务结点完成保证其父节点完成任务,混合结构内部同时具有联合结构和分离结构,调度智能体从分析智能体处得到任务序列后,根据该任务序列进行任务的调度执行,其中具体的任务执行则是通过调度业务提供层的算法,智能体来执行的,执行完之后将处理结果传送给用户。
7.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述视图层生成包括动态生成和静态生,静态生成时通过超文本标记语言文件解析方式生成,动态生成时通过javascript将视图动态载入。
8.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述业务层提供数据清理、数据集成、数据选择、数据变换与数据归约,数据清洗消除数据中的噪声或不一致数据、推导空缺数据、消除重复记录以及识别并删除数据中的孤立点,数据集成把多种数据源组合在一起,数据选择从数据库中检索与分析任务相关的数据,数据变换与数据归约通过选择语言变量、划分语言值、连续属性离散化以及汇总或聚集把真实数据变换或统一成适合挖掘的形式,形成挖掘数据库。
9.根据权利要求1所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述数据预处理系统模块包括:系统管理模块、数据抽取转存模块、数据预处理模块、数据存储模块以及数据展示模块;
系统管理模块包括管理用户的角色权限、添加用户以及调整系统的体系架构;
数据抽取转存模块将海量数据按照规则从外部批量转换,通过解析用户编写的配置文件中的规则进行分布式处理,从外部不同类型的数据文件中抽取数据转换成本系统所需格式的数据,将数据按照类型存放在HDFS文件系统中,供后续预处理操作;
数据预处理模块对数据完整性以及一致性进行检测并完成数据填充修正,对数据集进行相似重复记录检测;
数据存储模块对海量数据存储和管理,采用Hadoop框架作为基础架构,提供分布式开发环境,使用MySQL和HBase数据库作为基础存储介质;
数据展示模块对数据进行预处理和存储后,所有信息和结果都应以图形化方式直观地展示给用户。
10.根据权利要求9所述的一种链路预测关系推荐的用户数据预处理系统,其特征在于:所述系统管理模块中系统服务对象包括用户和管理员:
(1)每个用户在系统中通过唯一的ID来进行标识,ID自动生成,同时使用用户名进行辅助标识,用户通过用户名和密码登陆系统;
(2)管理员具有对系统进行管理和维护的职能,具有特定的权限,主要体现在能够对系统中的人员体系架构进行调整,对角色对应的权限进行调整,对用户进行增删该查,对用户信息进行查看修改;
系统管理模块包含体系架构管理和用户管理两个次级模块:
(1)体系架构管理按用户所在组织、公司的人员体系架构在本系统中构建相同的体系架构,在体系架构建成之后,系统管理员能够对体系架构进行添加修改,系统角色按照体系架构中的用户职位一一对应,并将系统的资源权限挂靠在系统角色之上,同时系统管理员同样能够对角色权限进行修改添加,系统的权限和资源需要开发工程师进行维护;
(2)用户管理模块对系统中的用户进行操作,包含对用户的增删改查,同时在用户管理模块中能够对用户进行角色分配,也包含对用户角色修改。
CN202110798691.4A 2021-07-15 2021-07-15 一种链路预测关系推荐的用户数据预处理系统 Withdrawn CN113505167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110798691.4A CN113505167A (zh) 2021-07-15 2021-07-15 一种链路预测关系推荐的用户数据预处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110798691.4A CN113505167A (zh) 2021-07-15 2021-07-15 一种链路预测关系推荐的用户数据预处理系统

Publications (1)

Publication Number Publication Date
CN113505167A true CN113505167A (zh) 2021-10-15

Family

ID=78013339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110798691.4A Withdrawn CN113505167A (zh) 2021-07-15 2021-07-15 一种链路预测关系推荐的用户数据预处理系统

Country Status (1)

Country Link
CN (1) CN113505167A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982501A (zh) * 2023-01-06 2023-04-18 广州佰瑞医药有限公司 一种轻量级高性能的PHPWeb系统框架及工作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982501A (zh) * 2023-01-06 2023-04-18 广州佰瑞医药有限公司 一种轻量级高性能的PHPWeb系统框架及工作方法
CN115982501B (zh) * 2023-01-06 2023-09-08 广州佰瑞医药有限公司 一种轻量级高性能的PHPWeb系统框架及工作方法

Similar Documents

Publication Publication Date Title
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
Begoli et al. Design principles for effective knowledge discovery from big data
CN103400246B (zh) 一种基于云架构的核电厂风险监测系统及监测方法
CN110502509B (zh) 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置
US20070282470A1 (en) Method and system for capturing and reusing intellectual capital in IT management
CN107103064B (zh) 数据统计方法及装置
CN103226743A (zh) 基于trl的航空装备技术成熟度评估信息处理方法
CN107343010B (zh) 面向类型化资源的自动安全态势感知、分析与报警系统
CN114925045A (zh) 大数据集成和管理的PaaS平台
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN111753034A (zh) 一种一站式地理大数据平台
CN113468159A (zh) 一种数据应用全链路管控方法及系统
Tao et al. Research on marketing management system based on independent ERP and business BI using fuzzy TOPSIS
CN109213826A (zh) 数据处理方法和设备
Wang Smart data mining algorithm for intelligent education
CN113505167A (zh) 一种链路预测关系推荐的用户数据预处理系统
CN114238463A (zh) 一种用于分布式指标计算的计算引擎控制方法和装置
CN115168474B (zh) 一种基于大数据模型的物联中台系统搭建方法
US9305066B2 (en) System and method for remote data harmonization
van der Goes Scaling enterprise recommender systems for decentralization
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
Santos et al. Using relational algebra on the specification of real world ETL processes
CN112163010A (zh) 一种数据库的跨数据源查询方法及装置
CN110399337A (zh) 基于数据驱动的文件自动化服务方法和系统
CN113868322B (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211015