CN106649791A - 集约型信息管理系统 - Google Patents
集约型信息管理系统 Download PDFInfo
- Publication number
- CN106649791A CN106649791A CN201611236222.9A CN201611236222A CN106649791A CN 106649791 A CN106649791 A CN 106649791A CN 201611236222 A CN201611236222 A CN 201611236222A CN 106649791 A CN106649791 A CN 106649791A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- window
- fingerprint value
- processing module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体地说是一种处理效率高、分析准确的基于多形式处理的大数据分析系统,其特征在于一种集约型信息管理系统,其特征在于设有管控平台和至少两个本地节点,所述管控平台与本地节点经网络相连接,所述管控平台中设有数据库模块、数据处理模块,本发明与现有技术相比,能够根据使用者的需求,对于输入的数据进行多角度、多属性、多形式的挖掘处理,并将挖掘结果进一步融合分析后,进行分类、估值、聚集、可视化等处理,具有结构合理、操作简便等显著的优点。
Description
技术领域:
本发明涉及数据处理技术领域,具体地说是一种处理效率高、分析准确的集约型信息管理系统。
背景技术:
随着信息技术的高度发展,人们积累的数据量日益增长,如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容进行检索和管理的数据集,其具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。由于数据种类繁多,在对其进行处理时,会根据数据类型的不同以及处理目的的不同选择不同的数据处理算法,而这些算法处理得到的结果如何进一步汇总得到有效运用是亟待解决的问题。
云计算按云服务的对象不同分为公有云、私有云。公有云是面向外部用户需求,通过开放网络提供云计算服务,如IDC,GoogleApp等。私有云是指企业或者组织内部按照云计算架构搭建一个内部使用的云计算平台,并根据企业内部需求提供云计算服务。如在地震资料处理行业中,基于现有的大规模集群系统搭建一个私有云计算平台可以极大的提高地震资料处理速度。私有云平台的搭建需要着重考虑组件之间数据与信息的交换,组件之间的通信状况严重影响系统提供的云计算能力。进程通信(IPC)技术是指通过专门的通信机制实现进程间交换大量信息的通信技术。对集群计算和云计算而言,进程通信是系统的核心组件,进程通信为系统上层的各计算组件协调工作,为完成海量计算任务提供了可能。现有私有云系统的进程通信仍然采用复杂的分布式进程通信方式,如CORBA(Common ObjectRequest Broker Architecture)。CORBA全称是公共对象请求代理体系结构,是由OMG[7](Ojbect Management Group)定义的通信标准,其使用了独立于软硬件平台的IDL[8](interface definition language)语言层对数据进行包裹,目标是实现不同平台不同语言的程序之间相互交互。CORBA在通信域内有一个服务器节点负责处理客户机节点的对象请求,服务器节点完成客户机节点通信信息的转发与路由工作,CORBA的体系结构如图1所示:在集群环境和私有云环境下,随着系统的组件日益复杂,CORBA通信技术存在一定的缺陷。首先,CORBA的通信方式是同步的,客户向服务器发送请求后,阻塞等待服务器处理,并在处理结果返回后才能进行下一步动作;其次,客户和服务器通信的对象是紧密耦合的,其生命周期很难把握,提高了系统编程的复杂性;最后,面对日益复杂的通信系统,点对点通信已经不能满足通信需求,如在地震资料处理行业的集群系统中,由于系统组件之间通信量大且系统计算任务相对单一,现有的点对点通信就很难满足通信需求。此外如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。网络冗余删除技术作为一种新型的网络压缩技术受到学术界和工业界的广泛关注,其主要功能是识别网络中重复传输的数据,极大地缩减网络传输数据量,提高网络带宽的利用率,从而提高应用性能和节省运营成本。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种处理效率高、分析准确的集约型信息管理系统。
本发明可以通过以下措施达到:
一种集约型信息管理系统,其特征在于设有管控平台和至少两个本地节点,所述管控平台与本地节点经网络相连接,所述管控平台中设有数据库模块、数据处理模块,其中数据处理模块与数据库模块相连接,数据处理模块包括用于获取关键信息的数据抽取模块、用于对获取的数据进行预处理的预处理模块、数据简约处理模块、用于对处理方式进行选择的参数设置模块、用于对数据进行分析运算的数据挖掘模块、用于对多项挖掘结果进行融合的数据融合模块、用于输出融合后最终结果的显示输出模块,所述管控平台还设有网络通信模块,网络通信模块用于建立与本地节点的网路通信时启动后绑定固定端口号,然后开始监听该端口以等待网络连接请求;收到新的连接请求后,建立接收会话连接等待接收LAN数据,并将新连接添加至接收会话连接信息表中,统一管理方便查询。
本发明所述数据简约处理模块对获取的数据进行以下处理:在待计算数据内容的字节序列中确定窗口长度;确定并行计算的窗口数及跳转间隔;根据已算得的窗口指纹值并行计算各窗口的指纹值,其中所述窗口指纹值的计算方式为:RF(α1、α2、α3……αβ)=(α1pβ+α2pβ‐1+…+αβ‐1p+αβ)modM;其中α1、α2、α3……αβ为待计算数据内容中的字节序列,RF(α1、α2、α3……αβ)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;所述根据已算得的窗口指纹值并行计算各窗口的指纹值由下式计算:RF(αi+1、αi+2、αi+3……αi+β)=(RF(αi、αi+1、αi+2……αi+β‐1)‐αi×pβ)×p+αi+βmodM;其中αi+1、αi+2、αi+3……αi+β为待计算数据内容中的字节序列,RF(αi、αi+1、αi+2……αi+β‐1)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;标记窗口指纹值符合预定的数据分块边界条件的窗口位置为数据分块边界,其中,窗口指纹值符合预定的数据分块条件,则将当前滑动窗口的右边界所在位置标记为数据分块的边界;计算数据分块的散列值,并标记数据分块的散列值与已存储的数据分块散列值相等的为冗余数据块。
本发明中所述窗口指纹值由拉宾指纹函数计算;所述跳转间隔为所述并行计算的窗口数的整数倍;所述跳转间隔不是所述并行计算的窗口数的整数倍;所述跳转间隔中重叠计算的窗口指纹值用于校验;所述并行计算的窗口位于同一跳转间隔中;所述并行计算的窗口位于不同跳转间隔中;以散列值与引用信息替代所述标记为冗余数据块的数据进行所述数据块的存储。
本发明所述数据融合模块包括用于获取两个以上运算模型输出结果的数据获取模块;用于对数据获取模块获取数据进行有效范围筛选的筛选模块、用于对筛选后数据进行权值分配的权值分配模块、用于对分配权值后数据进行融合的数据融合算法模块以及用于输出数据融合结果的显示输出模块。
本发明所述数据融合算法模块中设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明所述数据融合模块与显示输出模块之间还设有分类模块、估值模块、聚集模块。
本发明所述预处理模块中设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
本发明所述数据挖掘模块设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明与现有技术相比,能够根据使用者的需求,对于输入的数据进行多角度、多属性、多形式的挖掘处理,并将挖掘结果进一步融合分析后,进行分类、估值、聚集、可视化等处理,具有结构合理、操作简便等显著的优点。
附图说明:
附图1是本发明的结构框图。
附图2是本发明中预处理模块的结构框图。
附图3是本发明中数据融合模块的结构框图。
附图标记:数据抽取模块1、预处理模块2、参数设置模块3、数据挖掘模块4、数据融合模块5、显示输出模块6、数据获取模块7、筛选模块8、权值分配模块9、数据融合算法模块10、显示输出模块11、离散化处理模块12、属性增/删模块13、属性位置互换模块14、添加ID属性模块15、数据噪声处理模块16、网络通信模块17、数据简约处理模块18。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图1所示,本发明提出了一种集约型信息管理系统,其特征在于设有管控平台和至少两个本地节点,所述管控平台与本地节点经网络相连接,所述管控平台中设有数据库模块、数据处理模块,其中数据处理模块与数据库模块相连接,数据处理模块包括用于获取关键信息的数据抽取模块1、用于对获取的数据进行预处理的预处理模块2、数据简约处理模块18、用于对处理方式进行选择的参数设置模块3、用于对数据进行分析运算的数据挖掘模块4、用于对多项挖掘结果进行融合的数据融合模块5、用于输出融合后最终结果的显示输出模块6,所述管控平台还设有网络通信模块17,网络通信模块用于建立与本地节点的网路通信时启动后绑定固定端口号,然后开始监听该端口以等待网络连接请求;收到新的连接请求后,建立接收会话连接等待接收LAN数据,并将新连接添加至接收会话连接信息表中,统一管理方便查询。
本发明中所述数据简约处理模块18对数据接收模块获取的数据进行以下处理:在待计算数据内容的字节序列中确定窗口长度;确定并行计算的窗口数及跳转间隔;根据已算得的窗口指纹值并行计算各窗口的指纹值,其中所述窗口指纹值的计算方式为:RF(α1、α2、α3……αβ)=(α1pβ+α2pβ‐1+…+αβ‐1p+αβ)modM;其中α1、α2、α3……αβ为待计算数据内容中的字节序列,RF(α1、α2、α3……αβ)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;所述根据已算得的窗口指纹值并行计算各窗口的指纹值由下式计算:RF(αi+1、αi+2、αi+3……αi+β)=(RF(αi、αi+1、αi+2……αi+β‐1)‐αi×pβ)×p+αi+βmodM;其中αi+1、αi+2、αi+3……αi+β为待计算数据内容中的字节序列,RF(αi、αi+1、αi+2……αi+β‐1)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;标记窗口指纹值符合预定的数据分块边界条件的窗口位置为数据分块边界,其中,窗口指纹值符合预定的数据分块条件,则将当前滑动窗口的右边界所在位置标记为数据分块的边界;计算数据分块的散列值,并标记数据分块的散列值与已存储的数据分块散列值相等的为冗余数据块。
本发明中所述窗口指纹值由拉宾指纹函数计算;所述跳转间隔为所述并行计算的窗口数的整数倍;所述跳转间隔不是所述并行计算的窗口数的整数倍;所述跳转间隔中重叠计算的窗口指纹值用于校验;所述并行计算的窗口位于同一跳转间隔中;所述并行计算的窗口位于不同跳转间隔中;以散列值与引用信息替代所述标记为冗余数据块的数据进行所述数据块的存储。
如附图3所示,本发明所述数据融合模块5包括用于获取两个以上运算模型输出结果的数据获取模块7;用于对数据获取模块获取数据进行有效范围筛选的筛选模块8、用于对筛选后数据进行权值分配的权值分配模块9、用于对分配权值后数据进行融合的数据融合算法模块10以及用于输出数据融合结果的显示输出模块11。
本发明所述数据融合算法模块中设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明所述数据融合模块与显示输出模块之间还设有分类模块、估值模块、聚集模块。
如附图2所示,本发明所述预处理模块2中设有离散化处理模块12、属性增/删模块13、属性位置互换模块14、添加ID属性模块15、数据噪声处理模块16。
本发明所述数据挖掘模块设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明与现有技术相比,能够根据使用者的需求,对于输入的数据进行多角度、多属性、多形式的挖掘处理,并将挖掘结果进一步融合分析后,进行分类、估值、聚集、可视化等处理,具有结构合理、操作简便等显著的优点。
Claims (8)
1.一种集约型信息管理系统,其特征在于设有管控平台和至少两个本地节点,所述管控平台与本地节点经网络相连接,所述管控平台中设有数据库模块、数据处理模块,其中数据处理模块与数据库模块相连接,数据处理模块包括用于获取关键信息的数据抽取模块、用于对获取的数据进行预处理的预处理模块、数据简约处理模块、用于对处理方式进行选择的参数设置模块、用于对数据进行分析运算的数据挖掘模块、用于对多项挖掘结果进行融合的数据融合模块、用于输出融合后最终结果的显示输出模块,所述管控平台还设有网络通信模块,网络通信模块用于建立与本地节点的网路通信时启动后绑定固定端口号,然后开始监听该端口以等待网络连接请求;收到新的连接请求后,建立接收会话连接等待接收LAN数据,并将新连接添加至接收会话连接信息表中,统一管理方便查询。
2.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述数据简约模块对数据接收模块获取的数据进行以下处理:在待计算数据内容的字节序列中确定窗口长度;确定并行计算的窗口数及跳转间隔;根据已算得的窗口指纹值并行计算各窗口的指纹值,其中所述窗口指纹值的计算方式为:RF(α1、α2、α3……αβ)=(α1pβ+α2pβ‐1+…+αβ‐1p+αβ)modM;其中α1、α2、α3……αβ为待计算数据内容中的字节序列,RF(α1、α2、α3……αβ)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;所述根据已算得的窗口指纹值并行计算各窗口的指纹值由下式计算:RF(αi+1、αi+2、αi+3……αi+β)=(RF(αi、αi+1、αi+2……αi+β‐1)‐αi×pβ)×p+αi+βmodM;其中αi+1、αi+2、αi+3……αi+β为待计算数据内容中的字节序列,RF(αi、αi+1、αi+2……αi+β‐1)表示窗口长度为β的字节序列的指纹值,p和M为可选的常数;标记窗口指纹值符合预定的数据分块边界条件的窗口位置为数据分块边界,其中,窗口指纹值符合预定的数据分块条件,则将当前滑动窗口的右边界所在位置标记为数据分块的边界;计算数据分块的散列值,并标记数据分块的散列值与已存储的数据分块散列值相等的为冗余数据块。
3.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述窗口指纹值由拉宾指纹函数计算;所述跳转间隔为所述并行计算的窗口数的整数倍;所述跳转间隔不是所述并行计算的窗口数的整数倍;所述跳转间隔中重叠计算的窗口指纹值用于校验;所述并行计算的窗口位于同一跳转间隔中;所述并行计算的窗口位于不同跳转间隔中;以散列值与引用信息替代所述标记为冗余数据块的数据进行所述数据块的存储。
4.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述数据融合模块包括用于获取两个以上运算模型输出结果的数据获取模块;用于对数据获取模块获取数据进行有效范围筛选的筛选模块、用于对筛选后数据进行权值分配的权值分配模块、用于对分配权值后数据进行融合的数据融合算法模块以及用于输出数据融合结果的显示输出模块。
5.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述数据融合算法模块中设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
6.根据权利要求3所述的一种基于多形式处理的大数据分析系统,其特征在于所述数据融合模块与显示输出模块之间还设有分类模块、估值模块、聚集模块。
7.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述预处理模块中设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
8.根据权利要求1所述的一种基于多形式处理的大数据分析系统,其特征在于所述数据挖掘模块设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611236222.9A CN106649791A (zh) | 2016-12-28 | 2016-12-28 | 集约型信息管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611236222.9A CN106649791A (zh) | 2016-12-28 | 2016-12-28 | 集约型信息管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649791A true CN106649791A (zh) | 2017-05-10 |
Family
ID=58832280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611236222.9A Pending CN106649791A (zh) | 2016-12-28 | 2016-12-28 | 集约型信息管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649791A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291467A (zh) * | 2011-09-15 | 2011-12-21 | 电子科技大学 | 一种适应私有云环境的通信平台和通信方法 |
CN102495957A (zh) * | 2011-11-30 | 2012-06-13 | 中国航空工业集团公司第六三一研究所 | 一种提供远程身体状态处理的系统及方法 |
CN103078709A (zh) * | 2013-01-05 | 2013-05-01 | 中国科学院深圳先进技术研究院 | 数据冗余识别方法 |
CN104484412A (zh) * | 2014-12-16 | 2015-04-01 | 芜湖乐锐思信息咨询有限公司 | 基于多形式处理的大数据分析系统 |
CN104484410A (zh) * | 2014-12-16 | 2015-04-01 | 芜湖乐锐思信息咨询有限公司 | 应用于大数据系统的数据融合方法及系统 |
CN104699985A (zh) * | 2015-03-26 | 2015-06-10 | 西安电子科技大学 | 一种医疗大数据采集分析系统及方法 |
-
2016
- 2016-12-28 CN CN201611236222.9A patent/CN106649791A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291467A (zh) * | 2011-09-15 | 2011-12-21 | 电子科技大学 | 一种适应私有云环境的通信平台和通信方法 |
CN102495957A (zh) * | 2011-11-30 | 2012-06-13 | 中国航空工业集团公司第六三一研究所 | 一种提供远程身体状态处理的系统及方法 |
CN103078709A (zh) * | 2013-01-05 | 2013-05-01 | 中国科学院深圳先进技术研究院 | 数据冗余识别方法 |
CN104484412A (zh) * | 2014-12-16 | 2015-04-01 | 芜湖乐锐思信息咨询有限公司 | 基于多形式处理的大数据分析系统 |
CN104484410A (zh) * | 2014-12-16 | 2015-04-01 | 芜湖乐锐思信息咨询有限公司 | 应用于大数据系统的数据融合方法及系统 |
CN104699985A (zh) * | 2015-03-26 | 2015-06-10 | 西安电子科技大学 | 一种医疗大数据采集分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102495851B (zh) | 时序数据的存储和查询方法、系统及装置 | |
CN109582667A (zh) | 一种基于电力调控大数据的多数据库混合存储方法及系统 | |
CN106790718A (zh) | 服务调用链路分析方法及系统 | |
WO2019134483A1 (zh) | 多维约束下路径计算方法、装置、处理器及存储介质 | |
CN107896160B (zh) | 一种基于分布式系统的数据中心网络流量建模方法 | |
CN102938708B (zh) | 基于告警传播模式的告警相关性分析系统及其分析方法 | |
CN106547882A (zh) | 一种智能电网中营销大数据的实时处理方法及系统 | |
CN108228724A (zh) | 基于图数据库的电网gis拓扑分析方法及存储介质 | |
CN110740054B (zh) | 一种基于强化学习的数据中心虚拟化网络故障诊断方法 | |
CN107194533B (zh) | 一种配电网全信息模型构建方法及系统 | |
CN102315974A (zh) | 基于层次化特征分析的tcp、udp流量在线识别方法和装置 | |
CN107634848A (zh) | 一种采集分析网络设备信息的系统和方法 | |
CN102611626B (zh) | 网络流量解析系统及方法 | |
CN110502509A (zh) | 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置 | |
CN108200111A (zh) | 资源配置信息更新方法、装置和资源接口设备 | |
CN106570145B (zh) | 一种基于分层映射的分布式数据库结果缓存方法 | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
CN104486116A (zh) | 多维度查询流量数据的方法及系统 | |
CN103281211A (zh) | 大规模网络节点分组管理系统及管理方法 | |
CN103916478B (zh) | 基于分布式系统的流式构建数据方的方法和装置 | |
US11836637B2 (en) | Construction method of human-object-space interaction model based on knowledge graph | |
CN102868601B (zh) | 一种有关基于图形配置数据库业务网络拓扑的路由系统 | |
CN101252480B (zh) | 一种建立多媒体网页浏览业务模型的实现方法 | |
CN110377757A (zh) | 一种实时知识图谱构建系统 | |
CN104270466A (zh) | 数据上报方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |