CN104462458A - 大数据系统的数据挖掘方法 - Google Patents

大数据系统的数据挖掘方法 Download PDF

Info

Publication number
CN104462458A
CN104462458A CN201410783567.0A CN201410783567A CN104462458A CN 104462458 A CN104462458 A CN 104462458A CN 201410783567 A CN201410783567 A CN 201410783567A CN 104462458 A CN104462458 A CN 104462458A
Authority
CN
China
Prior art keywords
data
retrieval
sample data
submodel
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410783567.0A
Other languages
English (en)
Inventor
刘焰龙
高辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Leruisi Information Consulting Co Ltd
Original Assignee
Wuhu Leruisi Information Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Leruisi Information Consulting Co Ltd filed Critical Wuhu Leruisi Information Consulting Co Ltd
Priority to CN201410783567.0A priority Critical patent/CN104462458A/zh
Publication of CN104462458A publication Critical patent/CN104462458A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及网络技术及数据处理方法领域,具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法,其特征在于包括以下步骤:从逻辑数据库中抽取样本数据进行预处理,设定检索顺序,建立检索子模型,检索子模型对输入的样本数据进行运算,输出检索结果,本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有低复杂度、检索快速等显著的优点。

Description

大数据系统的数据挖掘方法
技术领域:
本发明涉及网络技术及数据处理方法领域,具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。
背景技术:
随着信息技术的高度发展,人们积累的数据量日益增长,如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容进行检索和管理的数据集,其具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。目前检索时,用户通常希望能快速的从已有资料中获得自己需要的东西,这就涉及一个准确率和速度的问题,现阶段的数据检索方法例如KD-tree,M-tree等在数据维度小于10维时能够取得良好的效果,但对于大数据系统不适用。另外,网络检索过程中,用户越来越多的追求快速获得相同或相似的结果,现有的检索方法在近似检索中受到局限。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。
本发明可以通过以下措施达到:
一种大数据系统的数据挖掘方法,其特征在于包括以下步骤:
步骤1:从逻辑数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类;
步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型;
步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中;
步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型;
步骤5:输出检索结果。
本发明所述检索子模型可以采用哈希函数检索模型,检索子模型的建立包括以下步骤:
步骤3-1:从逻辑数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3-2:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
min B , S | | X - BS | | 2 + λ 1 Σ i , j w i , j | | s i - s j | | 2 + λ 2 | | S | | 1 , s . t . , S > 0 , Σ i B i , j 2 ≤ 1 ,其中X为训练集,B为基空间,B的每一个向量均为训练集X中训练出来的基向量,S是X被投影在基空间B上的低维实数值,λ1和λ2是通过十折交叉验证方法取得的可调参数,wi,j是X中两个实例Xi和Xj之间的欧式距离在高斯核上的投影,Si和Sj是矩阵S中的两个向量,Bi,j是矩阵B中第i行和第j列的元素,i=1,2,3,……,n为表示实例的记号,j=1,2,3,……k表示基向量的标号,n是实例的个数,k是基向量的个数,s>0表示S中每个元素非负;
步骤3-3:对大数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤3-2中定义的基空间,I是跟B同维度的单位矩阵,这样对整个大数据数据库进行编码;
步骤3-4:对新进入的测试实例xt通过s=(B’B+2I)-1B’x运算得到xt的低维实数值,然后通过哈希函数得到它的低维二进制代码,把测试实例的二进制代码跟大数据的二进制代码进行相似性检索,以得到与其相似的实例。
本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有低复杂度、检索快速等显著的优点。
附图说明:
附图1是本发明的流程图。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图1所示,本发明提出了一种大数据系统的数据挖掘方法,其特征在于包括以下步骤:
步骤1:从逻辑数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类;
步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型;
步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中;
步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型;
步骤5:输出检索结果。
本发明所述检索子模型可以采用哈希函数检索模型,检索子模型的建立包括以下步骤:
步骤3-1:从逻辑数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3-2:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
min B , S | | X - BS | | 2 + λ 1 Σ i , j w i , j | | s i - s j | | 2 + λ 2 | | S | | 1 , s . t . , S > 0 , Σ i B i , j 2 ≤ 1 ,其中X为训练集,B为基空间,B的每一个向量均为训练集X中训练出来的基向量,S是X被投影在基空间B上的低维实数值,λ1和λ2是通过十折交叉验证方法取得的可调参数,wi,j是X中两个实例Xi和Xj之间的欧式距离在高斯核上的投影,Si和Sj是矩阵S中的两个向量,Bi,j是矩阵B中第i行和第j列的元素,i=1,2,3,……,n为表示实例的记号,j=1,2,3,……k表示基向量的标号,n是实例的个数,k是基向量的个数,s>0表示S中每个元素非负;
步骤3-3:对大数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤3-2中定义的基空间,I是跟B同维度的单位矩阵,这样对整个大数据数据库进行编码;
步骤3-4:对新进入的测试实例xt通过s=(B’B+2I)-1B’x运算得到xt的低维实数值,然后通过哈希函数得到它的低维二进制代码,把测试实例的二进制代码跟大数据的二进制代码进行相似性检索,以得到与其相似的实例。
本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有低复杂度、检索快速等显著的优点。

Claims (3)

1.一种大数据系统的数据挖掘方法,其特征在于包括以下步骤:
步骤1:从逻辑数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类;
步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型;
步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中;
步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型;
步骤5:输出检索结果。
2.根据权利要求1所述的一种大数据系统的数据挖掘方法,其特征在于所述检索子模型采用哈希函数检索模型,检索子模型的建立包括以下步骤:
步骤3-1:从逻辑数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3-2:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
,其中X为训练集,B为基空间,B的每一个向量均为训练集X中训练出来的基向量,S是X被投影在基空间B上的低维实数值,λ1和λ2是通过十折交叉验证方法取得的可调参数,wi,j是X中两个实例Xi和Xj之间的欧式距离在高斯核上的投影,Si和Sj是矩阵S中的两个向量,Bi,j是矩阵B中第i行和第j列的元素,i=1,2,3,……,n为表示实例的记号,j=1,2,3,……k表示基向量的标号,n是实例的个数,k是基向量的个数,s>0表示S中每个元素非负;
步骤3-3:对大数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤3-2中定义的基空间,I是跟B同维度的单位矩阵,这样对整个大数据数据库进行编码。
3.根据权利要求2所述的一种大数据系统的数据挖掘方法,其特征在于还包括对新进入的测试实例xt通过s=(B’B+2I)-1B’x运算得到xt的低维实数值,然后通过哈希函数得到它的低维二进制代码,把测试实例的二进制代码跟大数据的二进制代码进行相似性检索,以得到与其相似的实例。
CN201410783567.0A 2014-12-16 2014-12-16 大数据系统的数据挖掘方法 Pending CN104462458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410783567.0A CN104462458A (zh) 2014-12-16 2014-12-16 大数据系统的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410783567.0A CN104462458A (zh) 2014-12-16 2014-12-16 大数据系统的数据挖掘方法

Publications (1)

Publication Number Publication Date
CN104462458A true CN104462458A (zh) 2015-03-25

Family

ID=52908493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410783567.0A Pending CN104462458A (zh) 2014-12-16 2014-12-16 大数据系统的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN104462458A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506702A (zh) * 2016-12-28 2017-03-15 芜湖乐锐思信息咨询有限公司 新型智能医疗信息管理系统
CN106790139A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 基于云计算的安全用户数据处理系统
WO2021017293A1 (zh) * 2019-08-01 2021-02-04 平安科技(深圳)有限公司 规则训练方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529813A (zh) * 2006-10-25 2009-09-09 汤姆逊许可公司 用于帧分类的方法和系统
CN101872353A (zh) * 2009-04-21 2010-10-27 韩国电子通信研究院 用于保护数字内容著作权的分布式过滤装置及其方法
US7885941B2 (en) * 2003-08-14 2011-02-08 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
CN102880685A (zh) * 2012-09-13 2013-01-16 北京航空航天大学 一种时间密集大数据量的b/s分区间分页查询方法
CN103116636A (zh) * 2013-02-07 2013-05-22 中国科学院软件研究所 基于特征空间分解的文本大数据主题挖掘方法和装置
CN103605653A (zh) * 2013-09-29 2014-02-26 广西师范大学 基于稀疏哈希的大数据检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885941B2 (en) * 2003-08-14 2011-02-08 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
CN101529813A (zh) * 2006-10-25 2009-09-09 汤姆逊许可公司 用于帧分类的方法和系统
CN101872353A (zh) * 2009-04-21 2010-10-27 韩国电子通信研究院 用于保护数字内容著作权的分布式过滤装置及其方法
CN102880685A (zh) * 2012-09-13 2013-01-16 北京航空航天大学 一种时间密集大数据量的b/s分区间分页查询方法
CN103116636A (zh) * 2013-02-07 2013-05-22 中国科学院软件研究所 基于特征空间分解的文本大数据主题挖掘方法和装置
CN103605653A (zh) * 2013-09-29 2014-02-26 广西师范大学 基于稀疏哈希的大数据检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506702A (zh) * 2016-12-28 2017-03-15 芜湖乐锐思信息咨询有限公司 新型智能医疗信息管理系统
CN106790139A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 基于云计算的安全用户数据处理系统
WO2021017293A1 (zh) * 2019-08-01 2021-02-04 平安科技(深圳)有限公司 规则训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105069173B (zh) 基于有监督的拓扑保持哈希的快速图像检索方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN102254015B (zh) 基于视觉词组的图像检索方法
CN101620615B (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN101673398B (zh) 基于免疫稀疏谱聚类的图像分割方法
CN103258037A (zh) 一种针对多组合内容的商标识别检索方法
CN103699902A (zh) 一种地基可见光云图的分类方法
Yue et al. Robust loop closure detection based on bag of superpoints and graph verification
CN102663401B (zh) 一种图像特征提取和描述方法
CN104361342A (zh) 一种基于几何不变形状特征的在线植物物种识别方法
CN104036296A (zh) 一种图像的表示和处理方法及装置
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN101986295B (zh) 基于流形稀疏编码的图像聚类的方法
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN110347857A (zh) 基于强化学习的遥感影像的语义标注方法
CN105574265B (zh) 面向模型检索的装配体模型定量描述方法
CN108021878B (zh) 一种等高线负向地貌智能识别方法
CN104484432A (zh) 基于四元数指数矩的彩色图像检索方法
CN104462458A (zh) 大数据系统的数据挖掘方法
CN103473308A (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN103617417B (zh) 植物自动识别方法和系统
CN107909073A (zh) 多维局部二值模式和机器学习手写乐谱谱线删除方法
CN103279581A (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
CN110175548A (zh) 基于注意力机制和通道信息的遥感图像建筑物提取方法
CN104965928A (zh) 一种基于形状匹配的汉字图像检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325