CN108009195A - 一种基于大数据的降维转换方法、电子设备、存储介质 - Google Patents

一种基于大数据的降维转换方法、电子设备、存储介质 Download PDF

Info

Publication number
CN108009195A
CN108009195A CN201710994847.XA CN201710994847A CN108009195A CN 108009195 A CN108009195 A CN 108009195A CN 201710994847 A CN201710994847 A CN 201710994847A CN 108009195 A CN108009195 A CN 108009195A
Authority
CN
China
Prior art keywords
data
dimensionality reduction
method based
conversion method
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710994847.XA
Other languages
English (en)
Other versions
CN108009195B (zh
Inventor
宁永春
房萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Huanya Data Technology Co Ltd
Original Assignee
Suzhou Huanya Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Huanya Data Technology Co Ltd filed Critical Suzhou Huanya Data Technology Co Ltd
Priority to CN201710994847.XA priority Critical patent/CN108009195B/zh
Publication of CN108009195A publication Critical patent/CN108009195A/zh
Application granted granted Critical
Publication of CN108009195B publication Critical patent/CN108009195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Abstract

本发明提供一种基于大数据的降维转换方法,包括步骤数据分类、数据抽取、数据重组、建立数据降维索引。本发明根据业务选择属性建立不同的阈值范围,降低多表属性数据拼接的时间,尤其适用于业务关系复杂的数据记录之间,同时,数据记录簇集的选择和设置也具有针对性,保证用户关注点更高的属性列值被优先进行处理,提高列值处理的效率。本发明还通过数据反馈,通过对阈值和簇集的调整,优化数据处理的效率,提高数据结构的合理性。

Description

一种基于大数据的降维转换方法、电子设备、存储介质
技术领域
本发明涉及一种数据转换,尤其涉及一种基于大数据的降维转换方法、电子设备、存储介质。
背景技术
目前市场上数据存储使用的传统数据库大多为二维关系形式,即由行与列组成一条完整的记录,该条记录具有唯一的ID以及主键,主键不能为空,数据记录插入时一般作为最新记录在尾部完成操作,数据结构一旦确定不能动态改变。
将上述结构的数据转化为大数据库记录时,一般采用的方法是将二维数据库中相关的多表记录提取出来,利用选择的开发语言将记录进行拼接,并设置相应的簇集,选择所需要列值插入到大数据数据库中。这种转换技术需要消耗大量的记录拼接时间,尤其当记录数据之间关系非常复杂时,所需要的处理时间往往是不能接受的,此外,簇集的设置随意,不能很好体现各列值重要性以及相关属性关系,同时,随着数据量呈现几何增长,当存储入大数据库中时,处理速度及其缓慢,处理效率呈现几何数量下降。因此,急需一种高效而深度整合的大数据转换方法。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于大数据的降维转换方法,根据业务选择属性建立不同的阈值范围,降低多表属性数据拼接的时间,尤其适用于业务关系复杂的数据记录之间,同时,数据记录簇集的选择和设置也具有针对性,保证用户关注点更高的属性列值被优先进行处理,提高列值处理的效率。
本发明提供一种基于大数据的降维转换方法,包括以下步骤:
数据分类,对二维数据库中的数据表内数据进行分类,构建所述数据的阈值对应关系;
数据抽取,构建各所述数据表之间映射关系,按所述映射关系抽取所述数据;
数据重组,根据所述阈值对所述数据进行排序,并根据基准阈值将所述阈值相近的对应数据建立簇集;
建立数据降维索引,根据所述阈值范围与所述簇集,将所述簇集对应所述数据表中的列数据作为整体对象插入至大数据库中,等待用户查询。
进一步地,还包括步骤数据反馈,获取用户查询所述数据的频率,将所述频率反馈至所述大数据库内对应数据。
进一步地,所述步骤数据反馈具体为根据用户查询所述数据的频率,标记并调整所述频率对应的基准阈值大小与对应的簇集中的属性列。
进一步地,所述步骤数据抽取中抽取所述数据暂存在内存或者工具中等待调用。
进一步地,所述步骤数据重组具体为根据数据的分类与内存、工具中数据属性,设置数据的阈值范围,所述的阈值数值大小从大到小降序排列,并按排序将所述阈值相近的对应数据建立簇集。
进一步地,所述步骤建立数据降维索引还包括按时间降序建立默认的隐藏主键,并将所述主键导入至搜索引擎。
进一步地,所述步骤数据分类具体采用平均权值法,所述数据中主键与外键对应关系每出现一次,所述数据对应的阈值增加一基准单位值。
进一步地,所述步骤数据重组具体根据基准阈值将所述阈值误差率在5%范围内的阈值的对应数据建立簇集。
一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行基于大数据的降维转换方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于大数据的降维转换方法。
相比现有技术,本发明的有益效果在于:
本发明提供一种基于大数据的降维转换方法,步骤包括数据分类、数据抽取、数据重组、建立数据降维索引。本发明根据业务选择属性建立不同的阈值范围,降低多表属性数据拼接的时间,尤其适用于业务关系复杂的数据记录之间,同时,数据记录簇集的选择和设置也具有针对性,保证了用户关注点更高的属性列值被优先进行处理,提高列值处理的效率。本发明还通过数据反馈,通过对阈值和簇集的调整,优化数据处理的效率,提高数据结构的合理性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于大数据的降维转换方法流程图;
图2为本发明的一种基于大数据的降维转换方法在一实施例中具体流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
一种基于大数据的降维转换方法,如图1、图2所示,包括以下步骤:
数据分类,对二维数据库中的数据表内数据进行分类,构建数据的阈值对应关系;具体的,原有的传统二维数据库中数据存储具有随机性,并按照主键、外键的关系分布在多张数据表中,因此需要提前在相关医疗机构中进行调研,按照不同的业务对数据表中数据进行分类,分类标准按照业务的重要性和重复操作频率进行界定。例如,根据医疗系统实际业务情况,进行分类过程中,使用了平均权值的处理方法,每出现一对主键和外键的对应关系时,数据对应的阈值增加一基准单位值,保证了最终阈值范围确定的合理性。
数据抽取,构建各数据表之间映射关系,按映射关系抽取数据;具体的,对二维数据库中的数据表内数据进行分类后,建立各表之间的对应关系,完成对数据库表的映射,然后利用数据处理工具或者相关编程语言进行抽取,抽出的数据暂存在内存或者工具中等待调用。
数据重组,根据阈值对数据进行排序,并根据基准阈值将阈值相近的对应数据建立簇集;具体的,结合数据的分类标准和内存、工具中的数据属性,设置一系列的基准阈值,设置的阈值数值从大到小降序排列,并根据实际业务需求,对排名靠前的阈值所对应的属性集合优先建立对应簇集,标记簇集的业务范围,作为建立大数据库的依据和支撑。例如,根据设定的基准阈值,对相应的属性建立簇集,将误差率在5%范围内的阈值的对应数据划分为同一范围。
建立数据降维索引,根据阈值范围与簇集,将簇集对应数据表中的列数据作为整体对象插入至大数据库中,等待用户查询。具体的,根据设置的基准阈值和建立的簇集,将内存、工具中的相关列值数据作为整体对象插入到大数据库中,然后根据用户最需要的查询对象将库中的数据抽取出来,按照时间的降序,建立默认的隐藏ID,同时将相关数据导入到搜索引擎中,提高用户搜索的快速性、准确性和全面性。
具体为根据用户查询数据的频率,标记并调整频率对应的基准阈值大小与对应的簇集中的属性列,一般的,在规定时间范围内,依据数据使用的反馈结果对阈值范围和簇集组成进行优化,重新调整阈值大小,在局部范围重新建立簇集,提高数据访问的效率和速度。具体的,根据用户使用搜索引擎的实际频率,将使用的详情反馈到相关的大数据库中,标记出来对应列值的阈值大小和相关簇集中的属性列,上述信息作为用户的实际使用情况,同时作为增量数据转化的重要依据,通过对阈值范围和簇集组成的调整,优化数据处理的效率,保证数据结构的合理性。
一种电子设备,包括:处理器;存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于执行基于大数据的降维转换方法。一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行基于大数据的降维转换方法。
本发明提供一种基于大数据的降维转换方法,步骤包括数据分类、数据抽取、数据重组、建立数据降维索引。本发明根据业务选择属性建立不同的阈值范围,降低查询过程中多表属性数据拼接的时间,尤其适用于业务关系复杂的数据记录之间,同时,数据记录簇集的选择和设置也具有针对性,保证了用户关注点更高的属性列值被优先进行处理,提高列值处理的效率。本发明还通过数据反馈,通过对阈值和簇集的调整,优化数据处理的效率,提高数据结构的合理性。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (10)

1.一种基于大数据的降维转换方法,其特征在于,包括以下步骤:
数据分类,对二维数据库中的数据表内数据进行分类,构建所述数据的阈值对应关系;
数据抽取,构建各所述数据表之间映射关系,按所述映射关系抽取所述数据;
数据重组,根据所述阈值对所述数据进行排序,并根据基准阈值将所述阈值误差内的对应数据建立簇集;
建立数据降维索引,根据所述阈值范围与所述簇集,将所述簇集对应所述数据表中的列数据作为整体对象插入至大数据库中,等待用户查询。
2.如权利要求1所述的一种基于大数据的降维转换方法,其特征在于:还包括步骤数据反馈,获取用户查询所述数据的频率,将所述频率反馈至所述大数据库内对应数据。
3.如权利要求2所述的一种基于大数据的降维转换方法,其特征在于:所述步骤数据反馈具体为根据用户查询所述数据的频率,标记并调整所述频率对应的基准阈值大小与对应的簇集中的属性列。
4.如权利要求1所述的一种基于大数据的降维转换方法,其特征在于:所述步骤数据抽取中抽取所述数据暂存在内存或者工具中等待调用。
5.如权利要求4所述的一种基于大数据的降维转换方法,其特征在于:所述步骤数据重组具体为根据数据的分类与内存、工具中数据属性,设置数据的阈值范围,所述的阈值数值大小从大到小降序排列,并按排序将所述阈值相近的对应数据建立簇集。
6.如权利要求1所述的一种基于大数据的降维转换方法,其特征在于:所述步骤建立数据降维索引还包括按时间降序建立默认的隐藏主键,并将所述主键和数据信息导入至搜索引擎。
7.如权利要求1所述的一种基于大数据的降维转换方法,其特征在于:所述步骤数据分类具体采用平均权值法,所述数据中主键与外键对应关系每出现一次,所述数据对应的阈值增加一基准单位值。
8.如权利要求1至7任一项所述的一种基于大数据的降维转换方法,其特征在于:所述步骤数据重组具体根据基准阈值将所述阈值误差率在5%范围内的阈值的对应数据建立簇集。
9.一种电子设备,其特征在于包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1所述的方法。
CN201710994847.XA 2017-10-23 2017-10-23 一种基于大数据的降维转换方法、电子设备、存储介质 Active CN108009195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710994847.XA CN108009195B (zh) 2017-10-23 2017-10-23 一种基于大数据的降维转换方法、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710994847.XA CN108009195B (zh) 2017-10-23 2017-10-23 一种基于大数据的降维转换方法、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN108009195A true CN108009195A (zh) 2018-05-08
CN108009195B CN108009195B (zh) 2022-06-28

Family

ID=62051920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710994847.XA Active CN108009195B (zh) 2017-10-23 2017-10-23 一种基于大数据的降维转换方法、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN108009195B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750414A (zh) * 2019-09-06 2020-02-04 上海陆家嘴国际金融资产交易市场股份有限公司 移动数据监控分析方法、装置、计算机设备和存储介质
CN114510525A (zh) * 2022-04-18 2022-05-17 深圳丰尚智慧农牧科技有限公司 数据格式转换方法、装置、计算机设备和存储介质
CN114510518A (zh) * 2022-04-15 2022-05-17 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663116A (zh) * 2012-04-11 2012-09-12 中国人民大学 面向列存储数据仓库的多维olap查询处理方法
CN103631907A (zh) * 2013-11-26 2014-03-12 中国科学院信息工程研究所 一种将关系型数据迁移至HBase的方法及系统
US8676667B1 (en) * 2000-02-24 2014-03-18 Richard Paiz Parallel computer network and method for real time financial resource management, inventory control, and online purchasing
CN104021161A (zh) * 2014-05-27 2014-09-03 华为技术有限公司 一种聚簇存储方法及装置
CN104156400A (zh) * 2014-07-22 2014-11-19 中国科学院信息工程研究所 一种海量网络流数据的存储方法及装置
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
US20170046412A1 (en) * 2014-04-01 2017-02-16 Huawei Technologies Co., Ltd. Method for Querying and Updating Entries in a Database
CN106445727A (zh) * 2015-08-07 2017-02-22 中国移动通信集团重庆有限公司 数据备份和恢复方法及系统
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106933859A (zh) * 2015-12-30 2017-07-07 中国移动通信集团公司 一种医疗数据的迁移方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676667B1 (en) * 2000-02-24 2014-03-18 Richard Paiz Parallel computer network and method for real time financial resource management, inventory control, and online purchasing
CN102663116A (zh) * 2012-04-11 2012-09-12 中国人民大学 面向列存储数据仓库的多维olap查询处理方法
CN103631907A (zh) * 2013-11-26 2014-03-12 中国科学院信息工程研究所 一种将关系型数据迁移至HBase的方法及系统
US20170046412A1 (en) * 2014-04-01 2017-02-16 Huawei Technologies Co., Ltd. Method for Querying and Updating Entries in a Database
CN104021161A (zh) * 2014-05-27 2014-09-03 华为技术有限公司 一种聚簇存储方法及装置
CN104156400A (zh) * 2014-07-22 2014-11-19 中国科学院信息工程研究所 一种海量网络流数据的存储方法及装置
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN106445727A (zh) * 2015-08-07 2017-02-22 中国移动通信集团重庆有限公司 数据备份和恢复方法及系统
CN106933859A (zh) * 2015-12-30 2017-07-07 中国移动通信集团公司 一种医疗数据的迁移方法和装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIEGO SERRANO等: "From Relations to Multi-dimensional Maps: Towards an SQL-to-HBase Transformation Methodology", 《2015 IEEE 8TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING》 *
GUOLIANG ZHOU等: "Cache conscious star-join in MapReduce environments", 《CLOUD-I "13: PROCEEDINGS OF THE 2ND INTERNATIONAL WORKSHOP ON CLOUD INTELLIGENCE》 *
张延松等: "内存数据库可控的page-color优化技术研究", 《计算机研究与发展》 *
文娟等: "数据仓库中的一种提高多表连接效率的有效方法", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750414A (zh) * 2019-09-06 2020-02-04 上海陆家嘴国际金融资产交易市场股份有限公司 移动数据监控分析方法、装置、计算机设备和存储介质
CN110750414B (zh) * 2019-09-06 2023-03-21 未鲲(上海)科技服务有限公司 移动数据监控分析方法、装置、计算机设备和存储介质
CN114510518A (zh) * 2022-04-15 2022-05-17 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN114510518B (zh) * 2022-04-15 2022-07-12 北京快立方科技有限公司 一种海量结构化数据的自适应聚合方法、系统及电子设备
CN114510525A (zh) * 2022-04-18 2022-05-17 深圳丰尚智慧农牧科技有限公司 数据格式转换方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108009195B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN108009195A (zh) 一种基于大数据的降维转换方法、电子设备、存储介质
CN104317839B (zh) 生成报表模板的方法和装置
WO2016101716A1 (zh) 基于用户搜索意图的搜索方法及装置
CN101661460A (zh) 管理系统报表生成方法和装置
CN105868310A (zh) 一种数据处理方法、装置及电子设备
CN107203498A (zh) 一种创建电子书的方法、系统及其用户终端和服务器
CN105956053A (zh) 一种基于网络信息的搜索方法及装置
CN106528641B (zh) 一种数据存储方法、装置及通信网关机
CN105389344A (zh) 一种自助式查新方法及系统
CN106951503A (zh) 信息提供方法、装置、设备以及存储介质
US9239863B2 (en) Method and apparatus for graphic code database updates and search
CN109740139A (zh) 文档标题自定义样式控制方法、装置、计算机设备及存储介质
US20220365969A1 (en) Inferring Intent and Utilizing Context For Natural Language Expressions in a Data Visualization User Interface
CN106126221A (zh) 一种表单生成方法、装置和系统
CN105117030A (zh) 输入法中联想词汇的推荐方法及终端
CN110516057A (zh) 一种信访问题答复方法及装置
US20200210640A1 (en) Method and apparatus for displaying textual information
CN107315817A (zh) 电子图纸文本匹配方法、装置、存储介质和计算机设备
CN106776508A (zh) 一种电子表单生成方法及装置
CN103929499B (zh) 一种物联网异构标识识别方法和系统
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
CN106776509A (zh) 一种电子表单生成方法及装置
CN106484684A (zh) 一种对数据库中的数据进行术语匹配的方法
EP3819853A3 (en) Document type recommendation method and apparatus, electronic device and readable storage medium
CN105160003A (zh) 一种基于地理位置的app检索排序方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215000 17 / F, Wanda Plaza, 188 Shihu West Road, Wuzhong District, Suzhou City, Jiangsu Province

Applicant after: Huanya Data Technology Co.,Ltd.

Address before: 215000 No.81 Suli Road, Wuzhong District, Suzhou City, Jiangsu Province

Applicant before: SUZHOU HUANYA DATA TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant