CN106528810B - 一种融合异构数据便于快速大数据分析的方法 - Google Patents
一种融合异构数据便于快速大数据分析的方法 Download PDFInfo
- Publication number
- CN106528810B CN106528810B CN201611013269.9A CN201611013269A CN106528810B CN 106528810 B CN106528810 B CN 106528810B CN 201611013269 A CN201611013269 A CN 201611013269A CN 106528810 B CN106528810 B CN 106528810B
- Authority
- CN
- China
- Prior art keywords
- data
- field
- key
- time
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合异构数据便于快速大数据分析的方法,该方法设计了一种包含有1个数据种类字段、2个唯一号码字段、2个时间字段、2个地点字段、1个含有所有字段名称的字段、1个含有所有字段值的字段、若干个关键字段的表,通过预先在有大数据处理能力的数据库中建立该表,即可将所有收集到的任何种类数据,整理后汇入该表;该方法不仅能将各种不同类型的数据表,甚至标准不统一或无标准的数据融入到一起,并兼具图数据库基本功能,还可便于记忆,无需翻看数以千计的数据标准,实现快速SQL统计分析,在机遇转瞬即逝的大数据时代,永立潮头。
Description
技术领域
本发明属于大数据和数据整合领域,具体涉及一种融合异构数据便于快速大数据分析的方法。
背景技术
随着大数据时代的到来,各行业特别是政府机关整合的数据种类越来越多,一些数据甚至没有标准,通常的解决方案是耗费极大精力来制定标准,但即使如此仍然会存在以下问题:(1)没有定好数据标准的数据不能马上入库,不能发挥作用;(2)同一类数据,因来源不同,所以标准不同,导致不能马上入库,不能发挥作用;(3)因数据种类太多,字段数量更多,字段类型也千差万别,所以必然导致数据分析师无法记住这庞大复杂的数据表及其字段,进而在应急事件中,不能很快地分析现有数据,错失战机;(4)对数据种类不同但相似的信息,数据分析师往往要用近似程序对不同数据进行多次分析;(5)数据分析师不能将同一范围地点的数据,或同一范围时间的数据,一次性简单地统计、分析出结果。
发明内容
本发明的目的是为了克服现有技术的缺陷和不足,提供一种解决数据无标准、标准订不及、标准记不住、标准合不拢的问题的融合异构数据便于快速大数据分析的方法。
本发明的目的是这样实现的:一种融合异构数据便于快速大数据分析的方法,包括以下步骤:
步骤一:设计一个可兼容、合并所有数据的万能表,该表的设计方法为:(1)定义2个唯一号码字段、2个时间字段、2个地点字段,辅以数据种类字段,作为该表的核心字段;(2)再定义多个关键字段,用以实现核心字段外的结构化数据SQL检索;(3)再定义用1个key字段,来说明本表中所有字段及原始表中剩余字段的含义,并用另外1个value字段,来填写与key字段中一一对应的值,或通过将key和value字段写入其他表的方式,实现相同功能;(4)为上述value字段添加全文检索功能,达到既能检索到本行中所有值,又不重复写入字段名称的目的;
步骤二:在具备大数据处理能力的数据库上建立该万能表;
步骤三:将多个异构数据表或标准不统一甚至无标准的各类数据,通过以下方法填入或导入到万能表中:(1)将数据种类填入到“数据种类”字段,将唯一标识号码填入2个唯一号码字段中,将具有始、末含义或最常用的时间、地点字段,填入到2个时间字段和2个地点字段中,时间、地点字段无须必填;(2)将需要结构化SQL检索的字段填入到多个关键字段中;(3)将用以说明本表所有字段含义及原始数据中剩余字段含义的内容,填入到key字段中,中间用固定分隔符隔开;将与key字段中一一对应的值填入到value字段中,中间用固定分隔符隔开;
步骤四:进行快速大数据分析:(1)任意数据种类的唯一标识号码、时间、地点的字段名称都相同,数据分析师无需翻看、查询数据结构即可快速进行数据分析;(2)查询任意数据种类的唯一标识号码,都只需在万能表中仅查询“唯一号码字段”;(3)可以对异构数据进行时间排序;(4)所有具备开始结束、出发到达含义的时间、地点的检索,都统一使用相同的2个时间字段、2个地点字段;(5)对核心字段外的其他字段也可以实现精确的文本、时间和数字检索;(6)可根据“号码”和“号码2”字段的迭代查询,实现图数据库的功能;(7)对所有数据实现全文检索。
本发明能达到的有益效果:通过预先在有大数据处理能力的数据库中建立万能表,即可将所有收集到的任何种类数据,整理后汇入该万能表,该方法不仅能将各种不同类型的数据表,甚至标准不统一或无标准的数据融入到一起,还可便于记忆,无需翻看数以千计的数据标准,实现快速SQL统计分析,在机遇转瞬即逝的大数据时代,永立潮头;本发明具有解决数据无标准、标准订不及、标准记不住、标准合不拢的问题的优点,并且兼具图数据库基本功能。
附图说明
图1是本发明一种融合异构数据便于快速大数据分析的方法的万能表数据结构示意图。
图2是本发明一种融合异构数据便于快速大数据分析的方法的万能表的示例。
具体实施方式
下面结合附图及具体实施方式对本发明做进一步的详细说明。
实施例1
如图1和图2所示,一种融合异构数据便于快速大数据分析的方法,包括以下步骤:
步骤一:设计一个可兼容、合并所有数据的万能表,字段设计如下(未特殊说明者均为字符类型):(1)数据种类、号码名称、号码、号码2、时间(日期型)、时间2(日期型)、地点、地点2,作为该表的核心字段;(2)可以再定义多个关键字段:关键、关键2、关键3、关键4、关键5(数字小数型)、关键6(数字小数型)、关键7(日期型),用以实现核心字段外的结构化数据SQL检索;(3)可以再定义2个字段:字段名集合、字段内容集合,前者来说明本表中所有字段、及原始表中剩余字段的含义,后者来填写与前者字段中一一对应的值(也可通过将这2个字段写入其他表等类似的方式,实现相同功能);(4)还可为上述字段内容集合字段添加全文检索功能,达到既能检索到本行中所有值,又不重复写入字段名称的目的;(5)其他辅助字段:照片地址、UUID、地点0(上传单位)、时间0(上传系统默认时间)。
步骤二:在具备大数据处理能力的数据库上建立该万能表。
步骤三:将多个异构数据表、或标准不统一甚至无标准的各类数据,通过以下方法填入(导入)到万能表中:(1)将数据种类填入到“数据种类”字段,将唯一标识号码填入“号码”、“号码2”字段中,将具有始、末等含义或最常用的时间、地点字段,填入到“时间”、“时间2”、“地点”、“地点2”字段中,姓名、名称通常填入到“号码名称”字段中,以上字段无须必填;(2)将需要结构化SQL检索的字段根据字符、数字、日期等数据类型填入到相应的“关键”、“关键2”至“关键7”字段中;(3)将用以说明本表所有字段含义及原始数据中剩余字段含义的内容,填入到“字段名集合”字段中,中间用固定分隔符隔开;将与“字段名集合”字段中一一对应的值填入到“字段内容集合”字段中,中间用固定分隔符隔开。
步骤四:进行快速大数据分析:(1)任意数据种类的唯一标识号码、时间、地点的字段名称都相同,数据分析师无需翻看、查询数据结构即可快速开写SQL语句进行数据分析;(2)查询某个人的近期活动情况,则无论是物流信息,或是住旅店信息,不需关心原表的名称及字段名称,只需要查询本万能表中的“号码”字段和“时间”字段即可,并可对异构数据按时间排序;(3)如果查询某人的关系人,则可根据“号码”和“号码2”字段的迭代查询,实现关系人、关系车、关系号码的无限关联,实现图数据库功能;(4)所有具备开始结束、出发到达含义的时间、地点的检索,都统一使用相同的2个时间字段、2个地点字段;(5)对核心字段外的其他字段也可以实现精确的文本、时间和数字检索;(6)对所有数据实现全文检索。
本发明在实施过程中,万能表应预先建立在具备大数据处理能力的数据库中,通常为列式的、分布式的数据库,万能表的“数据种类”,通常填写需要兼容进来的数据表名称;“号码名称”通常填写号码的含义,如姓名等;“号码”填写具体唯一标识号码,如身份证号码、手机号码等;“号码2”内容同“号码”字段,可为空,但通常为与“号码”字段有关联的号码,如“号码”的手机号向“号码2”的手机号打电话;“时间”填写“号码”的活动时间;“时间2”可为空,常用用于“时间”填写开始时间,“时间2”填写结束时间;“地点”通常填写活动时间;“地点2”可为空,通常与“地点”配合,分别填写出发地点及目的地点,或对应于“号码”和“号码2”的活动地点;“关键”、“关键2”、“关键3”、“关键4”填写拟用于SQL结构化检索、但不在上述“号码”、“时间”“地点”内的字段内容,其含义根据数据种类而变,其释义在其他字段或其他方式说明;“关键5”、“关键6”同“关键”,区别为数字类型,含小数;“关键7”同“关键”,区别为日期类型;“字段名集合”用来说明本表中所有字段、及原始数据中剩余字段的含义,中间用固定分隔符隔开;“字段内容集合”用来填写原始数据中的所有字段的值,中间用固定分隔符隔开,且顺序与“字段名集合”能一一对应,同时,可将本字典添加全文检索功能,实现一个字段包含本行中所有值,但不包含字段名称的全文检索;“UUID”用来填写原数据源中的唯一编号,如果原始行被拆分为多行,或者原始行有更新,则UUID被用来作为他们系同一行的证明;“地点0”,数据上报地点或单位;“时间0”默认为插入的系统时间。
显然,本领域的技术人员可以对本发明进行增加或减少字段、改变字段名称等而不脱离本发明的精神和范围;这样,倘若本发明的这些修改和变型属于本发明要求及其等同技术的范围之内,则本发明意图也包含这些改动和变型在内。
Claims (1)
1.一种融合异构数据便于快速大数据分析的方法,其特征在于,包括以下步骤:
步骤一:在具备大数据处理能力的数据库上建立一个可兼容、合并所有数据的万能表,所述的万能表含有以下字段:数据种类、号码名称、号码、号码2、时间、时间2、地点、地点2、关键、关键2、关键3、关键4、关键5、关键6、关键7、字段名集合、字段内容集合、照片地址、UUID、地点0、时间0;
所述数据种类用于存储所兼容数据表的名称;所述号码用于存储相应数据的唯一标识码;所述号码2为空或用于存储所述唯一标识码关联的号码;当所述时间存储活动开始时间时,时间2用于存储活动结束时间;当所述时间存储活动时间时,时间2为空;当所述地点存储活动开始地点时,地点2用于存储活动结束地点;当所述地点存储活动所在活动所在地时,地点2为空;所述关键、关键2、关键3和关键4用于存储SQL结构化检索的字段内容;所述关键5和关键6与关键存储的内容相应,格式为数字类型;关键7与关键存储的内容相应,格式为日期类型;所述字段名集合用于存储万能表中各字段的说明和原始数据中剩余字段的含义;所述字段内容集合用于存储原始数据中所有字段的值,与字段名集合中的字段名相对应;所述UUID用于存储原数据源中的唯一编码;所述地点0用于存储数据上报地点或单位;所述时间0用于存储插入的系统时间;
步骤二:将多个异构数据表、或标准不统一甚至无标准的各类数据,抽取或导入到万能表中;
步骤三:进行快速大数据分析:(1)查询某个人的近期活动情况,则无论是物流信息,或是住旅店信息,不需关心原表的名称及字段名称,只需要查询本万能表中的“号码”字段和“时间”字段即可;(2)如果查询某人的关系人,则可根据“号码”和“号码2”字段的迭代查询,实现关系人、关系车、关系号码的无限关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611013269.9A CN106528810B (zh) | 2016-11-18 | 2016-11-18 | 一种融合异构数据便于快速大数据分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611013269.9A CN106528810B (zh) | 2016-11-18 | 2016-11-18 | 一种融合异构数据便于快速大数据分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106528810A CN106528810A (zh) | 2017-03-22 |
CN106528810B true CN106528810B (zh) | 2021-07-13 |
Family
ID=58352441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611013269.9A Active CN106528810B (zh) | 2016-11-18 | 2016-11-18 | 一种融合异构数据便于快速大数据分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528810B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992510A (zh) * | 2017-10-17 | 2018-05-04 | 广州智聚行科技有限公司 | 基于多源异构数据分析的智慧学习计算方法 |
CN108255984A (zh) * | 2017-12-28 | 2018-07-06 | 浪潮通用软件有限公司 | 一种数据解析方法和装置 |
CN109800215B (zh) * | 2018-12-26 | 2020-11-24 | 北京明略软件系统有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN115905315A (zh) * | 2022-11-08 | 2023-04-04 | 北京德塔精要信息技术有限公司 | 多类型数据的融合处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346447A (zh) * | 2014-10-28 | 2015-02-11 | 浪潮电子信息产业股份有限公司 | 一种面向混合型大数据处理系统的分区连接方法 |
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN104391957A (zh) * | 2014-12-01 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种针对混合型大数据处理系统的数据交互分析方法 |
CN105677710A (zh) * | 2015-12-28 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 大数据的处理方法和系统 |
CN106021378A (zh) * | 2016-05-11 | 2016-10-12 | 吕骏 | 基于数据抽取、数据可视化的查询分析方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003021480A1 (en) * | 2001-09-04 | 2003-03-13 | International Limited | Database management system |
CN101329682B (zh) * | 2008-07-22 | 2010-04-07 | 华北电力大学 | 一种分布异构信息资源集成方法 |
CN101923569B (zh) * | 2010-07-09 | 2012-07-25 | 江苏瑞中数据股份有限公司 | 一种实时数据库的结构类型数据的存储方法 |
CN104657381A (zh) * | 2013-11-21 | 2015-05-27 | 杭州洱海科技有限公司 | 一种弹性传感数据平台 |
CN105302814A (zh) * | 2014-06-20 | 2016-02-03 | 苏州精易会信息技术有限公司 | 一种存储多个自定义字段的方法和系统 |
CN104391948B (zh) * | 2014-12-01 | 2017-11-21 | 广东电网有限责任公司清远供电局 | 数据仓库的数据标准化构建方法及系统 |
US20160292164A1 (en) * | 2015-03-31 | 2016-10-06 | International Business Machines Corporation | Efficient database management |
CN105893526A (zh) * | 2016-03-30 | 2016-08-24 | 上海坤士合生信息科技有限公司 | 多源数据融合系统和方法 |
CN106095862B (zh) * | 2016-06-02 | 2020-11-17 | 四川大学 | 集中式可扩展融合型多维复杂结构关系数据的存储方法 |
-
2016
- 2016-11-18 CN CN201611013269.9A patent/CN106528810B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN104346447A (zh) * | 2014-10-28 | 2015-02-11 | 浪潮电子信息产业股份有限公司 | 一种面向混合型大数据处理系统的分区连接方法 |
CN104391957A (zh) * | 2014-12-01 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种针对混合型大数据处理系统的数据交互分析方法 |
CN105677710A (zh) * | 2015-12-28 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 大数据的处理方法和系统 |
CN106021378A (zh) * | 2016-05-11 | 2016-10-12 | 吕骏 | 基于数据抽取、数据可视化的查询分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106528810A (zh) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330125B (zh) | 基于知识图谱技术的海量非结构化配网数据集成方法 | |
CN106528810B (zh) | 一种融合异构数据便于快速大数据分析的方法 | |
CN102543082B (zh) | 使用自然语言的车载信息服务系统语音操作方法及系统 | |
US7124085B2 (en) | Constraint-based speech recognition system and method | |
CN101167075B (zh) | 专有表现抽取装置、方法以及程序 | |
CN106326429A (zh) | 一种基于solr的Hbase秒级查询方案 | |
US20060041606A1 (en) | Indexing system for a computer file store | |
EP2977916A1 (en) | Search suggestion method and apparatus for map search, and computer storage medium and device | |
CN106709851B (zh) | 大数据检索方法及装置 | |
CN105205085A (zh) | 一种海量数据的多维分析方法及装置 | |
CN110659283A (zh) | 数据标签处理方法、装置、计算机设备及存储介质 | |
CN104731945A (zh) | 一种基于HBase的全文检索方法及装置 | |
CN111506621A (zh) | 一种数据统计方法及装置 | |
US8452722B2 (en) | Method and system for searching multiple data sources | |
CN104636389A (zh) | 实现Hbase数据库实时查询的方法和系统 | |
CN103365914A (zh) | 基于搜索引擎的数据库查询系统和方法 | |
CN104346331A (zh) | Xml数据库的检索方法及系统 | |
CN103970751A (zh) | 多国语言网页转换系统及方法 | |
CN107862068B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
US10324949B2 (en) | Method and system for consolidating data retrieved from different sources | |
CN111258819A (zh) | MySQL数据库备份文件的数据获取方法、装置和系统 | |
CN108984626B (zh) | 一种数据处理方法、装置及服务器 | |
CN107341198B (zh) | 一种基于主题实例的电力海量数据存储和查询方法 | |
CN108073591B (zh) | 一种具有身份属性的多源数据的整合存储系统及方法 | |
US20040199537A1 (en) | System for storing and retrieving database information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |