CN108509585A - 一种异构数据实时交互优化处理方法 - Google Patents

一种异构数据实时交互优化处理方法 Download PDF

Info

Publication number
CN108509585A
CN108509585A CN201810271215.5A CN201810271215A CN108509585A CN 108509585 A CN108509585 A CN 108509585A CN 201810271215 A CN201810271215 A CN 201810271215A CN 108509585 A CN108509585 A CN 108509585A
Authority
CN
China
Prior art keywords
data
keyword
isomeric
concordance list
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810271215.5A
Other languages
English (en)
Inventor
张可
柴毅
朱燕
黄若山
朱博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810271215.5A priority Critical patent/CN108509585A/zh
Publication of CN108509585A publication Critical patent/CN108509585A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种异构数据实时交互优化处理方法,采用建立异构数据索引表的方法,实现异构数据实时交互。将异构数据进行拆分进行分布式存储,并提取关键词依靠关键词计数排序策略,构建异构数据索引表,通过分层检索方式,寻找所需数据的存储位置,最后通过数据汇总模块得到所需数据,转换为所需数据格式返回给用户端,从而实现数据交互。该方法具有快速性、高效性,对异构数据的拆分节省了存储空间并加快了数据查询的速度;利用索引查询大大提高了数据查询效率。

Description

一种异构数据实时交互优化处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种异构数据实时交互处理方法。
背景技术
在企业信息化建设进程中,大量的功能性应用被集成于企业信息门户系统,需要对其进行集中统一管理,以满足共享数据应用的需求。但是,大量的功能性应用之间存在多类差异,体现在开发语言、开发平台、操作系统、数据库管理系统、网络通信协议等方面。其中,数据库差异相对突出,不同的系统数据源和应用需求导致了数据结构上的差异性,由于异构数据库在数据访问和数据共享的方式不同,无法很好的实现数据之间的实时共享,因此,如何实现异构数据的实时交互处理是目前的技术难题。
发明内容
本发明的目的就是提供一种异构数据实时交互优化处理方法,它可以解决异构数据的实时交互处理问题,实现数据之间的实时共享。
本发明的目的是通过这样的技术方案实现的,具体步骤如下:
1)拆分异构数据,采用分布式存储方式存储数据,形成新的数据集;
2)根据分布式存储数据的存储地址,建立异构索引表;
3)接收用户端发送的查询请求,将检索目标内容进行关键词提取;
4)根据异构索引表逐级查询关键词所在的位置;
5)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
6)将步骤5)中提取的所需数据汇总并返回给用户端。
进一步,步骤1)中所述拆分异构数据的具体步骤如下:
1-1)按结构形式将不同结构的数据分别存储到不同的互相独立的数据集中;
1-2)采用水平分区的方式对各数据集进行拆分。
进一步,步骤2)中所述建立异构索引表的具体步骤如下:
2-1)对新的数据集提取关键词,并进行预处理得到关键词在该数据集中的查询计数;
2-2)将关键词按查询计数从小到大排序,并形成计数表;
2-3)以计数表为基础,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
2-4)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
进一步,步骤4)中所述根据异构索引表逐级查询关键词所在的位置的具体步骤如下:
4-1)将用户端的查询请求与索引的关键词库进行映射,将原查询映射到目标查询;
4-2)对查询中的关键词按照计数表中计数大小排序;
4-3)按计数大小从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
进一步,步骤6)中所述提取的所需数据汇总并返回给用户端的具体方法为:
根据数据映射关系从对应的数据集中提取所需数据并汇总,将提取的数据转换为所需的数据格式,返回给用户端。
由于采用了上述技术方案,本发明具有如下的优点:
1、数据处理效率高,能实现实时处理;
2、采用关键词计数排序策略,节省了数据存储空间和计算量,缩短了索引构建的时间;
3、采用数据分层查询,利用查询计数提高了数据查询效率;
4、构建的内存数据库系统将内存数据库与磁盘数据库高效的结合,用磁盘数据库弥补内存数据库的不同,同时将两者之间相互关联,提升整个系统的实时性并降低系统的运行负载。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的架构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种异构数据实时交互优化处理方法,具体步骤如下:
1)拆分异构数据,采用分布式存储方式存储数据,形成新的数据集;
实现拆分异构数据的具体方法为:
1-1)按结构形式将不同结构的数据分别存储到不同的互相独立的数据集中;
1-2)采用水平分区的方式对各数据集进行拆分。
其中进行水平分区的具体步骤如下:
1-2-1)删除已经存在的聚集索引;
1-2-2)重新添加聚集索引,指定添加索引的列;
1-2-3)创建分区方案指定分区的列;
2)建立异构索引表;
建立异构索引表的具体步骤如下:
2-1)对新的数据集提取关键词,得到关键词集合;
2-2)将关键词集合中的每个关键词在新的数据集上扫描,得到关键词的查询计数;
2-3)将关键词按查询计数从小到大排序,并按顺序给每个关键词标号;
2-4)按关键词计数顺序构建上一层节点,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
2-5)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
3)接收查询请求,将检索目标内容进行关键词提取;
4)根据异构索引表逐级查询关键词所在的位置;
查询关键词所在的位置的具体步骤如下:
4-1)将用户端的查询关键词与索引的关键词库进行映射,将原查询映射到目标查询;
4-2)检索计数表,得到关键词查询计数顺序号;
4-3)按计数顺序号从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
5)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
由查询后的关键词信息,根据其在数据库中的映射关系先找到所在分区,再到数据库分区里找到所需数据;
6)将步骤5)中提取的所需数据汇总并返回给用户端。
具体步骤如下:
6-1)将提取的数据汇总,并采用可扩展标记语言将数据封装为统一格式的文档,返回给用户端;
6-2)用户端将文档内容解析,并转换为所需的数据格式。
本发明优化查询算法,采用了关键词计数排序策略,缩短查询时间;对异构数据进行拆分并分布式存储,提高了数据处理速度;数据存储方式采用分布式内存数据库系统和分布式磁盘数据库;所述分布式内存数据库系统用于实现实时数据访问;所述分布式磁盘数据库用于断电时通过实时表来保存内存数据库中的实时数据和保存历史记录数据。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种异构数据实时交互优化处理方法,其特征在于,具体步骤如下:
1)拆分异构数据,采用分布式存储方式存储数据,形成新的数据集;
2)根据分布式存储数据的存储地址,建立异构索引表;
3)接收用户端发送的查询请求,将检索目标内容进行关键词提取;
4)根据异构索引表逐级查询关键词所在的位置;
5)将查询后的信息分发至数据库配置信息中对应的数据存储数据库,从对应的数据存储数据库中提取所需数据;
6)将步骤5)中提取的所需数据汇总并返回给用户端。
2.如权利要求1所述的异构数据实时交互优化处理方法,其特征在于,步骤1)中所述拆分异构数据的具体步骤如下:
1-1)按结构形式将不同结构的数据分别存储到不同的互相独立的数据集中;
1-2)采用水平分区的方式对各数据集进行拆分。
3.如权利要求2所述的异构数据实时交互优化处理方法,其特征在于,步骤2)中所述建立异构索引表的具体步骤如下:
2-1)对新的数据集提取关键词,并进行预处理得到关键词在该数据集中的查询计数;
2-2)将关键词按查询计数从小到大排序,并形成计数表;
2-3)以计数表为基础,逐级构建索引形成索引表,每级索引表包含对应的关键词及其对应的数据对象信息;
2-4)建立索引表与源数据库的映射关系,根据索引信息可获得数据所在位置信息。
4.如权利要求3所述的异构数据实时交互优化处理方法,其特征在于,步骤4)中所述根据异构索引表逐级查询关键词所在的位置的具体步骤如下:
4-1)将用户端的查询请求与索引的关键词库进行映射,将原查询映射到目标查询;
4-2)对查询中的关键词按照计数表中计数大小排序;
4-3)按计数大小从小到大依次读取查询中的关键词,在索引表中自上向下逐级查询,找到匹配的关键词。
5.如权利要求4所述的异构数据实时交互优化处理方法,其特征在于,步骤6)中所述提取的所需数据汇总并返回给用户端的具体方法为:
根据数据映射关系从对应的数据集中提取所需数据并汇总,将提取的数据转换为所需的数据格式,返回给用户端。
CN201810271215.5A 2018-03-29 2018-03-29 一种异构数据实时交互优化处理方法 Pending CN108509585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271215.5A CN108509585A (zh) 2018-03-29 2018-03-29 一种异构数据实时交互优化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271215.5A CN108509585A (zh) 2018-03-29 2018-03-29 一种异构数据实时交互优化处理方法

Publications (1)

Publication Number Publication Date
CN108509585A true CN108509585A (zh) 2018-09-07

Family

ID=63379351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271215.5A Pending CN108509585A (zh) 2018-03-29 2018-03-29 一种异构数据实时交互优化处理方法

Country Status (1)

Country Link
CN (1) CN108509585A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492004A (zh) * 2018-10-29 2019-03-19 广东开放大学(广东理工职业学院) 一种数字渔业异构数据存储方法、系统及装置
CN109902089A (zh) * 2019-02-19 2019-06-18 Oppo广东移动通信有限公司 利用异构索引的查询方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN105975587A (zh) * 2016-05-05 2016-09-28 诸葛晴凤 一种高性能的内存数据库索引组织与访问方法
CN106649678A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种数据处理方法及系统
CN107194007A (zh) * 2017-06-20 2017-09-22 哈尔滨工业大学 一种航天器异构测试数据集成管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN105975587A (zh) * 2016-05-05 2016-09-28 诸葛晴凤 一种高性能的内存数据库索引组织与访问方法
CN106649678A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种数据处理方法及系统
CN107194007A (zh) * 2017-06-20 2017-09-22 哈尔滨工业大学 一种航天器异构测试数据集成管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭苇: "《教育技术与网络教学资源整合》", 31 January 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492004A (zh) * 2018-10-29 2019-03-19 广东开放大学(广东理工职业学院) 一种数字渔业异构数据存储方法、系统及装置
CN109902089A (zh) * 2019-02-19 2019-06-18 Oppo广东移动通信有限公司 利用异构索引的查询方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
EP2924594B1 (en) Data encoding and corresponding data structure in a column-store database
US6438562B1 (en) Parallel index maintenance
JP3844370B2 (ja) 多次元データを格納しかつアクセスするコンピュータ方法及び格納構造
EP1234258B1 (en) System for managing rdbm fragmentations
CN106294190B (zh) 一种存储空间管理方法及装置
CN111460023A (zh) 基于Elasticsearch的业务数据处理方法、装置、设备及存储介质
US8099421B2 (en) File system, and method for storing and searching for file by the same
US20100131456A1 (en) Systems and methods for middleware database hosting dimensional transforms
CN103544261B (zh) 一种海量结构化日志数据全局索引管理方法及装置
CN107368527B (zh) 基于数据流的多属性索引方法
CN100458784C (zh) 在数字图书馆中所采用的检索系统和检索方法
CN102332030A (zh) 用于分布式键-值存储系统的数据存储、管理和查询方法及系统
CN107357843B (zh) 基于数据流结构的海量网络数据查找方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN113986873A (zh) 一种海量物联网数据模型化的处理、存储与共享方法
CN108647266A (zh) 一种异构数据快速分布存储、交互方法
CN111460024A (zh) 基于Elasticsearch的实时业务系统
US8880553B2 (en) Redistribute native XML index key shipping
CN103353901A (zh) 基于Hadoop分布式文件系统的表数据的有序管理方法以及系统
CN112513836A (zh) 结构化记录检索
CN108509585A (zh) 一种异构数据实时交互优化处理方法
KR100999408B1 (ko) 해시트리를 이용한 url 검색방법
Vu et al. R*-grove: Balanced spatial partitioning for large-scale datasets
CN109213760B (zh) 非关系数据存储的高负载业务存储及检索方法
CN116595106A (zh) 一种用户分群方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907