CN104216966A - 一种支持多种方式创建索引的方法 - Google Patents
一种支持多种方式创建索引的方法 Download PDFInfo
- Publication number
- CN104216966A CN104216966A CN201410419509.XA CN201410419509A CN104216966A CN 104216966 A CN104216966 A CN 104216966A CN 201410419509 A CN201410419509 A CN 201410419509A CN 104216966 A CN104216966 A CN 104216966A
- Authority
- CN
- China
- Prior art keywords
- index
- structured document
- data
- search engine
- creates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/134—Distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/176—Support for shared access to files; File sharing support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持多种方式创建索引的方法,其具体实现过程为:配置统一索引模型,部署安装搜索引擎服务器集群;配置数据库与索引的映射;配置HBASE与索引的映射;配置结构化文档导入脚本;配置非结构化文档导入脚本;创建消息队列,通过消息队列实时创建索引;搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中;根据输入的关键字,进行相关检索。该一种支持多种方式创建索引的方法与现有技术相比,能够解决不同来源、不同格式的数据的统一检索问题,提高对数据实时索引的能力,增强对海量数据的汇集和整合能力,大大提高对海量数据的检索效率,实用性强。
Description
技术领域
本发明涉及数据索引技术领域,具体地说是一种实用性强、支持多种方式创建索引的方法。
背景技术
对于企事业单位内的信息资源,由于其分属的业务不同,采用的管理系统也不尽相同,这就导致了信息资源的分散问题,不利于资源的共享;同时,不同的管理系统需要不同的业务人员去管理维护,资源共享过程中就会导致非业务人员很难查询了解到其他业务资源的情况,这也增加了资源共享的难度;另外,不同的管理系统采用的技术、规范又不尽相同,数据资料之间很难相互调用,维护也极为不便,严重阻碍了企事业单位信息化进程。
对于这些分处在不同系统中的数据,很难有效的利用起来,一般只提供各自系统内的检索查询。所以企事业单位的信息化建设是一项长期、复杂而又艰巨的工作。
支持多种方式创建索引,能够有效的客服多系统检索带来的不便,提供统一的检索入口。
要实现支持多种方式创建索引,首先要创建一个统一的索引模型,部署一套相关的索引处理程序——搜索引擎,然后分析企事业单位内数据存放的位置,就一般情况而言,企事业单位内的信息资源不论采用何种管理系统,数据信息会存储在以下四个地方:数据库、HBASE、HDFS,或者以非结构化的文档进行保存,对这些情况分别建立不同的创建索引的方式,再经由搜索引擎来处理不同方式创建的索引,将不同系统、不同类型的资源整合在一起,并将处理后的结果存放在文件系统中,从而达到信息资源的整合和统一检索的目的。基于该设计思路,现提供一种支持多种方式创建索引的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、支持多种方式创建索引的方法。
一种支持多种方式创建索引的方法,其具体实现过程为:
1)配置统一索引模型,部署安装搜索引擎服务器集群;
2)配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接;
3)配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接;
4)配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接;
5)配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的连接;
6)创建消息队列,通过消息队列实时创建索引;
7)搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中;
8)根据输入的关键字,进行相关检索。
所述步骤二中的映射将不同业务系统中存在于数据库中的数据导入到统一索引中,映射关系与配置保存在数据库中。
所述步骤三中的映射将不同业务系统中存在于HBASE中的数据导入到统一索引中,映射关系与配置保存在数据库中。
所述步骤四中的结构化文档脚本配置过程为:把不同业务系统中存在于结构化文档中的数据导入到统一索引中,形成独立脚本。
所述步骤五中的非结构化文档脚本配置过程为:把不同业务系统中存在于非结构化文档中的数据导入到统一索引中,形成独立脚本。
本发明的一种支持多种方式创建索引的方法,具有以下优点:
该发明的一种支持多种方式创建索引的方法能够解决不同来源、不同格式的数据的统一检索问题,提高对数据实时索引的能力,增强对海量数据的汇集和整合能力,大大提高对海量数据的检索效率,加快企事业单位内信息化公开检索的步伐,降低企事业单位信息化建设的成本;通过提供统一索引模型,将企事业单位内存在于不同管理系统中的数据信息进行整合;克服信息化过程中海量数据检索的瓶颈,提高企事业单位内数据信息的利用率;针对行业领域,能够为各企事业单位提供企业内信息化检索的统一入口,其云服务特性,能够降低企事业单位信息化建设的成本;实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供一种支持多种方式创建索引的方法,通过创建一种模型,提供对结构化数据、半结构化数据,以及非结构化的数据进行定时或者实时方式创建索引的方案,从而解决不同来源,不同格式的数据的统一检索问题,并提高对这些数据检索时的效率,尤其是海量数据检索的效率。基于此设计思路,如附图1所示,该方法的具体实现过程为:
一、配置统一索引模型,部署处理服务器集群。
需要根据企事业单位内的业务信息,配置统一的索引模型,并部署索引处理服务器(搜索引擎)。
二、配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接。
根据映射关系,把不同业务系统关系型数据库中的数据导入到统一索引中,方便企事业单位内人员能够查询到数据库中的数据信息。映射关系与配置保存在数据库中,方便进行增量更新以及定时更新。
三、配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接。
根据映射关系,把不同业务系统中存在于HBASE中的数据导入到统一索引中,方便企事业单位内人员能够查询到HBASE中的数据信息。映射关系与配置保存在系统的数据库中,方便进行增量更新及定时更新。
四、配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接。
根据结构化文档脚本,把不同业务系统中存在于结构化文档中的数据导入到统一索引中,方便企事业单位内人员能够查询到结构化文档中的数据信息。形成独立脚本,以便进行增量更新及定时更新。
五、配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的连接。
根据非结构化文档脚本,把不同业务系统中存在于非结构化文档中的数据导入到统一索引中,方便企事业单位内人员能够查询到非结构化文档中的数据信息。形成独立脚本,以便进行增量更新及定时更新。
六、创建消息队列,通过消息队列实时创建索引。
对于企事业单位内的其他外接应用数据,可以通过消息队列的方式来实时创建索引。
七、搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中。
索引处理服务器对不同方式的索引数据进行分析处理,并将分析处理的结果保存在HDFS中。
八、提供统一检索入口。
系统提供统一的检索入口,方便企事业单位内用户对整合的共享数据信息进行检索。
本发明通过配置统一的索引模型,使用搜索引擎来管理、处理不同来源、不同格式的数据,针对不同的业务数据,配置相应的映射或脚本,然后采用相应的方式来创建索引,由搜索引擎来处理这些索引数据,并将处理的结果保存在HDFS中。最终提供统一的检索入口,企事业单位可以利用该入口来实现共享资源的检索,或开发自己的信息检索门户。
其中所配置统一的索引模型是企事业单位内各个管理系统数据模型的一个抽象。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种支持多种方式创建索引的方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (5)
1.一种支持多种方式创建索引的方法,其特征在于其具体实现过程为:
1)配置统一索引模型,部署安装搜索引擎服务器集群;
2)配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接;
3)配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接;
4)配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接;
5)配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的连接;
6)创建消息队列,通过消息队列实时创建索引;
7)搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中;
8)根据输入的关键字,进行相关检索。
2.根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤二中的映射将不同业务系统中存在于数据库中的数据导入到统一索引中,映射关系与配置保存在数据库中。
3.根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤三中的映射将不同业务系统中存在于HBASE中的数据导入到统一索引中,映射关系与配置保存在数据库中。
4.根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤四中的结构化文档脚本配置过程为:把不同业务系统中存在于结构化文档中的数据导入到统一索引中,形成独立脚本。
5.根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤五中的非结构化文档脚本配置过程为:把不同业务系统中存在于非结构化文档中的数据导入到统一索引中,形成独立脚本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410419509.XA CN104216966A (zh) | 2014-08-25 | 2014-08-25 | 一种支持多种方式创建索引的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410419509.XA CN104216966A (zh) | 2014-08-25 | 2014-08-25 | 一种支持多种方式创建索引的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104216966A true CN104216966A (zh) | 2014-12-17 |
Family
ID=52098456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410419509.XA Pending CN104216966A (zh) | 2014-08-25 | 2014-08-25 | 一种支持多种方式创建索引的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216966A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193849A (zh) * | 2016-03-15 | 2017-09-22 | 北大方正集团有限公司 | Xml文件全文检索索引生成方法及装置 |
CN107256252A (zh) * | 2017-06-09 | 2017-10-17 | 浪潮软件集团有限公司 | 一种第三方多维数据迁移方法及装置 |
CN107609154A (zh) * | 2017-09-23 | 2018-01-19 | 浪潮软件集团有限公司 | 一种多源异构数据的处理方法及装置 |
CN107665203A (zh) * | 2016-07-27 | 2018-02-06 | 北京京东尚科信息技术有限公司 | 用于多应用检索的方法、装置及系统 |
CN109726174A (zh) * | 2018-12-28 | 2019-05-07 | 江苏满运软件科技有限公司 | 数据归档方法、系统、设备以及存储介质 |
CN110851445A (zh) * | 2019-11-07 | 2020-02-28 | 浪潮云信息技术有限公司 | 一种基于区块链技术的安全存储数据的方法 |
CN111159285A (zh) * | 2019-12-05 | 2020-05-15 | 北京机电工程研究所 | 一种基于分布式索引服务部署的企业跨系统检索方法 |
CN116383311A (zh) * | 2023-06-05 | 2023-07-04 | 云筑信息科技(成都)有限公司 | 一种建筑行业供应商画像数据实时融合搜索的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201114128Y (zh) * | 2007-09-12 | 2008-09-10 | 福建富士通信息软件有限公司 | 企业搜索引擎装置 |
CN102033910A (zh) * | 2010-11-19 | 2011-04-27 | 福建富士通信息软件有限公司 | 一种基于多数据源的企业搜索引擎技术 |
CN102226897A (zh) * | 2011-05-13 | 2011-10-26 | 南京烽火星空通信发展有限公司 | 一种综合索引查询方法及装置 |
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
-
2014
- 2014-08-25 CN CN201410419509.XA patent/CN104216966A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201114128Y (zh) * | 2007-09-12 | 2008-09-10 | 福建富士通信息软件有限公司 | 企业搜索引擎装置 |
CN102033910A (zh) * | 2010-11-19 | 2011-04-27 | 福建富士通信息软件有限公司 | 一种基于多数据源的企业搜索引擎技术 |
CN102226897A (zh) * | 2011-05-13 | 2011-10-26 | 南京烽火星空通信发展有限公司 | 一种综合索引查询方法及装置 |
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
Non-Patent Citations (1)
Title |
---|
余斌: "海量非结构化数据分布式分析与检索", 《万方数据》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193849A (zh) * | 2016-03-15 | 2017-09-22 | 北大方正集团有限公司 | Xml文件全文检索索引生成方法及装置 |
CN107665203A (zh) * | 2016-07-27 | 2018-02-06 | 北京京东尚科信息技术有限公司 | 用于多应用检索的方法、装置及系统 |
CN107256252A (zh) * | 2017-06-09 | 2017-10-17 | 浪潮软件集团有限公司 | 一种第三方多维数据迁移方法及装置 |
CN107609154A (zh) * | 2017-09-23 | 2018-01-19 | 浪潮软件集团有限公司 | 一种多源异构数据的处理方法及装置 |
CN109726174A (zh) * | 2018-12-28 | 2019-05-07 | 江苏满运软件科技有限公司 | 数据归档方法、系统、设备以及存储介质 |
CN110851445A (zh) * | 2019-11-07 | 2020-02-28 | 浪潮云信息技术有限公司 | 一种基于区块链技术的安全存储数据的方法 |
CN110851445B (zh) * | 2019-11-07 | 2022-05-03 | 浪潮云信息技术股份公司 | 一种基于区块链技术的安全存储数据的方法 |
CN111159285A (zh) * | 2019-12-05 | 2020-05-15 | 北京机电工程研究所 | 一种基于分布式索引服务部署的企业跨系统检索方法 |
CN111159285B (zh) * | 2019-12-05 | 2023-04-21 | 北京机电工程研究所 | 一种基于分布式索引服务部署的企业跨系统检索方法 |
CN116383311A (zh) * | 2023-06-05 | 2023-07-04 | 云筑信息科技(成都)有限公司 | 一种建筑行业供应商画像数据实时融合搜索的方法 |
CN116383311B (zh) * | 2023-06-05 | 2023-08-18 | 云筑信息科技(成都)有限公司 | 一种建筑行业供应商画像数据实时融合搜索的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104216966A (zh) | 一种支持多种方式创建索引的方法 | |
CN110941612B (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
CN110990664A (zh) | 一种大数据运营管理系统 | |
US9355135B2 (en) | Data movement from a database to a distributed file system | |
CN106776783B (zh) | 非结构化数据存储管理方法和系统 | |
CN105138661A (zh) | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 | |
CN103309977B (zh) | 异构数据资源整合的方法 | |
CN110750650A (zh) | 企业知识图谱的构建方法及装置 | |
CN104933070A (zh) | 一种用于政务信息平台的目录管理系统 | |
CN105701181A (zh) | 一种动态异构元数据获取方法及系统 | |
CN103646073A (zh) | 一种基于HBase表的条件查询优化方法 | |
CN103631870A (zh) | 一种用于大规模分布式数据处理的系统及其方法 | |
CN106126601A (zh) | 一种社保大数据分布式预处理方法及系统 | |
CN103886104A (zh) | 一种适用于电力系统的分布式实时数据库管理系统及实现方法 | |
CN104036365A (zh) | 一种企业级数据服务平台建设方法 | |
CN103186541A (zh) | 一种映射关系生成方法及装置 | |
CN109408493A (zh) | 一种数据源的迁移方法及系统 | |
CN105681474A (zh) | 一种基于企业级大数据平台支撑上层应用的系统架构 | |
Kuo et al. | Design and construction of a big data analytics framework for health applications | |
Das et al. | A study on big data integration with data warehouse | |
CN105956932A (zh) | 配用电数据融合方法和系统 | |
CN102214235A (zh) | 一种基于实时权限控制的企业管理软件搜索引擎集成方法 | |
CN107704585A (zh) | 一种查询hdfs数据方法及系统 | |
Khine et al. | Big data for organizations: a review | |
Tahmassebpour et al. | Increase efficiency big data in intelligent transportation system with using IoT integration cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141217 |