CN105320754A - 一种数据搜索系统及方法 - Google Patents

一种数据搜索系统及方法 Download PDF

Info

Publication number
CN105320754A
CN105320754A CN201510646490.7A CN201510646490A CN105320754A CN 105320754 A CN105320754 A CN 105320754A CN 201510646490 A CN201510646490 A CN 201510646490A CN 105320754 A CN105320754 A CN 105320754A
Authority
CN
China
Prior art keywords
storage unit
data
unit
retrieval
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510646490.7A
Other languages
English (en)
Inventor
李计
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI HANYIN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI HANYIN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI HANYIN INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI HANYIN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510646490.7A priority Critical patent/CN105320754A/zh
Publication of CN105320754A publication Critical patent/CN105320754A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息技术领域,尤其涉及一种数据搜索系统及方法。一种数据搜索系统,包括,第一存储单元,预先存储数据信息;数据迁移单元,与第一存储单元连接,用于将保存在第一存储单元中的数据迁移至一第二存储单元中;数据组织单元,与第二存储单元连接,对第二存储单元中的网站信息和网页信息进行标引以建立索引数据库;检索单元,与第二存储单元连接,根据客户端应用程序发起的检索请求访问第二存储单元并返回检索结果。以上技术方案通过将原本保存在第一存储单元中的数据迁移至第二存储单元中,于第二存储单元中建立索引数据库,以改善现有的数据搜索过程缓慢的缺陷。

Description

一种数据搜索系统及方法
技术领域
本发明涉及信息技术领域,尤其涉及一种数据搜索系统及方法。
背景技术
随着信息科学的快速发展,数据库技术得到了广泛的应用,很多金融机构、政府机关、企事业单位、大型网站都组建了自己的核心数据库,Oracle数据库以其稳定的表现、强大的管理能力成为大型企业的首选数据库,然而,由于其管理的数据量随着时间的推移变得越来越庞大,使得搜索引擎从Oracle数据库执行检索时,搜索过程非常缓慢,同时,也使得数据库系统的性能大大降低。因此,亟需一种方法解决由于关系数据库在数据量非常庞大的情况下,其数据库的检索性能下降的问题。
发明内容
针对现有技术存在的上述技术问题,提供一种数据搜索系统及方法。
具体技术方案如下:
一种数据搜索系统,其中,包括,
第一存储单元,预先存储数据信息;
数据迁移单元,与所述第一存储单元连接,用于将保存在所述第一存储单元中的数据迁移至一第二存储单元中;
数据组织单元,与所述第二存储单元连接,对所述第二存储单元中的网站信息和网页信息进行标引和排序以建立索引数据库;
检索单元,与所述数据组织单元和所述第二存储单元连接,根据客户端应用程序发起的检索请求访问所述第二存储单元并返回检索结果。
上述的一种数据搜索系统,所述第一存储单元为Oracle或者SQL类型的数据库。
上述的一种数据搜索系统,所述第二存储单元采用数据表索引的数据结构。
上述的一种数据搜索系统,所述检索单元包括,
请求获取单元,用于获取所述检索请求;
检索策略单元,与所述请求获取单元连接,用于依据所述检索请求制定检索策略;
检索执行单元,与所述检索策略单元连接,依据所述检索策略自所述第二存储单元中查找相应索引。
上述的一种数据搜索系统,所述检索单元还包括转换单元,位于服务器端,用于将用户在客户端应用程序发起的搜索指令转换为所述检索单元可接受的指令格式作为所述检索请求。
上述的一种数据搜索系统,所述检索结果还通过所述转换单元进行转换后发送给所述客户端。
本发明还提供一种数据搜索方法,用于上述的数据搜索系统,包括,
步骤1,将保存在所述第一存储单元中的数据迁移至一第二存储单元中;
步骤2,对所述第二存储单元中的网站信息和网页信息进行标引和排序,在所述第二存储单元中建立索引数据库;
步骤3,根据客户端发起的检索请求访问相应的索引数据库并生成检索结果。
上述的一种数据搜索方法,步骤3具体如下:
步骤31,获取所述检索请求;
步骤32,依据所述检索请求制定检索策略;
步骤33,依据所述检索策略自所述第二存储单元中查找相应网页的索引。
上述的一种数据搜索方法,步骤3中还包括将用户在客户端应用程序发起的搜索指令转换为所述检索单元可接受的指令格式作为所述检索请求。
上述的一种数据搜索方法,所述第二存储单元采用数据表索引的数据结构。
有益效果:本发明通过将原本保存在第一存储单元中的数据迁移至第二存储单元中,并在第二存储单元中建立索引数据库,通过表索引的检索方式实现数据快速检索,改善现有关系数据库的数据搜索过程缓慢的缺陷;也降低了频繁查询对第一存储单元造成的影响,提高了系统的稳定性,并解决了关系性数据库因为数据量大而不能使用全模糊匹配查询的弊端。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明的系统结构示意图;
图2为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参照图1,一种数据搜索系统,其中,包括,
第一存储单元1,预先存储数据信息;
数据迁移单元2,与第一存储单元1连接,用于将保存在第一存储单元1中的数据迁移至一第二存储单元3中;
数据组织单元4,与第二存储单元3连接,对第二存储单元3中的网站信息和网页信息进行标引和排序以建立索引数据库;
检索单元5,与第二存储单元3和数据组织单元4连接,根据客户端应用程序发起的检索请求访问第二存储单元3并返回检索结果。
随着数据量飞速增长,大数据已成为业务系统的瓶颈,现有技术中从Oracle数据库执行检索时,轻则搜索过程非常缓慢,重则数据库崩溃,业务系统瘫痪,影响了系统正常的业务处理,也给用户带来了很差的用户体验。本发明通过将原本保存在第一存储单元中的数据迁移至第二存储单元中,于第二存储单元中建立索引数据库,客户端需要查找信息时,检索单元直接在第二存储单元进行检索,并把与检索请求相匹配的信息作为检索结果返回给用户,以改善现有的数据搜索过程缓慢的缺陷,也降低了频繁查询对第一存储单元造成的影响,提高了系统的稳定性。
上述的一种数据搜索系统,第一存储单元1可以为Oracle或者SQL类型的数据库。
上述的一种数据搜索系统,第二存储单元3可以采用数据表索引的数据结构。在第二存储单元建立数据索引Index及相应的数据类型,以便于存储同步数据。
上述的一种数据搜索系统,检索单元5位于一服务器端,可以包括,
请求获取单元51,用于获取检索请求;
检索策略单元52,与请求获取单元51连接,用于依据检索目标制定检索策略;
检索执行单元53,与检索策略单元52连接,依据检索策略自第二存储单元3中查找相应索引。
该检索单元可以采用Elasticsearch,一种基于Lucene的搜索服务器。ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,Lucene是一个开发源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。
于一种改进的实施例中,检索单元5还包括转换单元54,位于服务器端,用于将用户在客户端6应用程序61发起的搜索指令转换为检索单元5可接受的指令格式作为检索请求。
上述的一种数据搜索系统,检索结果还通过转换单元54进行转换后发送给客户端6。
本发明还提供一种数据搜索方法,用于上述的数据搜索系统,参照图2,包括,
步骤1,将保存在第一存储单元中的数据迁移至一第二存储单元中;
步骤2,对第二存储单元中的网站信息和网页信息进行标引和排序,在第二存储单元中建立索引数据库;
步骤3,根据客户端发起的检索请求访问相应的索引数据库并生成检索结果。
上述的步骤1可采用python编程语言或其他编程语言编写的数据同步脚本,通过shell脚本调用,每隔几分钟定时执行一次,将该时间段内的增量数据同步至第二存储单元,第二存储单元可以包括于检索单元如Elasticsearch中;上述的步骤2中通过在第二存储单元建立数据索引Index及相应的数据类型,以便于存储同步数据;
上述的一种数据搜索方法,步骤3具体如下:
步骤31,获取检索请求;
步骤32,依据检索请求制定检索策略;
步骤33,依据检索策略自第二存储单元中查找相应网页的索引。
步骤31可模糊检索,并不影响效率,以解决关系性数据库因为数据量大而不能使用全模糊匹配查询的弊端。
上述的一种数据搜索方法,步骤3中还包括将用户在客户端应用程序发起的搜索指令转换为检索单元可接受的指令格式作为检索请求。
用户在客户端6应用程序61发起的搜索指令被服务器端的转换单元依据第二存储单元提供的API(ApplicationProgrammingInterface,应用程序编程接口)转换成一种轻量级的数据格式如json格式的参数字符串,以超文本传输协议(HTTP,HyperTextTransferProtocol)的请求方式发送至检索单元,经搜索后将搜索结果以json格式的数据返回,服务器端接收数据并将数据转换成相应的数据集合发送至用户终端。
服务器端也可实时发送修改和删除指令,转换单元依据第二存储单元提供的API将搜索指令转换成json格式的参数字符串,以超文本传输协议的请求方式发送至检索单元,作相应的修改或删除操作,这样可以保证重要的业务数据,不会因为数据定时同步的延迟造成数据的不一致性,从而保证用户正确的业务操作。
上述的一种数据搜索方法,第二存储单元可以采用数据表索引的数据结构。例如搜索引擎自身挂载的数据存储结构:数据表index。
以上技术方案通过将原本保存在数据库(例如oracle等)中的数据迁移至上述索引数据库中。搜索人员通过终端的应用程序发出搜索指令,搜索指令被服务器端的转换单元转换成搜索引擎可接受的指令格式并被发送至搜索引擎。搜索引擎接收到该指令后进行搜索,并返回相应的搜索结果,发送至用户终端。搜索结果同样被上述转换单元进行相应转换后发送至用户终端。可以有效改善现有的数据搜索过程缓慢的缺陷;也降低了频繁查询对第一存储单元造成的影响,提高了系统的稳定性,并解决了关系性数据库因为数据量大而不能使用全模糊匹配查询的弊端。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。

Claims (10)

1.一种数据搜索系统,其特征在于,包括,
第一存储单元,预先存储数据信息;
数据迁移单元,与所述第一存储单元连接,用于将保存在所述第一存储单元中的数据迁移至一第二存储单元中;
数据组织单元,与所述第二存储单元连接,对所述第二存储单元中的网站信息和网页信息进行标引和排序以建立索引数据库;
检索单元,与所述数据组织单元和所述第二存储单元连接,根据客户端应用程序发起的检索请求访问所述第二存储单元并返回检索结果。
2.根据权利要求1所述的一种数据搜索系统,其特征在于,所述第一存储单元为Oracle或者SQL类型的数据库。
3.根据权利要求1所述的一种数据搜索系统,其特征在于,所述检索单元采用基于Lucene的搜索服务器。
4.根据权利要求1所述的一种数据搜索系统,其特征在于,所述检索单元包括,
请求获取单元,用于获取所述检索请求;
检索策略单元,与所述请求获取单元连接,用于依据所述检索请求制定检索策略;
检索执行单元,与所述检索策略单元连接,依据所述检索策略自所述第二存储单元中查找相应索引。
5.根据权利要求1所述的一种数据搜索系统,其特征在于,所述检索单元还包括转换单元,用于将用户在客户端应用程序发起的搜索指令转换为所述检索单元可接受的指令格式作为所述检索请求。
6.根据权利要求5所述的一种数据搜索系统,其特征在于,所述检索结果还通过所述转换单元进行转换后发送给所述客户端。
7.一种数据搜索方法,其特征在于,用于权利要求1所述的数据搜索系统,包括,
步骤1,将保存在所述第一存储单元中的数据迁移至一第二存储单元中;
步骤2,对所述第二存储单元中的网站信息和网页信息进行标引和排序,在所述第二存储单元中建立索引数据库;
步骤3,根据客户端发起的检索请求访问相应的索引数据库并生成检索结果。
8.根据权利要求7所述的一种数据搜索方法,其特征在于,步骤3具体如下:
步骤31,获取所述检索请求;
步骤32,依据所述检索请求制定检索策略;
步骤33,依据所述检索策略自所述第二存储单元中查找相应网页的索引。
9.根据权利要求7所述的一种数据搜索方法,其特征在于,步骤3中还包括将用户在客户端应用程序发起的搜索指令转换为所述检索单元可接受的指令格式作为所述检索请求。
10.根据权利要求7所述的一种数据搜索方法,其特征在于,所述检索单元采用基于Lucene的搜索服务器。
CN201510646490.7A 2015-10-08 2015-10-08 一种数据搜索系统及方法 Pending CN105320754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510646490.7A CN105320754A (zh) 2015-10-08 2015-10-08 一种数据搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510646490.7A CN105320754A (zh) 2015-10-08 2015-10-08 一种数据搜索系统及方法

Publications (1)

Publication Number Publication Date
CN105320754A true CN105320754A (zh) 2016-02-10

Family

ID=55248140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510646490.7A Pending CN105320754A (zh) 2015-10-08 2015-10-08 一种数据搜索系统及方法

Country Status (1)

Country Link
CN (1) CN105320754A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021611A (zh) * 2016-06-27 2016-10-12 安徽科成信息科技有限公司 一种班班通学习平台
CN106096045A (zh) * 2016-06-27 2016-11-09 安徽科成信息科技有限公司 一种带有语义搜索功能的班班通学习平台
CN106156288A (zh) * 2016-06-29 2016-11-23 裴萌 带有语义搜索功能的学习平台
CN106168972A (zh) * 2016-07-11 2016-11-30 上海瀚银信息技术有限公司 一种框架结构的数据同步系统及方法
CN106202221A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种带有语义搜索功能的学习平台
CN106202214A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种语义搜索学习平台
CN106327930A (zh) * 2016-08-26 2017-01-11 安徽天立泰科技股份有限公司 一种智能教育学习平台
CN107291938A (zh) * 2017-07-06 2017-10-24 携程旅游网络技术(上海)有限公司 订单查询系统及方法
CN109063138A (zh) * 2018-08-03 2018-12-21 上海点融信息科技有限责任公司 用于在区块链即服务平台搜索数据的方法、设备及存储介质
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN110442559A (zh) * 2019-07-05 2019-11-12 深圳中兴网信科技有限公司 日志检索方法、装置以及服务器
CN110807038A (zh) * 2019-09-18 2020-02-18 国网江苏省电力有限公司 一种基于Elasticsearch的CMDB信息全文检索方法
CN112487025A (zh) * 2020-12-18 2021-03-12 广州奇享科技有限公司 数据查询方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3029415B2 (ja) * 1998-02-12 2000-04-04 三菱電機株式会社 データベース保守管理システム
CN102982034A (zh) * 2011-09-05 2013-03-20 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
CN103744913A (zh) * 2013-12-27 2014-04-23 高新兴科技集团股份有限公司 一种基于搜索引擎技术的数据库检索方法
CN104063385A (zh) * 2013-03-20 2014-09-24 北京栋邦达科技有限公司 企业内信息搜索系统和方法
CN104679897A (zh) * 2015-03-18 2015-06-03 成都金本华科技股份有限公司 一种大数据环境下的数据检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3029415B2 (ja) * 1998-02-12 2000-04-04 三菱電機株式会社 データベース保守管理システム
CN102982034A (zh) * 2011-09-05 2013-03-20 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
CN104063385A (zh) * 2013-03-20 2014-09-24 北京栋邦达科技有限公司 企业内信息搜索系统和方法
CN103744913A (zh) * 2013-12-27 2014-04-23 高新兴科技集团股份有限公司 一种基于搜索引擎技术的数据库检索方法
CN104679897A (zh) * 2015-03-18 2015-06-03 成都金本华科技股份有限公司 一种大数据环境下的数据检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
(美)埃里克•珍兆科(ERICJENDROCK): "《Java EE 7权威指南 卷1》", 31 May 2015 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021611A (zh) * 2016-06-27 2016-10-12 安徽科成信息科技有限公司 一种班班通学习平台
CN106096045A (zh) * 2016-06-27 2016-11-09 安徽科成信息科技有限公司 一种带有语义搜索功能的班班通学习平台
CN106202221A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种带有语义搜索功能的学习平台
CN106202214A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种语义搜索学习平台
CN106156288A (zh) * 2016-06-29 2016-11-23 裴萌 带有语义搜索功能的学习平台
CN106168972A (zh) * 2016-07-11 2016-11-30 上海瀚银信息技术有限公司 一种框架结构的数据同步系统及方法
CN106327930A (zh) * 2016-08-26 2017-01-11 安徽天立泰科技股份有限公司 一种智能教育学习平台
CN107291938A (zh) * 2017-07-06 2017-10-24 携程旅游网络技术(上海)有限公司 订单查询系统及方法
CN107291938B (zh) * 2017-07-06 2020-04-07 携程旅游网络技术(上海)有限公司 订单查询系统及方法
CN109063138A (zh) * 2018-08-03 2018-12-21 上海点融信息科技有限责任公司 用于在区块链即服务平台搜索数据的方法、设备及存储介质
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN110442559A (zh) * 2019-07-05 2019-11-12 深圳中兴网信科技有限公司 日志检索方法、装置以及服务器
CN110807038A (zh) * 2019-09-18 2020-02-18 国网江苏省电力有限公司 一种基于Elasticsearch的CMDB信息全文检索方法
CN112487025A (zh) * 2020-12-18 2021-03-12 广州奇享科技有限公司 数据查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105320754A (zh) 一种数据搜索系统及方法
CN109299102B (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
CN105630864B (zh) 存储行标识符值的字典的强制排序
US7818324B1 (en) Searching indexed and non-indexed resources for content
CN104750681B (zh) 一种海量数据的处理方法及装置
CN102184222B (zh) 一种在大数据量存储中快速检索的方法
CN107038207A (zh) 一种数据查询方法、数据处理方法及装置
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN103810224A (zh) 信息持久化和查询方法及装置
CN104102710A (zh) 一种海量数据查询方法
CN111382226A (zh) 一种数据库查询检索方法、装置和电子设备
CN111651519B (zh) 数据同步方法、数据同步装置、电子设备及存储介质
US10762068B2 (en) Virtual columns to expose row specific details for query execution in column store databases
US11409722B2 (en) Database live reindex
CN104462161A (zh) 基于分布式数据库的结构化数据查询方法
US20220358178A1 (en) Data query method, electronic device, and storage medium
CN104516985A (zh) 一种基于HBase数据库的海量数据快速导入方法
CN111782731A (zh) 一种数据同步方法及装置
CN103559270A (zh) 一种词条的存储和管理方法
CN104462588A (zh) 一种基于云数据库的知识产权检索系统
US9092338B1 (en) Multi-level caching event lookup
Vidhya et al. Research document search using elastic search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160210