CN108153770A - 一种搜索引擎加速的方法和系统 - Google Patents

一种搜索引擎加速的方法和系统 Download PDF

Info

Publication number
CN108153770A
CN108153770A CN201611104766.XA CN201611104766A CN108153770A CN 108153770 A CN108153770 A CN 108153770A CN 201611104766 A CN201611104766 A CN 201611104766A CN 108153770 A CN108153770 A CN 108153770A
Authority
CN
China
Prior art keywords
data
search engine
search
filing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611104766.XA
Other languages
English (en)
Inventor
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVM Beijing Technology Co Ltd
Original Assignee
TVM Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVM Beijing Technology Co Ltd filed Critical TVM Beijing Technology Co Ltd
Priority to CN201611104766.XA priority Critical patent/CN108153770A/zh
Publication of CN108153770A publication Critical patent/CN108153770A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种搜索引擎加速的方法和系统,该方法包括:在搜索引擎中添加新数据;设定时间周期,定时对数据进行归档;所述归档的过程中,对发现的重复数据或过期数据进行删除;使用搜索引擎查询数据。本发明技术方案提高了数据的质量,避免了重复数据和无效数据对搜索结果的影响,加快了信息检索的速度,降低了整体技术方案的成本,提高了信息检索的效率,适应了互联网搜索快速发展的需求。

Description

一种搜索引擎加速的方法和系统
技术领域
本发明涉及互联网技术领域,特别涉及一种搜索引擎加速的方法和系统。
背景技术
互联网发展迅速,已成为人们生活的重要组成部分和人类文明传播发展的重要载体,渗透到经济、政治、文化、社会生活各个方面,改变着人们的交往方式和思维方式。无论是在工业领域或者是在社会生活领域,互联网给人的改变是巨大的。
作为互联网数据记录的核心,数据库也渗透到社会的各个方面,得到广泛的发展和应用。数据库是按照一定的结构和规则组织起来的相关数据的集合,是从全局观点出发建立的,按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。
数据库用于数据的存储和处理,存储的是属于企业、事业部门、团体和个人的有关数据的集合,是一个单位或是一个应用领域的通用数据处理系统。数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。
数据库是重要的电子资源,是适应互联网发展的信息技术,具有以下特点:
1)、数据的结构化。数据库中的数据并不是杂乱无章、毫不相干的,它们具有一定的组织结构,属于同一集合的数据具有相似的特征。
2)、数据具共享性。在一个单位的各个部门之间,存在着大量的重复信息。使用数据库的目的就是要统一管理这些信息,减少冗余度,使各个部门共同享有相同的数据。
3)、数据的独立性。数据的独立性是指数据记录和数据管理软件之间的独立。数据及其结构应具有独立性,而不应该去改变应用程序。
4)、数据的完整性。数据的完整性是指保证数据库中数据的正确性。可能造成数据不正确的原因很多,数据库管理系统通过对数据性质进行检查而管理它们。
5)、数据的灵活性。数据库管理系统不是把数据简单堆积,它在记录数据信息的基础上具有很多的管理功能,如输入、输出、查询、编辑修改等。
6)、数据的安全性。根据用户的职责,不同级别的人对数据库具有不同的权限,数据库管理系统能够确保数据的安全性。
随着数据库技术的广泛应用,信息量增长与传播速度达到了前所未有的高度。信息发布的媒介类型的多样化使信息的冗余度越来越高,信息资源的生命期越来越短,给人门在信息的海洋中选择获取信息带来了比以前更大的难度。在信息社会中,检索技术对于数据的有效应用越来越重要,主要体现在:
1)、信息检索技术可以快速查找所需的信息。高效的信息检索技术能够节约时间和成本,准确、快速的获得所需的信息,提高工作效益,做到事半功倍,实现信息资源的有效利用。
2)、高效检索技术能够及时系统地了解已有的数据的积累情况,掌握业务最新动态及发展趋势,适时作出正确的决策,使所开展的工作取得最快、最有效的进展。
3)、高效检索能及时把握最新的信息,促进新业务和应用的不断涌现。
4)、有助于科学决策。随着现代信息技术的高速发展,信息资源的电子化、多元化以及运行条件的网络化已经成为现实。无论是国家、部门还是企业都将更多地依赖于数据等信息的迅速交流、传播和利用。智能技术日益成为制定政策的手段。知识和信息日益成为科学、民主、合理决策之源泉。而信息检索则是获取信息的重要途径,是科学决策的必要前提。
现有的数据库技术由于受到数据更迭快、数据质量差、数据结构、内存、I/O吞吐量、索引、锁或者死锁等方面的因素,影响了检索效率,降低了网站的搜索效率,检索效率和检索效果降低,无法充分满足数据检索查询的需求。为此,需要加强搜索引擎的数据有效性,以提高数据检索的效率。
发明内容
本发明提供一种搜索引擎加速的方法和系统,提高了数据的质量,避免了重复数据和无效数据对搜索结果的影响,加快了信息检索的速度,降低了整体技术方案的成本,提高了信息检索的效率,适应了互联网搜索快速发展的需求。
本发明的技术方案提供了一种搜索引擎加速的方法,包括以下步骤:
在搜索引擎中添加新数据;
对数据进行归档;
使用搜索引擎查询数据。
进一步的,搜索引擎实时添加新数据。
进一步的,设定时间周期,定时对数据进行归档。
进一步的,所述归档包括但不限于根据时间、地域和类别对数据进行分类和建立检索索引。
进一步的,所述归档的过程中,对发现的重复数据或过期数据进行删除。
进一步的,所述使用搜索引擎查询数据,进一步包括:
采用Nginx web服务器和lua接口相结合的方式,编写查询API、分词API和中英互换API,供搜索查询调用。
进一步的,所述搜索和查询对象为所述归档后的最新数据。
本发明的技术方案还提供了一种搜索引擎加速的系统,包括数据更新单元、归档单元和检索单元,其中:
数据更新单元用于添加新数据;
归档单元用于对数据进行归档,包括对数据进行分类和建立检索索引;
检索单元用于对数据进行检索和查询。
进一步的,所述数据更新单元实时添加数据。
进一步的,所述归档单元定时对数据进行归纳和分类。
本发明技术方案提高了数据的质量,避免了重复数据和无效数据对搜索结果的影响,加快了信息检索的速度,降低了整体技术方案的成本,提高了信息检索的效率,适应了互联网搜索快速发展的需求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一中搜索引擎加速的方法流程图;
图2为本发明实施例一中搜索引擎加速的系统结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例一中搜索引擎加速的方法流程图。如图1所示,该流程包括以下步骤:
步骤101、在搜索引擎中添加新数据。
搜索引擎实时添加新数据。
步骤102、对数据进行归档。
设定时间周期,定时对数据进行归档。
归档包括但不限于根据时间、地域和类别对数据进行分类和建立检索索引。
归档的过程中,对发现的重复数据或过期数据进行删除。
步骤103、使用搜索引擎查询数据。
采用Nginx web服务器和lua接口相结合的方式,编写查询API、分词API和中英互换API,供搜索查询调用。
搜索和查询对象为所述归档后的最新数据。
为了实现上述方法流程,本实施例还提供了一种搜索引擎加速的系统,图2为本发明实施例一中搜索引擎加速的系统结构图。如图2所示,该系统包括数据更新单元201、归档单元202和检索单元203,其中:
数据更新单元用于添加新数据;
归档单元用于对数据进行归档,包括对数据进行分类和建立检索索引;
检索单元用于对数据进行检索和查询。
其中,数据更新单元实时添加数据。
归档单元定时对数据进行归纳和分类。
本发明技术方案加强了数据质量的管理,避免了重复数据和无效数据对搜索结果的影响,加快了信息检索的速度,降低了整体技术方案的成本,提高了信息检索的效率,适应了互联网搜索快速发展的需求。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软w件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种搜索引擎加速的方法,其特征在于,包括以下步骤:
在搜索引擎中添加新数据;
对数据进行归档;
使用搜索引擎查询数据。
2.根据权利要求1所述的方法,其特征在于,搜索引擎实时添加新数据。
3.根据权利要求1所述的方法,其特征在于,设定时间周期,定时对数据进行归档。
4.根据权利要求1或3所述的方法,其特征在于,所述归档包括但不限于根据时间、地域和类别对数据进行分类和建立检索索引。
5.根据权利要求1、3或4所述的方法,其特征在于,所述归档的过程中,对发现的重复数据或过期数据进行删除。
6.根据权利要求1所述的方法,其特征在于,所述使用搜索引擎查询数据,进一步包括:
采用Nginx web服务器和lua接口相结合的方式,编写查询API、分词API和中英互换API,供搜索查询调用。
7.根据权利要求1所述的方法,其特征在于,所述搜索和查询对象为所述归档后的最新数据。
8.一种搜索引擎加速的系统,其特征在于,包括数据更新单元、归档单元和检索单元,其中:
数据更新单元用于添加新数据;
归档单元用于对数据进行归档,包括对数据进行分类和建立检索索引;
检索单元用于对数据进行检索和查询。
9.根据权利要求8所述的系统,其特征在于,所述数据更新单元实时添加数据。
10.根据权利要求8所述的系统,其特征在于,所述归档单元定时对数据进行归纳和分类。
CN201611104766.XA 2016-12-05 2016-12-05 一种搜索引擎加速的方法和系统 Pending CN108153770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611104766.XA CN108153770A (zh) 2016-12-05 2016-12-05 一种搜索引擎加速的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611104766.XA CN108153770A (zh) 2016-12-05 2016-12-05 一种搜索引擎加速的方法和系统

Publications (1)

Publication Number Publication Date
CN108153770A true CN108153770A (zh) 2018-06-12

Family

ID=62470787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611104766.XA Pending CN108153770A (zh) 2016-12-05 2016-12-05 一种搜索引擎加速的方法和系统

Country Status (1)

Country Link
CN (1) CN108153770A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143646A (zh) * 2018-11-06 2020-05-12 沈阳美行科技有限公司 一种多引擎搜索系统及其实现方法
CN114218013A (zh) * 2021-12-13 2022-03-22 北京字节跳动网络技术有限公司 搜索方法、装置、电子设备存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288001A1 (en) * 2005-06-20 2006-12-21 Costa Rafael Rego P R System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
CN101887436A (zh) * 2009-05-12 2010-11-17 阿里巴巴集团控股有限公司 一种检索方法、装置和系统
CN102982034A (zh) * 2011-09-05 2013-03-20 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288001A1 (en) * 2005-06-20 2006-12-21 Costa Rafael Rego P R System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
CN101887436A (zh) * 2009-05-12 2010-11-17 阿里巴巴集团控股有限公司 一种检索方法、装置和系统
CN102982034A (zh) * 2011-09-05 2013-03-20 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143646A (zh) * 2018-11-06 2020-05-12 沈阳美行科技有限公司 一种多引擎搜索系统及其实现方法
CN111143646B (zh) * 2018-11-06 2023-09-29 沈阳美行科技股份有限公司 一种多引擎搜索系统及其实现方法
CN114218013A (zh) * 2021-12-13 2022-03-22 北京字节跳动网络技术有限公司 搜索方法、装置、电子设备存储介质

Similar Documents

Publication Publication Date Title
Wang et al. Performance prediction for apache spark platform
CN106844507B (zh) 一种数据批处理的方法及设备
Nédelec et al. LSEQ: an adaptive structure for sequences in distributed collaborative editing
US10133770B2 (en) Copying garbage collector for B+ trees under multi-version concurrency control
CN107451831A (zh) 任务推送方法
CN104572785B (zh) 一种分布式创建索引的方法和装置
CN105677903A (zh) 获取数据的方法和装置、计算机设备
CN106021566A (zh) 一种提高单台数据库并发处理能力的方法、装置及系统
CN110109894A (zh) 非关系型数据库的实现方法、装置、存储介质和设备
CN108153770A (zh) 一种搜索引擎加速的方法和系统
CN104537012B (zh) 数据处理方法和装置
US7792966B2 (en) Zone control weights
CN107622059A (zh) 一种提高数据库搜索效率的方法和系统
CN113535766B (zh) 作业流配置方法、装置、电子装置及存储介质
EP3282370A1 (en) Batch data query method and device
CN111125090B (zh) 数据存取方法及装置
CN109446268A (zh) 一种数据同步方法及装置
Tao et al. Parallel K-modes algorithm based on MapReduce
CN107590077A (zh) 一种Spark负载访存行为追踪方法及装置
JP2008225686A (ja) 分散型データ処理プラットフォームにおけるデータ配置管理装置と方法、システム及びプログラム
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备
US20140280385A1 (en) Hierarchical intersections
CN108763381A (zh) 基于一致性哈希算法的分表方法及设备
CN108062310A (zh) 一种分布式数据检索结果分页显示的方法和系统
Kim et al. MapReduce Based Experimental Frame for Parallel and Distributed Simulation Using Hadoop Platform.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180612

WD01 Invention patent application deemed withdrawn after publication