CN105488124A - 一种创建索引文件的方法及装置 - Google Patents

一种创建索引文件的方法及装置 Download PDF

Info

Publication number
CN105488124A
CN105488124A CN201510822336.0A CN201510822336A CN105488124A CN 105488124 A CN105488124 A CN 105488124A CN 201510822336 A CN201510822336 A CN 201510822336A CN 105488124 A CN105488124 A CN 105488124A
Authority
CN
China
Prior art keywords
index
index file
thread
creation
creates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510822336.0A
Other languages
English (en)
Inventor
金洪殿
赵仁明
亓开元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510822336.0A priority Critical patent/CN105488124A/zh
Publication of CN105488124A publication Critical patent/CN105488124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种创建索引文件的方法及装置,该方法包括:根据数据规模以及业务需求,确定执行索引创建的线程数量;通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;各个线程分别创建对应数据范围的索引文件;将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。本发明所提供的创建索引文件的方法及装置,采用多线程并行创建索引的方式,提高了索引的效率。

Description

一种创建索引文件的方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种创建索引文件的方法及装置。
背景技术
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
检索主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现中与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。
Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。
Lucene特殊的索引结构,决定了其只能使用一个IndexWriter对索引进行添加操作。这样对于大数据量的索引,如果无法实现并行创建索引,索引的过程将十分耗时。
发明内容
本发明的目的是提供一种创建索引文件的方法及装置,目的在于解决当索引数据规模较大时,现有的索引方法索引效率较低的问题。
为解决上述技术问题,本发明提供一种创建索引文件的方法,包括:
根据数据规模以及业务需求,确定执行索引创建的线程数量;
通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
各个线程分别创建对应数据范围的索引文件;
将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
可选地,所述将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中包括:
当各个线程的索引文件创建执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
可选地,所述各个线程分别创建对应数据范围的索引文件包括:
各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。
本发明还提供了一种创建索引文件的装置,包括:
第一确定模块,用于根据数据规模以及业务需求,确定执行索引创建的线程数量;
第二确定模块,用于通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
创建模块,用于各个线程分别创建对应数据范围的索引文件;
存储模块,用于将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
可选地,所述存储模块具体用于:
当各个线程的索引文件创建执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
可选地,所述创建模块具体用于:
各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。
本发明所提供的创建索引文件的方法及装置,根据数据规模以及业务需求,确定执行索引创建的线程数量;然后通过数据规模以及线程数量,确定各个线程分别负责进行索引的数据范围;各个线程分别创建对应数据范围的索引文件;将各个线程创建的所述索引文件进行合并,存储于一个索引目录中。本发明所提供的创建索引文件的方法及装置,采用多线程并行创建索引的方式,提高了索引的效率。
附图说明
图1为本发明所提供的创建索引文件的方法的一种具体实施方式的流程图;
图2为本发明所提供的创建索引文件的方法的另一种具体实施方式的流程图;
图3为本发明实施例提供的创建索引文件的装置的结构框图。
具体实施方式
在当前的企业全文检索应用领域,基于Lucene的全文检索引擎非常适合处理高并发、低延迟的的查询需求。Lucene的索引是一个写独占、读共享的结构,这意味着,在使用多线程进行添加索引时,性能并不会得到明显的提升,所以任何时刻只能有一个线程对索引进行写入操作,如果同一时刻有多个不同IndexWriter对索引进行写入操作,那么将会引发锁重叠异常,所以Lucene的特殊的索引结构,决定了其只能使用一个IndexWriter对索引进行添加操作。这样对于大数据量的索引,如果无法实现并行创建索引,索引的过程将十分耗时。鉴于此,本发明的核心是提供一种可并发创建索引文件的方法及装置。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的创建索引文件的方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:根据数据规模以及业务需求,确定执行索引创建的线程数量;
步骤S102:通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
步骤S103:各个线程分别创建对应数据范围的索引文件;
步骤S104:将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
本发明所提供的创建索引文件的方法,根据数据规模以及业务需求,确定执行索引创建的线程数量;然后通过数据规模以及线程数量,确定各个线程分别负责进行索引的数据范围;各个线程分别创建对应数据范围的索引文件;将各个线程创建的所述索引文件进行合并,存储于一个索引目录中。本发明所提供的创建索引文件的方法及装置,采用多线程并行创建索引的方式,提高了索引的效率。
本发明所提供的创建索引文件的方法的另一种具体实施方式的流程图如图2所示,与上一实施例相比,本实施例中增加了对各个线程的索引文件是否全部创建完成的判断,该方法包括:
步骤S201:根据数据规模以及业务需求,确定执行索引创建的线程数量;
步骤S202:通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
步骤S203:各个线程分别创建对应数据范围的索引文件,并存储于不同的路径中;
步骤S204:判断各个线程索引是否均执行完成;
步骤S205:当各个线程的索引文件创建均执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
本实施例基于Lucene架构的检索引擎,在进行索引的数据规模很大,采用传统的索引方式无法满足需求时,采用多线程并行创建索引的方式来提高索引的效率。首先根据数据规模和实际需要,确定执行索引创建的线程数量,根据线程的数量与数据计算出各个线程需要负责进行索引的数据范围即数据便宜量。各线程执行索引创建的过程中,分别将索引存储到各种的索引目录,当各个线程的索引创建任务执行完成后,将各个线程创建的索引文件进行合并操作,将其合并到一个索引目录下,从而实现了并行创建索引的目的。
在上述任一实施例的基础上,本申请中并行进行的索引创建需要互不影响,不会引发锁重叠异常。
下面对本发明实施例提供的创建索引文件的装置进行介绍,下文描述的创建索引文件的装置与上文描述的创建索引文件的方法可相互对应参照。图3为本发明实施例提供的创建索引文件的装置的结构框图,参照图3创建索引文件的装置可以包括:
第一确定模块100,用于根据数据规模以及业务需求,确定执行索引创建的线程数量;
第二确定模块200,用于通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
创建模块300,用于各个线程分别创建对应数据范围的索引文件;
存储模块400,用于将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
作为一种具体实施方式,本发明所提供的创建索引文件的装置中存储模块400可以具体用于:
当各个线程的索引文件创建执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
作为一种具体实施方式,本发明所提供的创建索引文件的装置,中创建模块300可以具体用于:
各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。
本发明所提供的创建索引文件的装置,根据数据规模以及业务需求,确定执行索引创建的线程数量;然后通过数据规模以及线程数量,确定各个线程分别负责进行索引的数据范围;各个线程分别创建对应数据范围的索引文件;将各个线程创建的所述索引文件进行合并,存储于一个索引目录中。本发明所提供的创建索引文件的方法及装置,采用多线程并行创建索引的方式,提高了索引的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种创建索引文件的方法,其特征在于,包括:
根据数据规模以及业务需求,确定执行索引创建的线程数量;
通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
各个线程分别创建对应数据范围的索引文件;
将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
2.如权利要求1所述的创建索引文件的方法,其特征在于,所述将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中包括:
当各个线程的索引文件创建执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
3.如权利要求1或2所述的创建索引文件的方法,其特征在于,所述各个线程分别创建对应数据范围的索引文件包括:
各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。
4.一种创建索引文件的装置,其特征在于,包括:
第一确定模块,用于根据数据规模以及业务需求,确定执行索引创建的线程数量;
第二确定模块,用于通过所述数据规模以及所述线程数量,确定各个线程分别负责进行索引的数据范围;
创建模块,用于各个线程分别创建对应数据范围的索引文件;
存储模块,用于将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
5.如权利要求4所述的创建索引文件的装置,其特征在于,所述存储模块具体用于:
当各个线程的索引文件创建执行完成后,将各个所述线程创建的所述索引文件进行合并,存储于一个索引目录中。
6.如权利要求4或5所述的创建索引文件的装置,其特征在于,所述创建模块具体用于:
各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。
CN201510822336.0A 2015-11-24 2015-11-24 一种创建索引文件的方法及装置 Pending CN105488124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510822336.0A CN105488124A (zh) 2015-11-24 2015-11-24 一种创建索引文件的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510822336.0A CN105488124A (zh) 2015-11-24 2015-11-24 一种创建索引文件的方法及装置

Publications (1)

Publication Number Publication Date
CN105488124A true CN105488124A (zh) 2016-04-13

Family

ID=55675099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510822336.0A Pending CN105488124A (zh) 2015-11-24 2015-11-24 一种创建索引文件的方法及装置

Country Status (1)

Country Link
CN (1) CN105488124A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021440A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种搜索方法及装置
CN111259004A (zh) * 2020-01-08 2020-06-09 腾讯科技(深圳)有限公司 一种存储引擎中数据索引的方法以及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778977B1 (en) * 2001-04-19 2004-08-17 Microsoft Corporation Method and system for creating a database table index using multiple processors
CN101989301A (zh) * 2010-10-22 2011-03-23 复旦大学 一种支持多数据源的索引维护方法
CN102831174A (zh) * 2012-07-27 2012-12-19 福建富士通信息软件有限公司 结构化信息快速检索方法及系统
CN104572785A (zh) * 2013-10-29 2015-04-29 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778977B1 (en) * 2001-04-19 2004-08-17 Microsoft Corporation Method and system for creating a database table index using multiple processors
CN101989301A (zh) * 2010-10-22 2011-03-23 复旦大学 一种支持多数据源的索引维护方法
CN102831174A (zh) * 2012-07-27 2012-12-19 福建富士通信息软件有限公司 结构化信息快速检索方法及系统
CN104572785A (zh) * 2013-10-29 2015-04-29 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021440A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种搜索方法及装置
CN106021440B (zh) * 2016-05-16 2019-10-18 中国建设银行股份有限公司 一种搜索方法及装置
CN111259004A (zh) * 2020-01-08 2020-06-09 腾讯科技(深圳)有限公司 一种存储引擎中数据索引的方法以及相关装置
CN111259004B (zh) * 2020-01-08 2023-04-14 腾讯科技(深圳)有限公司 一种存储引擎中数据索引的方法以及相关装置

Similar Documents

Publication Publication Date Title
CN107402995B (zh) 一种分布式newSQL数据库系统及方法
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN109074383B (zh) 文档背景内可视化的文档搜索
CN104537116A (zh) 一种基于标签的图书搜索方法
US9965495B2 (en) Method and apparatus for saving search query as metadata with an image
US20150234915A1 (en) Clustering web pages on a search engine results page
CN107436911A (zh) 模糊查询方法、装置及查询系统
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN101957860B (zh) 一种发布、搜索信息的方法及装置
US20160070707A1 (en) Keyword search on databases
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
CN109656947B (zh) 数据查询方法、装置、计算机设备和存储介质
CN105488124A (zh) 一种创建索引文件的方法及装置
CN105653546A (zh) 一种目标主题的检索方法和系统
US20100306231A1 (en) Collaborative search tools
CN105069175A (zh) 一种基于版本控制系统的信息检索方法及服务器
CN103336765A (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
US20140280050A1 (en) Term searching based on context
US8655886B1 (en) Selective indexing of content portions
US10262056B2 (en) Method and system for performing search queries using and building a block-level index
US9916376B2 (en) Digital document keyword generation
CN114003619A (zh) 一种数据库查询的方法、装置、电子设备及存储介质
CN109241098B (zh) 一种分布式数据库的查询优化方法
US9122748B2 (en) Matching documents against monitors
CN112183074A (zh) 一种数据增强方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413