CN109002444A - 全文检索方法和全文检索装置 - Google Patents

全文检索方法和全文检索装置 Download PDF

Info

Publication number
CN109002444A
CN109002444A CN201710421974.0A CN201710421974A CN109002444A CN 109002444 A CN109002444 A CN 109002444A CN 201710421974 A CN201710421974 A CN 201710421974A CN 109002444 A CN109002444 A CN 109002444A
Authority
CN
China
Prior art keywords
data
index
database
domain
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710421974.0A
Other languages
English (en)
Inventor
师光强
张丹
于晓明
王卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201710421974.0A priority Critical patent/CN109002444A/zh
Publication of CN109002444A publication Critical patent/CN109002444A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种全文检索方法和全文检索装置,其中,全文检索方法包括:在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。通过本发明技术方案,在全文检索时,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。

Description

全文检索方法和全文检索装置
技术领域
本发明涉及全文检索技术领域,具体而言,涉及一种全文检索方法和一种全文检索装置。
背景技术
相关技术中,信息数据中海量的非机构化数据进行处理时,需要使用全文检索技术,该技术首先对非结构化数据进行处理,使其变得有一定结构并对其保存,搜索过程类似字典查字过程,针对关键词进行查找。全文检索支持的常用功能有单库检索、多库检索、统计检索、排序检索、消重检索、精确检索等。全文检索系统的按域统计和按域排序功能,依赖文档对应域的域值信息,为了保证速度,避免频繁的读取磁盘文件,全文检索系统通常将过程中使用到的数据预加载至系统内存中,若要对多个域支持按域统计或排序,需要将每一个域的数据均预加载至全文检索系统内存中,上述技术方案存在以下弊端:
(1)随着支持的域的个数的增加,全文检索的内存消耗不断上涨,增加系统压力。
(2)对于有更新需求的域,由于全文检索基于倒排索引的检索结构,需标记旧数据并删除,然后为待更新数据新建索引,进而导致更新速度慢;每一次更新往往只涉及数据当中的有限部分,并不需要重建索引,系统资源浪费严重;索引更新过程需要复杂的线程同步策略,使得程序设计复杂化。
(3)需要增加或删除对特定域的按域统计或排序支持时,必须删除所有索引重建,浪费系统资源,系统可扩展性差。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的全文检索技术方案,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。
有鉴于此,本发明提出了一种全文检索方法,包括:在将存储域的数据导入至各个内存的内存数据库时,每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。
在该技术方案中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。
其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。
在上述技术方案中,优选地,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;对文档文件创建索引,并解析文档文件的标识信息;判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。
在该技术方案中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。
在上述任一项技术方案中,优选地,还包括:在将存储域的数据导入至内存数据库时,若检测到索引的数量大于预设数量,则创建导入任务进程以批量导入存储域的数据。
在该技术方案中,在将存储域的数据导入至内存数据库时,通过检测索引的数量与预设数量匹配,在判定索引的数量大于预设数量时,需要导入和新写入索引对应的存储域的数据,创建导入任务进程,调用内存数据库的接口,以批量导入存储域的数据,实现了存储域的数据的批量增加,不需要反复的重建索引,节省了全文检索系统的系统资源且降低了程序设计的复杂程度。
在上述任一项技术方案中,优选地,还包括:在检测到任一索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
在该技术方案中,通过遍历索引库中的索引,当检测到任一索引被删除时,创建删除任务进程,调用内存数据库的接口,以将被删除索引对应的已导入数据删除,实现了同步删除存储域的数据,且仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性。
在上述任一项技术方案中,优选地,还包括:在根据标识信息确定存储域的数据为初次导入时,不对已导入数据的执行上载操作。
在该技术方案中,考虑到在全文检索服务器启动时,需要将存储域的数据导入内存数据库中,该过程需要一定时间且会创建大量任务包在任务队列中,为减轻系统压力,通过对包含有导入记录信息的标识信息进行检测,确定存储域的数据为初次导入时系统不同时上载数据。
根据本发明第二方面,还提出了一种全文检索装置,包括:生成单元,用于在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;写入单元,用于将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。
在该技术方案中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。
其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。
在上述技术方案中,优选地,生成单元还包括:上载子单元,用于在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;创建子单元,用于对文档文件创建索引,并解析文档文件的标识信息;判断子单元,用于判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;写入单元还用于:在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。
在该技术方案中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。
在上述任一项技术方案中,优选地,创建子单元还用于:在将存储域的数据导入至内存数据库时,若检测到索引的数量大于预设数量,则创建导入任务进程以批量导入存储域的数据。
在该技术方案中,在将存储域的数据导入至内存数据库时,通过检测索引的数量与预设数量匹配,在判定索引的数量大于预设数量时,需要导入和新写入索引对应的存储域的数据,创建导入任务进程,调用内存数据库的接口,以批量导入存储域的数据,实现了存储域的数据的批量增加,不需要反复的重建索引,节省了全文检索系统的系统资源且降低了程序设计的复杂程度。
在上述任一项技术方案中,优选地,创建子单元还用于:在检测到任一索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
在该技术方案中,通过遍历索引库中的索引,当检测到任一索引被删除时,创建删除任务进程,调用内存数据库的接口,以将被删除索引对应的已导入数据删除,实现了同步删除存储域的数据,且仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性。
在上述任一项技术方案中,优选地,还包括:上载子单元还用于:在根据标识信息确定存储域的数据为初次导入时,不对已导入数据的执行上载操作。
在该技术方案中,考虑到在全文检索服务器启动时,需要将存储域的数据导入内存数据库中,该过程需要一定时间且会创建大量任务包在任务队列中,为减轻系统压力,通过对包含有导入记录信息的标识信息进行检测,确定存储域的数据为初次导入时系统不同时上载数据。
通过以上技术方案,在全文检索过程中,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。
附图说明
图1示出了根据本发明一个实施例的全文检索方法的示意流程图;
图2示出了根据本发明又一个实施例的全文检索方法的示意流程图;
图3示出了根据本发明一个实施例的全文检索装置的示意框图;
图4示出了根据本发明一个实施例的全文检索方法的内存数据库特定域的数据导入过程的示意流程图;
图5示出了根据本发明的实施例的全文检索方法的统计和排序检索过程的示意流程图;
图6示出了根据本发明的实施例的全文检索方法的内存数据库增加特定域的数据过程的示意流程图;
图7示出了根据本发明的实施例的全文检索方法的内存数据库更新特定域的数据过程的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明一个实施例的全文检索方法的示意流程图。
如图1所示,根据本发明一个实施例的全文检索方法,包括:步骤102,在将存储域的数据导入至各个内存的内存数据库时,每个内存数据库对应的一个索引库;步骤104,将每个内存数据库中导入数据的存储域写入对应的索引库。
在该实施例中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。
其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。
图2示出了根据本发明又一个实施例的全文检索方法的示意流程图。
如图2所示,根据本发明又一个实施例的全文检索方法,包括:步骤1022,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;步骤1024,对文档文件创建索引,并解析文档文件的标识信息;步骤1026,判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;步骤1028,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。
在该实施例中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。
在上述任一实施例中,优选地,还包括:在将存储域的数据导入至内存数据库时,若检测到索引的数量大于预设数量,则创建导入任务进程以批量导入存储域的数据。
在该实施例中,在将存储域的数据导入至内存数据库时,通过检测索引的数量与预设数量匹配,在判定索引的数量大于预设数量时,需要导入和新写入索引对应的存储域的数据,创建导入任务进程,调用内存数据库的接口,以批量导入存储域的数据,实现了存储域的数据的批量增加,不需要反复的重建索引,节省了全文检索系统的系统资源且降低了程序设计的复杂程度。
在上述任一实施例中,优选地,还包括:在检测到任一索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
在该实施例中,通过遍历索引库中的索引,当检测到任一索引被删除时,创建删除任务进程,调用内存数据库的接口,以将被删除索引对应的已导入数据删除,实现了同步删除存储域的数据,且仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性。
在上述任一实施例中,优选地,还包括:在根据标识信息确定存储域的数据为初次导入时,不对已导入数据的执行上载操作。
在该实施例中,考虑到在全文检索服务器启动时,需要将存储域的数据导入内存数据库中,该过程需要一定时间且会创建大量任务包在任务队列中,为减轻系统压力,通过对包含有导入记录信息的标识信息进行检测,确定存储域的数据为初次导入时系统不同时上载数据。
图3示出了根据本发明一个实施例的全文检索装置的示意框图。
如图3所示,根据本发明一个实施例的全文检索装置300,包括:生成单元302,用于在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;写入单元304,用于将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。
在该实施例中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。
其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。
在上述实施例中,优选地,生成单元302还包括:上载子单元3022,用于在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;创建子单元3024,用于对文档文件创建索引,并解析文档文件的标识信息;判断子单元3026,用于判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;写入单元304还用于:在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。
在该实施例中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。
在上述任一实施例中,优选地,创建子单元3024还用于:在将存储域的数据导入至内存数据库时,若检测到索引的数量大于预设数量,则创建导入任务进程以批量导入存储域的数据。
在该实施例中,在将存储域的数据导入至内存数据库时,通过检测索引的数量与预设数量匹配,在判定索引的数量大于预设数量时,需要导入和新写入索引对应的存储域的数据,创建导入任务进程,调用内存数据库的接口,以批量导入存储域的数据,实现了存储域的数据的批量增加,不需要反复的重建索引,节省了全文检索系统的系统资源且降低了程序设计的复杂程度。
在上述任一实施例中,优选地,创建子单元3024还用于:在检测到任一索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
在该实施例中,通过遍历索引库中的索引,当检测到任一索引被删除时,创建删除任务进程,调用内存数据库的接口,以将被删除索引对应的已导入数据删除,实现了同步删除存储域的数据,且仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性。
在上述任一实施例中,优选地,上载子单元3022还用于:在根据标识信息确定存储域的数据为初次导入时,不对已导入数据的执行上载操作。
在该实施例中,考虑到在全文检索服务器启动时,需要将存储域的数据导入内存数据库中,该过程需要一定时间且会创建大量任务包在任务队列中,为减轻系统压力,通过对包含有导入记录信息的标识信息进行检测,确定存储域的数据为初次导入时系统不同时上载数据。
图4示出了根据本发明一个实施例的全文检索方法的内存数据库特定域的数据导入过程的示意流程图。
如图4所示,根据本发明一个实施例的全文检索方法的内存数据库特定域的数据导入过程,包括:步骤402,读取一个域名;步骤404,判断是否是第一次导入,若是,则执行步骤406,若否,则执行步骤408;步骤406,文档ID与该域一起导入;步骤408,导入一个列;步骤410,判断是否有域待导入,若是,则执行步骤402,若否,则执行步骤412;步骤412,记录导入成功文件;步骤414,保存已导入字段信息。
在该实施例中,首先读取待导入特定域的域名,判断是否是第一次导入,若是第一次导入时,则将文档ID和域值一起导入,若不是第一次导入时,则只导入一列并保存该域信息,再逐段扫描将域值写入对应文档ID所在的行,直至导入所有的存储域信息,并生成导入成功的标志文件,保存已导入字段信息。特定域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求,并返回对应错误码。
图5示出了根据本发明的实施例的全文检索方法的统计和排序检索过程的示意流程图。
如图5所示,根据本发明的实施例的全文检索方法的统计和排序检索过程,包括:步骤502,用户发出检索请求;步骤504,控制节点解析请求;步骤506,多库拆分;步骤508,向检索节点发送请求;步骤510,检索节点解析请求;步骤512,查询结果;步骤514,查询内存数据库,统计或排序;步骤516,向控制节点返回结果;步骤518,等待所以检索节点返回结果;步骤520,结果归并,构造返回消息;步骤522,向用户返回结果。
在该实施例中,用户发出检索请求后,控制节点解析检索请求,数据库进行拆分,控制节点向检索节点发送请求,检索节点接收请求并解析,并收集文档,然后判断检索类型是否为统计或排序检索,若为按域统计,则从内存数据库中查询所收集文档对应存储域的值,并按域值进行分组统计;若为按域排序检索,则从内存数据库中查询对应存储域的值,并按域值的排序规则(由应用端指定)进行排序,上述过程完成后,将结果返回控制节点,控制节点对所有检索节点的返回结果归并形成统一结果,返回给用户。
其中,检索节点以客户端/服务器的模式连接内存数据库,内存数据库服务器为全文检索配置一个统一的数据库,不同的检索节点对应数据库服务器中的一个表,检索节点在连接内存数据库时,使用连接池建立多个连接,以增加全文检索的效率。
图6示出了根据本发明的实施例的全文检索方法的内存数据库增加特定域的数据过程的示意流程图。
如图6所示,根据本发明的实施例的全文检索方法的内存数据库增加特定域的数据过程,包括:步骤602,上载文档;步骤604,发起任务;步骤606,创建任务分配线程;步骤608,创建任务处理线程。
在该实施例中,内存数据库增加特定域的数据时,接收到上载的数据后,对其建立索引,新建索引累积到一定数量时,为这些数据创建任务,交给任务分配线程处理,分配给任务处理线程实现存储域的数据在内存数据库中的批量增加。
特别地,全文检索服务器启动时,可能需要将数据导入内存数据库中,过程将非常耗时,为了避免创建索引产生的大量任务包阻塞任务队列,禁止系统在首次导入数据时上载数据。
图7示出了根据本发明的实施例的全文检索方法的内存数据库更新特定域的数据过程的示意流程图。
如图7所示,根据本发明的实施例的全文检索方法的内存数据库更新特定域的数据过程,包括:步骤702,获得需要更新的文档;步骤704,提取需要更新的存储域值;步骤706,生成数据更新任务;步骤708,放入任务队列中进行更新操作。
在该实施例中,对于需要更新的存储域的数据,如访问数、评论数等,将这些字段的变化值直接更新到内存数据库中,首先获得需要更新的文档,然后提取需要更新的存储域值,并生成更新任务放至任务队列,存储域的数据更新的实现由删除和新增两步联合完成此处不再赘述。
以上结合附图详细说明了本发明的技术方案,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当存储域的数据需要更新时,不再需要反复的索引重建,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性;当执行统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的统计和排序功能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种全文检索方法,其特征在于,包括:
在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;
将每个所述内存数据库中导入数据的存储域写入对应的索引库,
其中,所述索引库中存储有所述数据的索引。
2.根据权利要求1所述的全文检索方法,其特征在于,在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库,具体包括:
在将所述存储域的数据导入至所述内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;
对所述文档文件创建索引,并解析所述文档文件的标识信息;
判断所述文档文件的标识信息是否与所述索引库中的任一预存标识信息匹配;
在判定所述文档文件的标识信息不与所述索引库中的任一预存标识信息匹配时,将所述文档文件的标识信息写入对应的索引库。
3.根据权利要求2所述的全文检索方法,其特征在于,还包括:
在将所述存储域的数据导入至所述内存数据库时,若检测到所述索引的数量大于预设数量,则创建导入任务进程以批量导入所述存储域的数据。
4.根据权利要求2或3所述的全文检索方法,其特征在于,还包括:
在检测到任一所述索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
5.根据权利要求2或3所述的全文检索方法,其特征在于,还包括:
在根据所述标识信息确定所述存储域的数据为初次导入时,不对所述已导入数据的执行所述上载操作。
6.一种全文检索装置,其特征在于,包括:
生成单元,用于在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;
写入单元,用于将每个所述内存数据库中导入数据的存储域写入对应的索引库,
其中,所述索引库中存储有所述数据的索引。
7.根据权利要求6所述的全文检索装置,其特征在于,所述生成单元还包括:
上载子单元,用于在将所述存储域的数据导入至所述内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;
创建子单元,用于对所述文档文件创建索引,并解析所述文档文件的标识信息;
判断子单元,用于判断所述文档文件的标识信息是否与所述索引库中的任一预存标识信息匹配;
所述写入单元还用于:在判定所述文档文件的标识信息不与所述索引库中的任一预存标识信息匹配时,将所述文档文件的标识信息写入对应的索引库。
8.根据权利要求7所述的全文检索装置,其特征在于,
所述创建子单元还用于:在将所述存储域的数据导入至所述内存数据库时,若检测到所述索引的数量大于预设数量,则创建导入任务进程以批量导入所述存储域的数据。
9.根据权利要求7或8所述的全文检索装置,其特征在于,
所述创建子单元还用于:在检测到任一所述索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。
10.根据权利要求7或8所述的全文检索装置,其特征在于,还包括:
所述上载子单元还用于:在根据所述标识信息确定所述存储域的数据为初次导入时,不对所述已导入数据的执行所述上载操作。
CN201710421974.0A 2017-06-07 2017-06-07 全文检索方法和全文检索装置 Pending CN109002444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710421974.0A CN109002444A (zh) 2017-06-07 2017-06-07 全文检索方法和全文检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710421974.0A CN109002444A (zh) 2017-06-07 2017-06-07 全文检索方法和全文检索装置

Publications (1)

Publication Number Publication Date
CN109002444A true CN109002444A (zh) 2018-12-14

Family

ID=64573430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710421974.0A Pending CN109002444A (zh) 2017-06-07 2017-06-07 全文检索方法和全文检索装置

Country Status (1)

Country Link
CN (1) CN109002444A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797063A (zh) * 2020-06-28 2020-10-20 中孚信息股份有限公司 一种流式数据处理方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186622A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
CN103207907A (zh) * 2013-03-28 2013-07-17 新浪网技术(中国)有限公司 一种索引文件合并方法及装置
JP5592747B2 (ja) * 2010-10-12 2014-09-17 株式会社日立ソリューションズ ファイル検索装置およびファイル検索プログラム
US20160283597A1 (en) * 2015-03-24 2016-09-29 Karl Fürst Fast substring fulltext search
CN106227788A (zh) * 2016-07-20 2016-12-14 浪潮软件集团有限公司 一种以Lucene为基础的数据库查询方法
CN106250443A (zh) * 2016-07-27 2016-12-21 福建富士通信息软件有限公司 基于内存全文检索解决数据库复杂文本查询的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5592747B2 (ja) * 2010-10-12 2014-09-17 株式会社日立ソリューションズ ファイル検索装置およびファイル検索プログラム
CN103186622A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
CN103207907A (zh) * 2013-03-28 2013-07-17 新浪网技术(中国)有限公司 一种索引文件合并方法及装置
US20160283597A1 (en) * 2015-03-24 2016-09-29 Karl Fürst Fast substring fulltext search
CN106227788A (zh) * 2016-07-20 2016-12-14 浪潮软件集团有限公司 一种以Lucene为基础的数据库查询方法
CN106250443A (zh) * 2016-07-27 2016-12-21 福建富士通信息软件有限公司 基于内存全文检索解决数据库复杂文本查询的方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
丁振凡: "《Spring3.X编程技术与应用》", 31 August 2013 *
万里淘金: "全文检索原理及实现方式", 《HTTPS://BLOG.CSDN.NET/QQ_16162981/ARTICLE/DETAILS/70142166》 *
东东: "Lucene:基于Java的全文检索引擎简介", 《HTTPS://WWW.CHEDONG.COM/TECH/LUCENE.HTML》 *
周敬才;胡华平;岳虹: "基于Lucene全文检索系统的设计与实现", 《计算机工程与科学》 *
范蕾: "基于Lucene的全文检索系统的设计与实现", 《中国优秀硕士学位论文全文数据库》 *
陈立华: "《本体模式下的数字图书馆信息检索与服务研究》", 30 October 2014, 科学技术文献出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797063A (zh) * 2020-06-28 2020-10-20 中孚信息股份有限公司 一种流式数据处理方法与系统

Similar Documents

Publication Publication Date Title
CN107247808B (zh) 一种分布式NewSQL数据库系统及图片数据查询方法
CN102016789B (zh) 数据处理装置和处理数据的方法
CN103020204B (zh) 一种对分布式顺序表进行多维区间查询的方法及其系统
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN106326429A (zh) 一种基于solr的Hbase秒级查询方案
CN106970958B (zh) 一种流文件的查询与存储方法和装置
CN104102710A (zh) 一种海量数据查询方法
WO2013074665A1 (en) Data processing service
CN109189852A (zh) 一种数据同步的方法及用于数据同步的装置
CN101136027B (zh) 用于数据库索引、搜索和数据检索的系统和方法
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN104679847B (zh) 一种构建在线实时更新海量音频指纹库的方法和设备
CN106709851B (zh) 大数据检索方法及装置
CN101675415B (zh) 程序模式分析装置、模式出现状况信息产生方法、模式信息生成装置及程序
CN106649602B (zh) 业务对象数据处理方法、装置和服务器
CN110597630B (zh) 一种分布式系统中内容资源的处理方法及系统
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN109657803A (zh) 机器学习模型的构建
CN113177090A (zh) 数据处理方法及装置
CN107145538B (zh) 表格数据查询方法、装置与系统
CN109388659A (zh) 数据存储方法、装置和计算机可读存储介质
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN105760418A (zh) 用于对关系数据库表进行交叉列搜索的方法和系统
CN109002444A (zh) 全文检索方法和全文检索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181214