CN102262640A - 一种全文检索文档数据库的方法及装置 - Google Patents

一种全文检索文档数据库的方法及装置 Download PDF

Info

Publication number
CN102262640A
CN102262640A CN 201010195408 CN201010195408A CN102262640A CN 102262640 A CN102262640 A CN 102262640A CN 201010195408 CN201010195408 CN 201010195408 CN 201010195408 A CN201010195408 A CN 201010195408A CN 102262640 A CN102262640 A CN 102262640A
Authority
CN
China
Prior art keywords
document
full
database
index
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010195408
Other languages
English (en)
Inventor
徐锐
陈旭毅
吴青发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Guizhou Co Ltd
Original Assignee
China Mobile Group Guizhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Guizhou Co Ltd filed Critical China Mobile Group Guizhou Co Ltd
Priority to CN 201010195408 priority Critical patent/CN102262640A/zh
Publication of CN102262640A publication Critical patent/CN102262640A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种全文检索文档数据库的方法及装置,包括:查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。应用本发明,可以提高全文检索的查询效率。

Description

一种全文检索文档数据库的方法及装置
技术领域
本发明涉及检索技术,特别涉及一种全文检索文档数据库的方法及装置。
背景技术
当前运营商在信息化支撑领域的发展方向是以企业用户为中心,加强组织、流程、人员的协作。其中,办公自动化系统(OA,Office Automation)、知识管理系统作为企业信息化的不可或缺核心系统,其中涉及的知识文档、公文文档一般采用文档数据库进行管理并提供搜索引擎,用户可以通过输入关键字词的方式进行检索获取需要的文档信息。
文档数据库属于数据库范畴,可以共享相同的数据,具有数据的物理独立性和逻辑独立性,数据和程序分离,允许创建许多不同类型的非结构化的或任意格式的字段,提供非结构化数据处理,不提供对参数完整性和分布事务的支持,关于文档数据库的其它相关内容,可参见相关的技术文献,在此不再赘述。
文档数据库的产品,例如,Lotus Domino/Notes,目前应用十分广泛,企业能够充分利用文档数据库集成的开发环境的优势,即文档数据库的文档和表单驱动的应用开发模式,可以有效地缩短开发周期。
由于在文档数据库中,可以任意为记录添加字段,可以添加列表型的字段,可以处理富文本格式(RTF,Rich Text Format)域、附件这样的大对象。因而,提供了灵活的数据处理方式。
文档数据库以文档(文件)的形式存储特定的业务数据的内容,因而,在使用过程中存在的最大问题就是面对海量的知识文档和办公自动化系统附件,如何能够帮助用户尽快定位其需要的知识和办公自动化系统附件。现有技术中一般通过文档数据库自身提供的全文检索去查询文档数据库中的文档,这样,在文档数量较大时,全文检索往往会得到一个较大的结果集,用户面对的还是一个海量的数据结果,无法满足用户的查询要求。具体来说,首先,全文检索查询效率低,例如在工作流自动化应用方面,随着公文文档数量增加,文档数据库容量日益增大,由于数据库容量的增长,文档数据库对数据处理的能力大大降低,尤其在数据查询检索方面,使得查询检索所需时间大大增加、查询效率显著下降。其次,查询结果不精确,由于文档数据库内嵌的搜索引擎对全文检索支持较差,例如,文档中可能包含不同格式的附件,举例来说,一个文档中可以包含WORD附件、PDF附件等,因此,在进行全文检索时,需要文档数据库提供针对不同格式的附件的解析器以便进行检索并读取附件中的内容,而文档数据库内嵌的搜索引擎不具有解析器,因而,在文档中存在不同格式的附件时,可能导致用户无法查找到需要的文档或返回一个完全不相关的文档集合。
发明内容
有鉴于此,本发明的主要目的在于提出一种全文检索文档数据库的方法,提高全文检索的查询效率。
本发明的另一目的在于提出一种全文检索文档数据库的装置,提高全文检索的查询效率。
为达到上述目的,本发明提供了一种全文检索文档数据库的方法,该方法包括:
查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;
按照业务分类文档数据库中的文档,生成文档数据子库;
为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;
接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。
进行文档转换后的文档结构为可扩展标记语言文档结构。
所述接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档具体包括:数据库中的文档文档数据库中的搜索程序接收用户输入的搜索关键字词,根据搜索关键字词搜索关系数据库中的全文索引目录,查找与搜索关键字词匹配的全文索引目录,然后根据查找得到的全文索引目录,定位该全文索引目录对应的文档数据库中的文档,并将得到的文档信息返回给搜索用户。
在所述接收用户输入的搜索关键字词的步骤之后,匹配关系数据库中的全文索引目录的步骤之前,进一步包括:对用户输入的搜索关键字词进行分词处理。
在所述匹配关系数据库中的全文索引目录的步骤之后,获取匹配的全文索引目录对应的文档数据库中的文档的步骤之前,进一步包括:将匹配的全文索引目录信息作为初次搜索结果信息向用户显示,根据用户从初次搜索结果信息中选择的全文索引目录信息,执行所述获取匹配的全文索引目录对应的文档数据库中的文档的步骤。
进一步包括:判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
所述判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据具体包括:
在检测到文档数据库中的文档被修改时,触发索引程序,索引程序读取文档的修改日志,并与全文索引目录中的索引进行对比,发现该文档的数据发生了变化,确认需要同步修改索引中的相关数据,启用索引同步程序对该文档的索引进行更新。
一种全文检索文档数据库的装置,该装置包括:文档数据库模块、文档转换模块、关系数据库模块以及搜索引擎模块,其中,
文档数据库模块,用于按照业务分类文档数据库中的文档,生成文档数据子库;
文档转换模块,用于查询文档数据子库文档中的附件并对查询得到的附件进行文档转换;
关系数据库模块,用于为生成的文档数据子库建立全文索引目录;
搜索引擎模块,用于接收用户输入的搜索关键字词,匹配关系数据库模块中的全文索引目录,获取匹配的全文索引目录,从文档数据库模块中获取匹配的全文索引目录对应的文档。
进一步包括:
分词模块,用于接收用户输入的搜索关键字词,根据预先设定的规则判断是否对搜索关键字词进行分词,如果是,将分词后的搜索关键字词输入搜索引擎模块,否则,直接将搜索关键字词输入搜索引擎模块。
所述文档数据库模块进一步用于存储文档修改日志,所述装置进一步包括:
全文索引目录更新模块,用于判断文档数据库模块中的文档修改日志是否发生变化,如果是,读取文档修改日志,并与关系数据库模块中全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
由上述的技术方案可见,本发明提供的一种全文检索文档数据库的方法及装置,查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。这样,通过对文档数据库建立分布式的索引目录,并通过文档转换技术实现不同类型文档附件的全文索引,可以提高全文检索的查询效率以及查询结果的精确度。
附图说明
图1为本发明实施例全文检索文档数据库的方法流程示意图。
图2为本发明实施例进行文档转换以及生成全文索引的示意图。
图3为本发明实施例通过增量索引机制进行全文检索的方法流程示意图。
图4为本发明实施例全文检索文档数据库的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
现有技术中,文档数据库以文档的形式存储特定的业务数据的内容,其基于业务数据的内容与用户输入的搜索关键字词进行匹配,使得查询效率低,因而,本发明实施例中,考虑引入高度结构化的关系数据库,并通过文档转换技术实现不同类型文档附件的全文索引,用以提供对参数完整性和分布事务的支持,对文档数据库中的文档(包括文档转换后的文档附件)建立分布式的索引目录,这样,关系数据库根据用户输入的搜索关键字词匹配分布式的索引目录,根据匹配的索引获取文档数据库中的相应文档。
图1为本发明实施例全文检索文档数据库的方法流程示意图。参见图1,该流程包含:
步骤101,查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;
本步骤中,要提供文档数据库的全文搜索,不仅仅需要索引文档中的字段,还需要对文档中的附件进行全文索引。
预先设置的策略可以是设置文档转换器,对文档数据库中的文档进行查询,如果文档中存在附件,则利用设置的文档转换器将文档中的附件进行文档转换。
实际应用中,可扩展标记语言(XML,Extensible Markup Language)文档结构是全文检索都支持的一种文档结构,因而,本实施例中,将文档中不同的附件,例如,有网页附件、Word附件、Excel附件、Pdf附件等通过文档转换器转换为XML文档,关于文档转换的处理,为现有技术,具体可参见相关技术文献,在此不再赘述。
步骤102,按照业务分类文档数据库中的文档,生成文档数据子库;
本步骤中,为了提高全文检索的效率,对现有文档数据库中的文档按照业务进行分类,形成文档数据子库,以使后续检索时仅针对该分类的业务对应的文档数据子库进行检索,减少对其它文档数据子库的检索,以节约检索时间并提高检索效率。
步骤103,为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;
本步骤中,按照文档数据子库的存储结构,建立全文索引目录,为每一个文档数据子库建立对应的一个全文索引目录,这些全文索引目录存储在关系数据库中,形成分布式全文索引目录。
文档数据子库的存储结构与现有文档数据库的存储结构相同,根据存储结构建立全文索引目录也属于现有技术,具体可参见相关技术文献,在此不再赘述。
图2为本发明实施例进行文档转换以及生成全文索引的示意图。参见图2,文档型数据库文档中的不同格式、不同类型的附件经过文档(文件)转换后形成统一的XML格式文档,再按照存储结构,建立全文索引。
步骤104,接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。
本步骤中,文档数据库中的搜索程序接收用户输入的搜索关键字词,根据搜索关键字词搜索关系数据库中的全文索引目录,查找与搜索关键字词匹配的全文索引目录,然后根据查找得到的全文索引目录,定位该全文索引目录对应的文档数据库中的文档,并将得到的文档信息返回给搜索用户。
实际应用中,还可以对用户输入的搜索关键字词进行分词,采用分词索引技术对文档进行全文检索以提高效率。例如,在索引文档数据的时候,根据预先设定的文档数据库的数据字段“索引字段配置”来进行数据索引,在建立索引的时候,只索引这些设定的数据字段,以准确地抓取这些需要索引的数据。并在索引字段的时候采用中文分词技术,根据“分词字段配置”对索引数据进行中文分词。这样,在索引文档数据库的时候,可以根据不同的需求,按需设定文档数据库中数据字段的索引方式,而不是对文档数据库实施全部数据的全量索引,在满足搜索需要的情况下,可以大大的提高索引的查询效率;进一步地,在索引字段的时候采用中文分词技术,可以按需设定索引字段是否进行中文分词,例如,设置文档标题字段采用中文分词的索引,日期字段则不需要进行分词的索引,可以极大的提高搜索的准确性,使得用户可以准确地搜索到想要的信息。
本实施例中,在匹配关系数据库中的全文索引目录的步骤之后,获取匹配的全文索引目录对应的文档数据库中的文档的步骤之前,还可以将匹配的全文索引目录信息作为初次搜索结果信息向用户显示,根据用户从初次搜索结果信息中选择的全文索引目录信息,从文档数据库中获取该全文索引目录对应的文档,并将该文档信息返回给用户。
至此,该全文检索文档数据库的方法流程结束。
由上述可见,本发明实施例利用关系型数据库达到关键字词与全文索引目录的结合,可以有效提高查询效率,文档数据库中存储的是业务数据的实体,而不存储业务数据的索引,关系型数据库存储业务数据的索引。而且,通过这种方式维护分布式的全文索引目录,可以提供高度的灵活性,完全适应文档数据库分库结构的实时变化,不会因为系统目录结构中个别文档数据子库的变化,导致重建所有的索引文件或全文索引目录。
实际应用中,如上所述,文档数据库分库结构可能是实时变化的,也就是文档数据库中的文档数据子库是实时变化的,如果不能实时地对关系型数据库中存储的全文索引目录进行动态更新,将可能导致搜索效率的降低以及搜索准确性的下降,为此,本发明实施例提出根据文档修改痕迹来触发增量索引机制以完成索引与文档的同步。描述如下:
由于文档数据库中的文档存储的是特定的业务数据的内容,关系型数据库存储的是业务数据的全文索引,通过建立文档数据子库或文档的全文索引,可快速访问文档数据库中的特定文档。因此,文档数据库中的文档一旦被修改,就需要立即更新其在关系型数据库中全文索引目录中的对应的索引。而实际应用中,文档数据库中的文档在每次被修改的时候,都会生成文档修改日志,基于上述考虑,可以通过文档修改日志触发增量索引机制以完成索引与文档的同步:判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
实际应用中,可以根据实际需要来判断文档修改日志是否发生变化,例如,当文档内容或大小等变化超过预先设定的阈值时,可以认为文档修改日志发生了变化,当然,也可以以文档内容或大小的相对变化来作为判断的依据,其具体值可根据实际需要来确定。
本实施例中,可以通过触发索引程序来读取文档修改日志。在检测到文档数据库中的文档被修改时(文档修改日志发生变化),触发索引程序,索引程序读取文档的修改日志,并与全文索引目录中的索引进行对比,发现该文档的数据发生了变化,确认需要同步修改索引中的相关数据,启用索引同步程序对该文档的索引进行更新。这样,提高了增量索引的实时性;同时,根据文档修改日志自动触发单个文档的增量索引,使得文档数据库在关系数据库中的索引的同步得到最大的实时性;进一步地,只同步特定文档中有被修改的特定数据字段,保持了文档数据库的稳定,减少了对同步资源的开销;而且,在完成一个文档的同步后,可以立即更新该文档的最后同步时间戳,以有效防止数据同步的重复性,在保证最大索引效率的情况下,得到最好的数据实时性。本发明实施例中,将这种自动触发单个文档的索引称为增量索引。
图3为本发明实施例通过增量索引机制进行全文检索的方法流程示意图。参见图3,包括如下六个步骤:
步骤1,当文档数据库(文档型数据库)中的文档被修改时,主动触发索引程序,索引程序读取文档的修改日志,并与全文索引目录中的索引进行对比,发现该文档的数据发生了变化,确定需要同步的修改索引中的相关数据,立即启用索引同步程序对该文档的索引进行更新。
步骤2,在索引文档数据的时候,根据设定的文档数据库的数据字段“索引字段配置”来进行数据索引,在建立索引的时候,只索引这些设定的数据字段,准确的抓取这些需要索引的数据。并在索引字段的时候采用中文分词技术,根据“分词字段配置”对索引数据进行中文分词。
步骤3,采用文档转换器,针对文档中不同的附件类型,提供不同的转换适配器,将不同格式、类型的附件转换成相应的XML文档结构,以便后续对其内容进行全文索引。
步骤4,更新索引目录中的索引文件。
步骤5,搜索程序接收用户的输入的搜索条件,搜索关系型数据库(关系数据库)中的索引目录,快速查找到符合搜索条件的文档集合,并将这个文档集合作为搜索结果返回给用户。
步骤6,用户在搜索结果中选择需要查看的文档,这个查看文档的请求将直接转发给文档数据库,由文档数据库将文档的内容展现给用户。
综上,本发明实施例提出的全文检索文档数据库的方法,采用智能化的分词索引方式,对文档数据库建立分布式的索引目录,并通过文档转换技术实现不同类型文档附件的全文索引;通过文档修改日志触发增量索引机制,建立文档数据库中的索引。通过采用这些优化的算法和分析方法,提供了精确的数据查找,提高了文档数据库的搜索查询效率。有效地改善了文档数据库在查询检索方面的缺陷与不足,表现在:
保证索引效率的同时,大大降低了文档数据库压力:由于文档数据库,例如,Lotus Domino/Notes通常采用全量的索引方法,所以文本型在建立索引时,服务器响应能力降低非常明显,本发明实施例采用了智能化的分词索引技术,适用于不同的文本数据结构,按需完成文本数据的增量索引,准确地抓取需要索引的字段,而不是所有的字段,这样,在满足搜索需要的情况下,大大的提高索引的效率;并且采用触发式增量索引机制,根据文档修改日志实时同步,有效降低大批量数据同步给文档数据库带来的压力。
应用智能化的分词索引技术,保证查询结果的精确:在索引字段的时候采用中文分词技术,可以按需设定索引字段是否进行中文分词;采用文档转换器,针对不同的附件类型,提供不同的转换适配器,将不同格式、类型的附件转换成相应的结构,可以对其内容进行全文索引,非常灵活地适应于各种应用。通过这种优化的索引方法,提高了查询结果的精确度。
采用分布和并行计算缩短查询时间:针对企业信息的快速增长,信息系统会随着文档数目的增多性能逐渐下降,本发明实施例中,建立的是分布式的全文索引目录,索引程序可以并行处理多个文档数据库的索引同步,同时对多个文档数据库建立索引,可以快速和方便地集成分布索引和并行计算,提高了访问性能。
图4为本发明实施例全文检索文档数据库的装置结构示意图。参见图4,该装置包括:文档数据库模块、文档转换模块、关系数据库模块、搜索引擎模块,其中,
文档数据库模块,用于按照业务分类文档数据库中的文档,生成文档数据子库;
文档转换模块,用于查询文档数据子库文档中的附件并对查询得到的附件进行文档转换;
关系数据库模块,用于为生成的文档数据子库建立全文索引目录;
搜索引擎模块,用于接收用户输入的搜索关键字词,匹配关系数据库模块中的全文索引目录,获取匹配的全文索引目录,从文档数据库模块中获取匹配的全文索引目录对应的文档。
较佳地,该装置还包括:分词模块,用于接收用户输入的搜索关键字词,根据预先设定的规则判断是否对搜索关键字词进行分词,如果是,将分词后的搜索关键字词输入搜索引擎模块,否则,直接将搜索关键字词输入搜索引擎模块。
较佳地,文档数据库模块中还存储有文档修改日志,该装置还包括:全文索引目录更新模块,用于判断文档数据库模块中的文档修改日志是否发生变化,如果是,读取文档修改日志,并与关系数据库模块中全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种全文检索文档数据库的方法,其特征在于,该方法包括:
查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;
按照业务分类文档数据库中的文档,生成文档数据子库;
为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;
接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。
2.如权利要求1所述的方法,其特征在于,进行文档转换后的文档结构为可扩展标记语言文档结构。
3.如权利要求2所述的方法,其特征在于,所述接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档具体包括:数据库中的文档文档数据库中的搜索程序接收用户输入的搜索关键字词,根据搜索关键字词搜索关系数据库中的全文索引目录,查找与搜索关键字词匹配的全文索引目录,然后根据查找得到的全文索引目录,定位该全文索引目录对应的文档数据库中的文档,并将得到的文档信息返回给搜索用户。
4.如权利要求1至3任一项所述的方法,其特征在于,在所述接收用户输入的搜索关键字词的步骤之后,匹配关系数据库中的全文索引目录的步骤之前,进一步包括:对用户输入的搜索关键字词进行分词处理。
5.如权利要求4所述的方法,其特征在于,在所述匹配关系数据库中的全文索引目录的步骤之后,获取匹配的全文索引目录对应的文档数据库中的文档的步骤之前,进一步包括:将匹配的全文索引目录信息作为初次搜索结果信息向用户显示,根据用户从初次搜索结果信息中选择的全文索引目录信息,执行所述获取匹配的全文索引目录对应的文档数据库中的文档的步骤。
6.如权利要求5所述的方法,其特征在于,进一步包括:判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
7.如权利要求6所述的方法,其特征在于,所述判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据具体包括:
在检测到文档数据库中的文档被修改时,触发索引程序,索引程序读取文档的修改日志,并与全文索引目录中的索引进行对比,发现该文档的数据发生了变化,确认需要同步修改索引中的相关数据,启用索引同步程序对该文档的索引进行更新。
8.一种全文检索文档数据库的装置,其特征在于,该装置包括:文档数据库模块、文档转换模块、关系数据库模块以及搜索引擎模块,其中,
文档数据库模块,用于按照业务分类文档数据库中的文档,生成文档数据子库;
文档转换模块,用于查询文档数据子库文档中的附件并对查询得到的附件进行文档转换;
关系数据库模块,用于为生成的文档数据子库建立全文索引目录;
搜索引擎模块,用于接收用户输入的搜索关键字词,匹配关系数据库模块中的全文索引目录,获取匹配的全文索引目录,从文档数据库模块中获取匹配的全文索引目录对应的文档。
9.如权利要求8所述的装置,其特征在于,进一步包括:
分词模块,用于接收用户输入的搜索关键字词,根据预先设定的规则判断是否对搜索关键字词进行分词,如果是,将分词后的搜索关键字词输入搜索引擎模块,否则,直接将搜索关键字词输入搜索引擎模块。
10.如权利要求8或9所述的装置,其特征在于,所述文档数据库模块进一步用于存储文档修改日志,所述装置进一步包括:
全文索引目录更新模块,用于判断文档数据库模块中的文档修改日志是否发生变化,如果是,读取文档修改日志,并与关系数据库模块中全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。
CN 201010195408 2010-05-31 2010-05-31 一种全文检索文档数据库的方法及装置 Pending CN102262640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010195408 CN102262640A (zh) 2010-05-31 2010-05-31 一种全文检索文档数据库的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010195408 CN102262640A (zh) 2010-05-31 2010-05-31 一种全文检索文档数据库的方法及装置

Publications (1)

Publication Number Publication Date
CN102262640A true CN102262640A (zh) 2011-11-30

Family

ID=45009270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010195408 Pending CN102262640A (zh) 2010-05-31 2010-05-31 一种全文检索文档数据库的方法及装置

Country Status (1)

Country Link
CN (1) CN102262640A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789487A (zh) * 2012-06-29 2012-11-21 用友软件股份有限公司 数据查询检索处理装置和数据查询检索处理方法
CN102867029A (zh) * 2012-08-27 2013-01-09 浪潮(北京)电子信息产业有限公司 一种管理分布式文件系统目录的方法及分布式文件系统
CN103745341A (zh) * 2014-01-14 2014-04-23 国家电网公司 基于Domino和Solr实现的办公自动化OA系统架构的方法
CN103853832A (zh) * 2014-03-11 2014-06-11 上海爱数软件有限公司 一种全文检索系统中可定制的数据抓取方法
CN104166734A (zh) * 2014-09-05 2014-11-26 上海海事大学 一种svn全文检索系统及检索方法
CN104778165A (zh) * 2014-01-09 2015-07-15 山西太钢不锈钢股份有限公司 一种Domino与关系型数据库系统集成设计方法
CN104915425A (zh) * 2015-06-12 2015-09-16 北京北信源软件股份有限公司 一种文件内容的检索方法及装置
CN105488062A (zh) * 2014-09-19 2016-04-13 鞍钢股份有限公司 一种精准信息系统数据搜索方法
CN105630803A (zh) * 2014-10-30 2016-06-01 国际商业机器公司 文档型数据库建立索引的方法和装置
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN106547869A (zh) * 2016-10-25 2017-03-29 广东亿迅科技有限公司 多服务器索引的构建方法及装置
CN106776731A (zh) * 2016-11-18 2017-05-31 山东浪潮云服务信息科技有限公司 一种搜索实现方法、装置和系统
CN107977455A (zh) * 2017-12-15 2018-05-01 广州市齐明软件科技有限公司 ceb文件全文搜索方法、装置以及计算机可读存储介质
CN108629026A (zh) * 2018-05-09 2018-10-09 上海达梦数据库有限公司 一种全文索引的更新方法、装置、设备和存储介质
CN108897862A (zh) * 2018-07-02 2018-11-27 广东飞企互联科技股份有限公司 一种基于政府公文图片检索方法及系统
CN109491706A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种数据获取方法及相关装置
CN109783449A (zh) * 2018-12-13 2019-05-21 深圳壹账通智能科技有限公司 数据查询处理方法、平台、系统及可读存储介质
CN109871473A (zh) * 2019-02-01 2019-06-11 上海核工程研究设计院有限公司 一种对工程文件和数据库建立全文检索文档的方法
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
CN110069573A (zh) * 2019-03-19 2019-07-30 深圳壹账通智能科技有限公司 产品数据集成方法、装置、计算机设备及存储介质
CN110489433A (zh) * 2019-07-11 2019-11-22 中国平安人寿保险股份有限公司 一种基于MongoDB的消息处理方法及装置、电子设备
CN110609844A (zh) * 2018-05-29 2019-12-24 优信拍(北京)信息科技有限公司 一种数据更新方法,装置及系统
CN110705434A (zh) * 2019-09-26 2020-01-17 上海汇航捷讯网络科技有限公司 一种文档内容检查与编辑的交互方法
CN110765245A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于大数据的情感正负判断方法、装置、设备及存储介质
CN111143349A (zh) * 2019-11-26 2020-05-12 广东三扬网络科技有限公司 一种快速从集合中查找信息的方法及电子设备和存储介质
CN111522905A (zh) * 2020-04-15 2020-08-11 武汉灯塔之光科技有限公司 一种基于数据库的文档搜索方法和装置
CN111625728A (zh) * 2020-05-28 2020-09-04 苏州浪潮智能科技有限公司 一种网页文档生成检索目录的方法、装置、设备和介质
CN111666398A (zh) * 2020-06-17 2020-09-15 天津异乡好居网络科技有限公司 一种基于房源信息关键字搜索匹配的方法
CN111797203A (zh) * 2020-06-29 2020-10-20 格尔软件股份有限公司 一种批量pdf文件快速检索方法
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN112669016A (zh) * 2021-01-04 2021-04-16 广州朗国电子科技有限公司 一种企业流程规范管控方法、装置及存储介质
CN112784004A (zh) * 2019-11-08 2021-05-11 浙江大搜车软件技术有限公司 Pdf文档的检索方法、系统、电子设备、存储介质
CN112988668A (zh) * 2021-03-26 2021-06-18 瀚高基础软件股份有限公司 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法
CN113190548A (zh) * 2020-12-24 2021-07-30 武汉烽火众智数字技术有限责任公司 一种基于hbase的档案库的设计方法
CN113377876A (zh) * 2021-06-29 2021-09-10 中国农业银行股份有限公司 基于Domino平台的数据分库处理方法、装置及平台
CN113821492A (zh) * 2020-06-19 2021-12-21 北京国电思达科技有限公司 一种基于Redis的风机数据读写方法、装置、系统和介质
CN114611145A (zh) * 2022-03-14 2022-06-10 穗保(广州)科技有限公司 一种基于互联网在线文档的数据安全共享平台
CN116029853A (zh) * 2023-02-15 2023-04-28 江西科技学院 一种会计数据处理方法、系统、计算机及存储介质
WO2023236257A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN117573704A (zh) * 2024-01-17 2024-02-20 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617138A (zh) * 2003-11-12 2005-05-18 鸿富锦精密工业(深圳)有限公司 资料整合与分析系统及方法
US20080065607A1 (en) * 2006-09-08 2008-03-13 Dominik Weber System and Method for Building and Retrieving a Full Text Index
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101520800A (zh) * 2009-03-27 2009-09-02 华中科技大学 一种基于密文的安全全文索引和检索系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1617138A (zh) * 2003-11-12 2005-05-18 鸿富锦精密工业(深圳)有限公司 资料整合与分析系统及方法
US20080065607A1 (en) * 2006-09-08 2008-03-13 Dominik Weber System and Method for Building and Retrieving a Full Text Index
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101520800A (zh) * 2009-03-27 2009-09-02 华中科技大学 一种基于密文的安全全文索引和检索系统

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789487A (zh) * 2012-06-29 2012-11-21 用友软件股份有限公司 数据查询检索处理装置和数据查询检索处理方法
CN102789487B (zh) * 2012-06-29 2015-09-02 用友软件股份有限公司 数据查询检索处理装置和数据查询检索处理方法
CN102867029A (zh) * 2012-08-27 2013-01-09 浪潮(北京)电子信息产业有限公司 一种管理分布式文件系统目录的方法及分布式文件系统
CN102867029B (zh) * 2012-08-27 2016-06-22 浪潮(北京)电子信息产业有限公司 一种管理分布式文件系统目录的方法及分布式文件系统
CN104778165A (zh) * 2014-01-09 2015-07-15 山西太钢不锈钢股份有限公司 一种Domino与关系型数据库系统集成设计方法
CN103745341A (zh) * 2014-01-14 2014-04-23 国家电网公司 基于Domino和Solr实现的办公自动化OA系统架构的方法
CN103745341B (zh) * 2014-01-14 2017-09-22 国家电网公司 基于Domino和Solr实现的办公自动化OA系统架构的方法
CN103853832A (zh) * 2014-03-11 2014-06-11 上海爱数软件有限公司 一种全文检索系统中可定制的数据抓取方法
CN103853832B (zh) * 2014-03-11 2017-07-28 上海爱数信息技术股份有限公司 一种全文检索系统中可定制的数据抓取方法
CN104166734A (zh) * 2014-09-05 2014-11-26 上海海事大学 一种svn全文检索系统及检索方法
CN104166734B (zh) * 2014-09-05 2018-04-20 上海海事大学 一种svn全文检索系统及检索方法
CN105488062A (zh) * 2014-09-19 2016-04-13 鞍钢股份有限公司 一种精准信息系统数据搜索方法
CN105488062B (zh) * 2014-09-19 2018-08-31 鞍钢股份有限公司 一种精准信息系统数据搜索方法
US10127254B2 (en) 2014-10-30 2018-11-13 International Business Machines Corporation Method of index recommendation for NoSQL database
CN105630803B (zh) * 2014-10-30 2019-07-05 国际商业机器公司 文档型数据库建立索引的方法和装置
CN105630803A (zh) * 2014-10-30 2016-06-01 国际商业机器公司 文档型数据库建立索引的方法和装置
CN104915425B (zh) * 2015-06-12 2018-08-17 北京北信源软件股份有限公司 一种文件内容的检索方法及装置
CN104915425A (zh) * 2015-06-12 2015-09-16 北京北信源软件股份有限公司 一种文件内容的检索方法及装置
CN106547869A (zh) * 2016-10-25 2017-03-29 广东亿迅科技有限公司 多服务器索引的构建方法及装置
CN106776731A (zh) * 2016-11-18 2017-05-31 山东浪潮云服务信息科技有限公司 一种搜索实现方法、装置和系统
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN107977455A (zh) * 2017-12-15 2018-05-01 广州市齐明软件科技有限公司 ceb文件全文搜索方法、装置以及计算机可读存储介质
CN108629026A (zh) * 2018-05-09 2018-10-09 上海达梦数据库有限公司 一种全文索引的更新方法、装置、设备和存储介质
CN110609844A (zh) * 2018-05-29 2019-12-24 优信拍(北京)信息科技有限公司 一种数据更新方法,装置及系统
CN110609844B (zh) * 2018-05-29 2022-05-13 优信拍(北京)信息科技有限公司 一种数据更新方法,装置及系统
CN108897862A (zh) * 2018-07-02 2018-11-27 广东飞企互联科技股份有限公司 一种基于政府公文图片检索方法及系统
CN109491706A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种数据获取方法及相关装置
CN109783449A (zh) * 2018-12-13 2019-05-21 深圳壹账通智能科技有限公司 数据查询处理方法、平台、系统及可读存储介质
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
CN109871473A (zh) * 2019-02-01 2019-06-11 上海核工程研究设计院有限公司 一种对工程文件和数据库建立全文检索文档的方法
CN110069573A (zh) * 2019-03-19 2019-07-30 深圳壹账通智能科技有限公司 产品数据集成方法、装置、计算机设备及存储介质
CN110489433B (zh) * 2019-07-11 2023-10-27 中国平安人寿保险股份有限公司 一种基于MongoDB的消息处理方法及装置、电子设备
CN110489433A (zh) * 2019-07-11 2019-11-22 中国平安人寿保险股份有限公司 一种基于MongoDB的消息处理方法及装置、电子设备
CN110765245A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于大数据的情感正负判断方法、装置、设备及存储介质
CN110765245B (zh) * 2019-09-19 2023-08-01 平安科技(深圳)有限公司 基于大数据的情感正负判断方法、装置、设备及存储介质
CN110705434A (zh) * 2019-09-26 2020-01-17 上海汇航捷讯网络科技有限公司 一种文档内容检查与编辑的交互方法
CN112784004A (zh) * 2019-11-08 2021-05-11 浙江大搜车软件技术有限公司 Pdf文档的检索方法、系统、电子设备、存储介质
CN111143349A (zh) * 2019-11-26 2020-05-12 广东三扬网络科技有限公司 一种快速从集合中查找信息的方法及电子设备和存储介质
CN111522905A (zh) * 2020-04-15 2020-08-11 武汉灯塔之光科技有限公司 一种基于数据库的文档搜索方法和装置
CN111625728A (zh) * 2020-05-28 2020-09-04 苏州浪潮智能科技有限公司 一种网页文档生成检索目录的方法、装置、设备和介质
CN111625728B (zh) * 2020-05-28 2022-08-19 苏州浪潮智能科技有限公司 一种网页文档生成检索目录的方法、装置、设备和介质
CN111666398A (zh) * 2020-06-17 2020-09-15 天津异乡好居网络科技有限公司 一种基于房源信息关键字搜索匹配的方法
CN113821492A (zh) * 2020-06-19 2021-12-21 北京国电思达科技有限公司 一种基于Redis的风机数据读写方法、装置、系统和介质
CN111797203A (zh) * 2020-06-29 2020-10-20 格尔软件股份有限公司 一种批量pdf文件快速检索方法
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN113190548A (zh) * 2020-12-24 2021-07-30 武汉烽火众智数字技术有限责任公司 一种基于hbase的档案库的设计方法
CN112669016A (zh) * 2021-01-04 2021-04-16 广州朗国电子科技有限公司 一种企业流程规范管控方法、装置及存储介质
CN112988668A (zh) * 2021-03-26 2021-06-18 瀚高基础软件股份有限公司 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法
CN112988668B (zh) * 2021-03-26 2022-10-14 瀚高基础软件股份有限公司 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法
CN113377876A (zh) * 2021-06-29 2021-09-10 中国农业银行股份有限公司 基于Domino平台的数据分库处理方法、装置及平台
CN113377876B (zh) * 2021-06-29 2024-05-28 中国农业银行股份有限公司 基于Domino平台的数据分库处理方法、装置及平台
CN114611145A (zh) * 2022-03-14 2022-06-10 穗保(广州)科技有限公司 一种基于互联网在线文档的数据安全共享平台
WO2023236257A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN116029853B (zh) * 2023-02-15 2023-06-27 江西科技学院 一种会计数据处理方法、系统、计算机及存储介质
CN116029853A (zh) * 2023-02-15 2023-04-28 江西科技学院 一种会计数据处理方法、系统、计算机及存储介质
CN117573704A (zh) * 2024-01-17 2024-02-20 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质
CN117573704B (zh) * 2024-01-17 2024-04-12 上海合见工业软件集团有限公司 Eda软件的复合文档索引方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN102262640A (zh) 一种全文检索文档数据库的方法及装置
US20060047636A1 (en) Method and system for context-oriented association of unstructured content with the result of a structured database query
CN113297320B (zh) 分布式数据库系统及数据处理方法
CN106777108A (zh) 一种基于混合存储架构的数据查询方法和装置
CN106611053B (zh) 一种数据清理、索引方法
CN103218402A (zh) 通用的数据库数据结构与数据迁移系统及其方法
CN111078702A (zh) 一种sql语句分类管理及统一查询方法和装置
CN112672370B (zh) 网元指标数据的自动检测方法及系统、设备和存储介质
CN114116716A (zh) 一种层次数据检索方法、装置和设备
CN106484815B (zh) 一种基于海量数据类sql检索场景的自动识别优化方法
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
CN109739882A (zh) 一种基于Presto和Elasticsearch的大数据查询优化方法
CN102346765B (zh) 一种查询内存数据的方法及装置
CN114064660B (zh) 基于ElasticSearch的数据结构化分析方法
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN107704585A (zh) 一种查询hdfs数据方法及系统
CN102520959A (zh) 一种基于语义的重用代码匹配查询方法
CN101719162A (zh) 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统
CN107291938A (zh) 订单查询系统及方法
CN100483398C (zh) 一种电子数据表的计算方法和装置
US11645299B2 (en) Data management device and data management method
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
CN114925054A (zh) 一种基于元模型的元数据管理系统及方法
CN103020300A (zh) 一种信息检索方法和设备
CN102349054A (zh) 自动数据存储结构检测

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111130