CN113377896A - 全文快速检索方法、装置、电子设备及存储介质 - Google Patents

全文快速检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113377896A
CN113377896A CN202110546644.0A CN202110546644A CN113377896A CN 113377896 A CN113377896 A CN 113377896A CN 202110546644 A CN202110546644 A CN 202110546644A CN 113377896 A CN113377896 A CN 113377896A
Authority
CN
China
Prior art keywords
full
text
module
search
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110546644.0A
Other languages
English (en)
Inventor
黄映挺
钱堃
方亚飞
吴春全
李培峰
吴俊伟
徐长军
郑新标
焦国云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxin Technology Group Co ltd
Original Assignee
Lanxin Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxin Technology Group Co ltd filed Critical Lanxin Technology Group Co ltd
Priority to CN202110546644.0A priority Critical patent/CN113377896A/zh
Publication of CN113377896A publication Critical patent/CN113377896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种全文快速检索方法、装置、电子设备及存储介质,所述全文快速检索装置,包括:数据抽取模块、拦截分词模块、索引构建模块、检索接口模块;所述数据抽取模块用于将非结构化数据同步到搜索服务器中;所述拦截分词模块用于对搜索服务器中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;所述索引构建模块用于将所述词及与所述词相关的信息构建成索引;所述检索接口模块用于提供检索接口以供客户端进行基于所述索引的检索。根据本发明实施例提供的全文快速检索装置集成了搜索服务器等组件,可以实现一键安装,拥有统一的搜索接口,并且可以自定义抽取数据的任务,提供一站式全文检索服务。

Description

全文快速检索方法、装置、电子设备及存储介质
技术领域
本发明涉及信息检索技术领域,尤其涉及一种全文快速检索方法、装置、电子设备及存储介质。
背景技术
传统的关系型数据库采用表格的储存方式,一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织,数据以行和列的方式进行存储,要读取和查询都十分方便。然而随着企业的业务发展,其数据库的数据量也会不断增长,即使对数据库进行了优化,数据量也会非常庞大,当在面对海量数据进行查询时,性能会下降得严重,特别是对于传统的关系型数据库,常常出现查询超时,单点故障等问题。而且,在根据用户输入的关键词和设置的筛选条件进行检索时,有时会出现返回得结果很少甚至无结果的情况。
面对不断增长的海量数据,如何提高检索速度,提升用户的检索体验,以及能够给用户推荐一些相关的检索建议,成为了亟待解决的问题。
发明内容
本发明的目的是提供一种全文快速检索方法、装置、电子设备及存储介质,用以至少部分解决现有技术中存在的问题。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明提供了一种全文快速检索装置,包括:数据抽取模块、拦截分词模块、索引构建模块、检索接口模块;
所述数据抽取模块用于将非结构化数据同步到ElasticSearch中;
所述拦截分词模块用于对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
所述索引构建模块用于将所述词及与所述词相关的信息构建成索引;
所述检索接口模块用于提供检索接口以供客户端进行基于所述索引的检索。
可选地,所述数据抽取模块使用增量抽取将所述非结构化数据同步到ElasticSearch中。
可选地,所说拦截分词模块包括:
附件拦截器,用于对所述非结构化数据中附件形式的数据进行文本提取;
聚合拦截器,用于将所述非结构化数据中存在关联的表格或字段聚合在一起;
数组拦截器,用于将所述非结构化数据中存在关联的所述词存储在一个数组中;
自动补全拦截器,用于基于所述非结构化数据中存在对应关系的所述词建立词法树。
可选地,所述索引构建模块基于所述拦截分词模块处理结果,构建支持附件检索、模糊检索、拼音检索以及自动补全的索引。
可选地,所述检索接口模块提供的检索接口是统一的Restful风格接口。
可选地,还包括预处理模块,用于对ElasticSearch中的所述非结构化数据进行预处理。
第二方面,基于本发明第一方面所述的全文快速检索装置所实现的全文快速检索方法,包括:
将非结构化数据同步到ElasticSearch中;
对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
将所述词及与所述词相关的信息构建成索引;
提供检索接口以供客户端进行基于所述索引的检索。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所述全文快速检索方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第二方面所述全文快速检索方法的步骤。
第五方面,本发明实施例还提供了一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现如第二方面所述全文快速检索方法的步骤。
根据本发明实施例提供的全文快速检索装置集成了ElasticSearch等组件,可以实现一键安装,拥有统一的搜索接口,并且可以自定义抽取数据的任务,提供一站式全文检索服务。
附图说明
图1是本发明实施例提供的全文快速检索装置的结构示意图;
图2是本发明实施例提供的全文快速检索方法的流程图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库无一不是海量信息数据库。
为了实现在海量数据中进行快速检索,避免出现单点故障,方便运维,提升用户的搜索体验,我们采用了ElasticSearch,ElasticSearch是一个基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎,基于Restful web接口。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎。
ElasticSearch具有磁盘存储顺序存储;将数据和索引分离;压缩数据;热点数据放内存;多线程等特点,根据ElasticSearch的特点,本发明实施例提出了全文快速检索方法,用以解决现有技术中存在的问题。企业业务积累的数据大多是非结构化数据,非结构化数据又称之为全文数据。为了实现全文数据的快速检索,可以提前将关键字建成索引,然后再根据索引查找文档,也就是根据词找文档。这种先建立索引,再对索引进行搜索文档的过程就叫全文检索。
参考图1,图1是本发明实施例提供的全文快速检索装置的结构示意图,本发明实施例提供的全文快速检索装置包括:数据抽取模块110、拦截分词模块120、索引构建模块130、检索接口模块140;
所述数据抽取模块110用于将非结构化数据同步到ElasticSearch中;
所述拦截分词模块120用于对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
所述索引构建模块130用于将所述词及与所述词相关的信息构建成索引;
所述检索接口模块140用于提供检索接口以供客户端进行基于所述索引的检索。
面对面对不断增长的海量数据,本发明实施例提供的全文快速检索方法采用了增量抽取的数据抽取方式,数据抽取模块使用增量抽取将所述非结构化数据同步到ElasticSearch中。数据抽取有全量抽取和增量抽取两种,全量抽取用于初次数据抽取时,即将所有数据同步至ElasticSearch中,适用于初次抽取。而增量抽取则以时间线为依据,当数据发生更新(新增或修改)时,改变时间戳字段,将变化之后的数据与ElasticSearch进行同步,增量抽取相比全量抽取,具有快速而高效同步的优点,为实时搜索提供了基础保障。
面对海量的数据,可以进行预处理。由自然语言构成的文本存在许多对于检索没有帮助的信息,因此需要去除无关信息,提高检索速度和准确度。根据香农理论,一个词出现的概率越大,其包含的信息量越小,例如逗号等标点符号、“a”等英文中的冠词、“也”等中文中的虚词,去掉这些词可以使文本信息更紧凑,更适于检索。还可以对文本进行标准化的处理,如英文中有大小写、时态、语态和单复数的变化,将所有词标准化为一种形态有助于简化自然语言的检索。经过各种现有的或未来的常规预处理手段处理后,自然语言形式的数据格式会变成专门用于文本检索的、方便计算机解读的数据格式。
在elasticsearch中查询数据,当使用默认的分词器时,搜索时会把搜索到的句子进行分词,把字段分成单个汉字,分词效果不太理想。本发明实施例提出了拦截分词模块,包括自动补全拦截器、聚合拦截器、数组拦截器和附件拦截器。
自动补全拦截器,用于基于所述非结构化数据中存在对应关系的所述词建立词法树。自动补全拦截器用于当标题、关键字、拼音等被输入搜索框时,根据数据库中的数据自动分析并补全剩余的搜索内容。自动补全拦截器可以将汉字分解成拼音,并设定成ElasticSearch相应的字段属性,通过IK分词器分词后进行全文搜索并返回补全结果。
聚合拦截器,用于将所述非结构化数据中存在关联的表格或字段聚合在一起。关系型数据库中多个表格或字段可能是相互关联的,聚合拦截器用于将具有关联性的表数据或字段数据聚合在一起。
数组拦截器,用于将所述非结构化数据中存在关联的所述词存储在一个数组中。数组拦截器用于将某篇文档或标题中的多个关键词或多个相关联的词以数组的方式存储至一个字段中。这样当检索这些关键词时可以检索出所有相关联的文档。
附件拦截器,用于对所述非结构化数据中附件形式的数据进行文本提取。附件拦截器用于以附件形式存储在文件服务器中的数据进行文本提取,通过IK分词器分词后存储至ElasticSearch。文本的输入和存储有两种方式,一种是以富文本编辑,以字符串形式存储至数据库中。另一种是以附件的形式存储至文件服务器,文件的格式可能是doc、docx、pdf、txt等,通过附件拦截器,实现了对附件形式的文本的全文检索。
本发明实施例提供的全文快速检索装置中的上述自动补全拦截器、聚合拦截器、数组拦截器和附件拦截器,以插件形式存在,可以根据需求扩展,适合不同的业务检索需求。
然后是构建索引,将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。预处理之后得到结果可以称之为词,将词传递给索引构建模块,索引构建模块将包含所有词及其他信息如某词出现的次数和位置存储到一个数据结构中,从而构建索引。本发明实施例提供的全文快速检索方法可以根据具体业务的需求,分析输入的待检索字段,提供自动补全、拼音检索、附件检索、模糊查询等功能,为了实现这些功能,索引构建模块基于所述拦截分词模块处理结果,构建支持附件检索、模糊检索、拼音检索以及自动补全的索引。需要在创建索引之初,将数据库中的数据变换结构存储至ElasticSearch,构建相应的索引,从而方便进行全文检索。
检索接口模块,本发明实施例提供的全文快速检索装置提供restful风格接口的检索接口,可以方便客户端调用,降低调用者的学习成本和开发维护成本。与此同时,通过这种方式,将业务与搜索功能分立,统一搜索接口,提高开发和运维效率。
参考图2,图2是本发明实施例提供的全文快速检索方法的流程图,本发明实施例提供的全文快速检索方法包括:
步骤210,将非结构化数据同步到ElasticSearch中;
步骤220,对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
步骤230,将所述词及与所述词相关的信息构建成索引;
步骤240,提供检索接口以供客户端进行基于所述索引的检索。
本发明实施例提供的全文快速检索方法是基于全文快速检索装置实现的。
本发明实施例提出的全文快速检索方法、装置、电子设备及存储介质集成了ElasticSearch、Flume、DataX、JDK等组件,可以实现一键安装,拥有统一的搜索接口,并且可以自定义抽取数据的任务,提供一站式全文检索服务。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行全文快速检索方法,该方法包括:将非结构化数据同步到ElasticSearch中;对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;将所述词及与所述词相关的信息构建成索引;提供检索接口以供客户端进行基于所述索引的检索。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的全文快速检索方法,该方法包括:将非结构化数据同步到ElasticSearch中;对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;将所述词及与所述词相关的信息构建成索引;提供检索接口以供客户端进行基于所述索引的检索。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的全文快速检索方法,该方法包括:将非结构化数据同步到ElasticSearch中;对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;将所述词及与所述词相关的信息构建成索引;提供检索接口以供客户端进行基于所述索引的检索。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种全文快速检索装置,其特征在于,包括:数据抽取模块、拦截分词模块、索引构建模块、检索接口模块;
所述数据抽取模块用于将非结构化数据同步到ElasticSearch中;
所述拦截分词模块用于对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
所述索引构建模块用于将所述词及与所述词相关的信息构建成索引;
所述检索接口模块用于提供检索接口以供客户端进行基于所述索引的检索。
2.根据权利要求1所述的全文快速检索装置,其特征在于,所述数据抽取模块使用增量抽取将所述非结构化数据同步到ElasticSearch中。
3.根据权利要求1所述的全文快速检索装置,其特征在于,所说拦截分词模块包括:
附件拦截器,用于对所述非结构化数据中附件形式的数据进行文本提取;
聚合拦截器,用于将所述非结构化数据中存在关联的表格或字段聚合在一起;
数组拦截器,用于将所述非结构化数据中存在关联的所述词存储在一个数组中;
自动补全拦截器,用于基于所述非结构化数据中存在对应关系的所述词建立词法树。
4.根据权利要求3所述的全文快速检索装置,其特征在于,所述索引构建模块基于所述拦截分词模块处理结果,构建支持附件检索、模糊检索、拼音检索以及自动补全的索引。
5.根据权利要求1所述的全文快速检索装置,其特征在于,所述检索接口模块提供的检索接口是统一的Restful风格接口。
6.根据权利要求1所述的全文快速检索装置,其特征在于,还包括预处理模块,用于对ElasticSearch中的所述非结构化数据进行预处理。
7.基于权利要求1至6任一项所述的全文快速检索装置所实现的全文快速检索方法,其特征在于,包括:
将非结构化数据同步到ElasticSearch中;
对ElasticSearch中的所述非结构化数据进行拦截和分词,得到词与所述词相关的信息;
将所述词及与所述词相关的信息构建成索引;
提供检索接口以供客户端进行基于所述索引的检索。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求7所述全文快速检索方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求7所述全文快速检索方法的步骤。
10.一种计算机程序产品,所计算机程序产品包括有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求7所述全文快速检索方法的步骤。
CN202110546644.0A 2021-05-19 2021-05-19 全文快速检索方法、装置、电子设备及存储介质 Pending CN113377896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110546644.0A CN113377896A (zh) 2021-05-19 2021-05-19 全文快速检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110546644.0A CN113377896A (zh) 2021-05-19 2021-05-19 全文快速检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113377896A true CN113377896A (zh) 2021-09-10

Family

ID=77571316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110546644.0A Pending CN113377896A (zh) 2021-05-19 2021-05-19 全文快速检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113377896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098648A (zh) * 2022-08-25 2022-09-23 歌尔股份有限公司 企业数据搜索方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN110807038A (zh) * 2019-09-18 2020-02-18 国网江苏省电力有限公司 一种基于Elasticsearch的CMDB信息全文检索方法
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法
CN112269816A (zh) * 2020-11-10 2021-01-26 浪潮云信息技术股份公司 一种政务预约事项相关性检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN110807038A (zh) * 2019-09-18 2020-02-18 国网江苏省电力有限公司 一种基于Elasticsearch的CMDB信息全文检索方法
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法
CN112269816A (zh) * 2020-11-10 2021-01-26 浪潮云信息技术股份公司 一种政务预约事项相关性检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098648A (zh) * 2022-08-25 2022-09-23 歌尔股份有限公司 企业数据搜索方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US10783200B2 (en) Systems and methods of de-duplicating similar news feed items
TWI506460B (zh) 內容推薦系統及方法
US11120059B2 (en) Conversational query answering system
CN102087669B (zh) 基于语义关联的智能搜索引擎系统
US20170140059A1 (en) Knowledge-based entity detection and disambiguation
Van Zwol et al. Faceted exploration of image search results
EP3345118B1 (en) Identifying query patterns and associated aggregate statistics among search queries
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
WO2015179643A1 (en) Systems and methods for generating summaries of documents
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US20070078880A1 (en) Method and framework to support indexing and searching taxonomies in large scale full text indexes
CN107844493B (zh) 一种文件关联方法及系统
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
Bellare et al. Woo: A scalable and multi-tenant platform for continuous knowledge base synthesis
CN102819592A (zh) 一种基于Lucene的桌面搜索系统及方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN106503195A (zh) 一种基于搜索引擎的翻译词库检索方法及系统
CN111125297B (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
KR20100066919A (ko) 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
CN102117285B (zh) 一种基于语义索引的检索方法
CN113377896A (zh) 全文快速检索方法、装置、电子设备及存储介质
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
US9773035B1 (en) System and method for an annotation search index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination