CN114443728A - 一种基于Elasticsearch的检测报告搜索方法及装置 - Google Patents

一种基于Elasticsearch的检测报告搜索方法及装置 Download PDF

Info

Publication number
CN114443728A
CN114443728A CN202210012565.6A CN202210012565A CN114443728A CN 114443728 A CN114443728 A CN 114443728A CN 202210012565 A CN202210012565 A CN 202210012565A CN 114443728 A CN114443728 A CN 114443728A
Authority
CN
China
Prior art keywords
detection report
data
dictionary
index
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210012565.6A
Other languages
English (en)
Other versions
CN114443728B (zh
Inventor
黄俭
岑升
徐宇
假露青
何日福
陈世清
覃业祥
陈晓勇
刘高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU YUEJIAN SANHE SOFTWARE CO Ltd
Original Assignee
GUANGZHOU YUEJIAN SANHE SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU YUEJIAN SANHE SOFTWARE CO Ltd filed Critical GUANGZHOU YUEJIAN SANHE SOFTWARE CO Ltd
Priority to CN202210012565.6A priority Critical patent/CN114443728B/zh
Publication of CN114443728A publication Critical patent/CN114443728A/zh
Application granted granted Critical
Publication of CN114443728B publication Critical patent/CN114443728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Elasticsearch的检测报告搜索方法及装置。本发明通过根据业务场景从元数据库中获取元数据组合来创建业务索引,根据业务索引确定检测报告的索引数据,根据对索引数据设置的分词属性对检测报告进行分词处理来生成词典,根据词典建立倒排索引,使词典与检测报告映射,以在用户输入待搜索数据请求搜索检测报告时,根据拆分待搜索数据得到的各个搜索单词所在的词典与检测报告之间的映射关系,快速搜索到目标检测报告,从而能够支持全文索引,有效提高检测报告搜索效率。

Description

一种基于Elasticsearch的检测报告搜索方法及装置
技术领域
本发明涉及数据搜索技术领域,尤其涉及一种基于Elasticsearch的检测报告搜索方法及装置。
背景技术
工程检测主要是通过检测机构对建筑工程材料、施工成品等进行性能指标方面的判断与试验,检查相关工程施工质量是否满足标准要求,以将真实、全面和客观的质量信息形成检测报告。随着建筑工程施工规模的扩大和施工结构的复杂化,对检测报告的监管力度也有所增加,各地市都要求检测机构将检测报告上传市级或省级检测监管平台。在检测报告数据量较小的情况下,监管平台基于关系型数据库即可实现搜索检测报告,但在检测报告数据量较大的情况下,由于关系型数据库本身的结构限制,关系型数据库的搜索性能表现不佳,且不能支持全文索引,难以提高检测报告搜索效率。
发明内容
为了克服现有技术的缺陷,本发明提供一种基于Elasticsearch的检测报告搜索方法及装置,能够支持全文索引,有效提高检测报告搜索效率。
为了解决上述技术问题,第一方面,本发明的实施例提供一种基于Elasticsearch的检测报告搜索方法,包括:
从元数据库中获取多个元数据组合,分别根据每一所述元数据组合创建业务索引,得到多个所述业务索引,将所有所述业务索引存储在Elasticsearch分布式集群中;
在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,将所有所述索引数据存储在所述Elasticsearch分布式集群中;
对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射;
将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告。
进一步地,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告,还包括:
在无法确定所述搜索单词所在的词典时,根据所述Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索所述搜索单词对应的检测报告作为所述目标检测报告。
进一步地,所述从元数据库中获取多个元数据组合,具体为:
从接收的所有所述检测报告中提取元数据,将所述元数据存储于所述元数据库中,并从所述元数据库中抽取若干个所述元数据进行组合,得到所述元数据组合。
进一步地,所述在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,具体为:
从关系型数据库中获取新接收到的所述检测报告,根据所述业务索引对应的元数据组合,提取所述检测报告中的第一数据,并根据预先配置的组装规则,从所述关系型数据库中提取第二数据,组装所述第一数据和所述第二数据,得到所述索引数据。
进一步地,所述对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射,具体为:
根据所述索引数据的分词属性,对所述检测报告中具有所述分词属性的数据进行分词处理,基于拆分的多个检测单词生成所述词典;
按照词频高低顺序对所述词典中的检测单词进行排序,将得到的单词序列存入倒排链表,使所述倒排链表与所述检测报告映射。
进一步地,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,具体为:
根据预先配置的语法规则,将所述待搜索数据拆分为若干个所述搜索单词。
第二方面,本发明一实施例提供一种基于Elasticsearch的检测报告搜索装置,包括:
业务索引创建模块,用于从元数据库中获取多个元数据组合,分别根据每一所述元数据组合创建业务索引,得到多个所述业务索引,将所有所述业务索引存储在Elasticsearch分布式集群中;
索引数据获取模块,用于在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,将所有所述索引数据存储在所述Elasticsearch分布式集群中;
倒排索引建立模块,用于对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射;
检测报告搜索模块,用于将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告。
进一步地,所述检测报告搜索模块,还用于在无法确定所述搜索单词所在的词典时,根据所述Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索所述搜索单词对应的检测报告作为所述目标检测报告。
进一步地,所述从元数据库中获取多个元数据组合,具体为:
从接收的所有所述检测报告中提取元数据,将所述元数据存储于所述元数据库中,并从所述元数据库中抽取若干个所述元数据进行组合,得到所述元数据组合。
进一步地,所述在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,具体为:
从关系型数据库中获取新接收到的所述检测报告,根据所述业务索引对应的元数据组合,提取所述检测报告中的第一数据,并根据预先配置的组装规则,从所述关系型数据库中提取第二数据,组装所述第一数据和所述第二数据,得到所述索引数据。
本发明的实施例,具有如下有益效果:
通过从元数据库中获取多个元数据组合,分别根据每一元数据组合创建业务索引,得到多个业务索引,将所有业务索引存储在Elasticsearch分布式集群中,在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,将所有索引数据存储在Elasticsearch分布式集群中,对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射,将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告,实现搜索检测报告。相比于现有技术,本发明的实施例通过根据业务场景从元数据库中获取元数据组合来创建业务索引,根据业务索引确定检测报告的索引数据,根据对索引数据设置的分词属性对检测报告进行分词处理来生成词典,根据词典建立倒排索引,使词典与检测报告映射,以在用户输入待搜索数据请求搜索检测报告时,根据拆分待搜索数据得到的各个搜索单词所在的词典与检测报告之间的映射关系,快速搜索到目标检测报告,从而能够支持全文索引,有效提高检测报告搜索效率。
附图说明
图1为本发明第一实施例中的一种基于Elasticsearch的检测报告搜索方法的流程示意图;
图2为本发明第一实施例中示例的创建业务索引的数据流图;
图3为本发明第一实施例中示例的获取索引数据的数据流图;
图4为本发明第一实施例中示例的建立倒排索引的数据流图;
图5为本发明第一实施例中示例的搜索检测报告的数据流图;
图6为本发明第二实施例中的一种基于Elasticsearch的检测报告搜索装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的终端设备执行,且下文均以监管平台作为执行主体为例进行说明。
如图1所示,第一实施例提供一种基于Elasticsearch的检测报告搜索方法,包括步骤S1~S4:
S1、从元数据库中获取多个元数据组合,分别根据每一元数据组合创建业务索引,得到多个业务索引,将所有业务索引存储在Elasticsearch分布式集群中;
S2、在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,将所有索引数据存储在Elasticsearch分布式集群中;
S3、对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射;
S4、将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告。
作为示例性地,在步骤S1中,根据实际的业务场景,从元数据库中获取多个元数据组合,如由检测报告主键、检测报告编号、检测报告时间或检测报告类型等组成的元数据组合,分别根据每一元数据组合创建业务索引,得到多个业务索引,使元数据组合与业务索引映射,将所有业务索引存储在Elasticsearch分布式集群中。Elasticsearch分布式集群可提供RESTful接口服务,方便监管平台利用RESTful接口服务导入业务索引。
在步骤S2中,监管平台在接收到检测报告时,从Elasticsearch分布式集群中导入所有业务索引,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,将所有索引数据存储在Elasticsearch分布式集群中。Elasticsearch分布式集群可提供RESTful接口服务,方便监管平台利用RESTful接口服务搜索检测报告。
在步骤S3中,对各个索引数据设置分词属性,对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,将检测报告拆分成多个检测单词,基于多个检测单词生成词典,并对词典中的检测单词进行排序后存入倒排链表,建立倒排索引,使词典,也就是倒排链表与检测报告映射。
在步骤S4中,获取用户终端输入的待搜索数据,将待搜索数据拆分为若干个搜索单词,分别根据每一搜索单词定位其所在的词典,将各个搜索单词所在的词典作为目标词典,进而根据词典与检测报告之间的映射关系,将各个目标词典对应的检测报告作为目标检测报告,完成搜索检测报告。
本实施例通过根据业务场景从元数据库中获取元数据组合来创建业务索引,根据业务索引确定检测报告的索引数据,根据对索引数据设置的分词属性对检测报告进行分词处理来生成词典,根据词典建立倒排索引,使词典与检测报告映射,以在用户输入待搜索数据请求搜索检测报告时,根据拆分待搜索数据得到的各个搜索单词所在的词典与检测报告之间的映射关系,快速搜索到目标检测报告,从而能够支持全文索引,有效提高检测报告搜索效率。
在优选的实施例当中,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告,还包括:在无法确定搜索单词所在的词典时,根据Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索搜索单词对应的检测报告作为目标检测报告。
作为示例性地,在根据每一搜索单词定位其所在的词典时,若无法确定一搜索单词所在的词典,则等待获取Elasticsearch分布式集群反馈的检测报告主键集,根据检测报告主键集,从关系型数据库中搜索这一搜索单词对应的检测报告作为目标检测报告。
本实施例通过在无法确定搜索单词所在的词典时,根据Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索搜索单词对应的检测报告作为目标检测报告,能够确保向用户反馈目标检测报告,有效提高检测报告搜索效率。
在优选的实施例当中,所述从元数据库中获取多个元数据组合,具体为:从接收的所有检测报告中提取元数据,将元数据存储于元数据库中,并从元数据库中抽取若干个元数据进行组合,得到元数据组合。
作为示例性地,为适应实际的业务场景,需要对元数据库进行管理,监管平台在接收到检测报告时,根据当前的业务场景,从接收的所有检测报告,包括历史接收的检测报告和/或新接收的检测报告中提取可被搜索的数据作为元数据,如检测报告主键、检测报告编号、检测报告时间、检测报告类型等,将这些元数据存储于元数据库,并根据当前的业务场景从元数据库中抽取若干个元数据进行组合,得到元数据组合。其中,为防止检测报告中的敏感数据泄露,不选择敏感数据作为元数据。
本实施例通过根据接收的所有检测报告更新元数据库,有利于使后续创建的业务索引更适应实际的业务场景。
在优选的实施例当中,所述在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,具体为:从关系型数据库中获取新接收到的检测报告,根据业务索引对应的元数据组合,提取检测报告中的第一数据,并根据预先配置的组装规则,从关系型数据库中提取第二数据,组装第一数据和第二数据,得到索引数据。
作为示例性地,监管平台在接收到检测报告时,将检测报告存储于关系型数据库,需要从关系型数据库中调取新接收的检测报告,从Elasticsearch分布式集群中导入所有业务索引,对于每一业务索引,根据业务索引对应的元数据组合,提取检测报告中的第一数据,并根据预先配置的组装规则,从关系型数据库中提取第二数据,组装第一数据和第二数据,得到索引数据。
可以理解的是,当业务索引需要溯源检测报告的建设单位或见证取样等相关数据,而检测报告中只有工程编码、样品编号等数据时,可以根据预先配置的组装规则,从关系型数据库中提取相关数据,通过数据组装器将相关数据与检测报告中的工程编码、样品编号等数据进行组装,得到索引数据。
在优选的实施例当中,所述对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射,具体为:根据索引数据的分词属性,对检测报告中具有分词属性的数据进行分词处理,基于拆分的多个检测单词生成词典;按照词频高低顺序对词典中的检测单词进行排序,将得到的单词序列存入倒排链表,使倒排链表与检测报告映射。
作为示例性地,对各个索引数据设置分词属性,对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,将检测报告拆分成多个检测单词,基于多个检测单词生成词典,并按照各个检测单词的词频(出现次数)从高到低的顺序对词典中的检测单词进行排序,得到单词序列,将单词序列存入倒排链表,建立倒排索引,使词典,也就是倒排链表与检测报告映射。
在优选的实施例当中,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,具体为:根据预先配置的语法规则,将待搜索数据拆分为若干个搜索单词。
本实施例通过根据预先配置的语法规则,将待搜索数据拆分为若干个搜索单词,能够确保搜索单词的完整性和合理性,有利于保证有效搜索检测报告。
在优选的实施例当中,所述将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告,具体为:基于用户终端的搜索权限,分别根据每一搜索单词定位其所在的词典,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告。
本实施例通过考虑用户终端的搜索权限进行检测报告的搜索,能够避免将重要的检测报告泄露给不相关的用户,有利于保证检测报告的安全性。
为了更加清楚地说明第一实施例提供的基于Elasticsearch的检测报告搜索方法,如图2所示,创建业务索引的具体过程如下:
①检测报告元数据管理,通过元数据库,可以灵活根据业务场景,定制业务索引;
②从元数据库中配置业务场景,在Elasticsearch分布式集群中存储可被检索的数据,如检测报告主键、检测报告编号、检测报告时间、检测报告类型等,对敏感数据不能设计进去,防止敏感数据泄露;
③使用映射表统一规范业务场景定义数据;
④根据指定的元数据创建业务索引;
⑤把创建好的业务索引存储到Elasticsearch分布式集群中;
⑥Elasticsearch分布式集群提供RESTful接口服务,监管平台利用RESTful接口服务导入业务索引。
如图3所示,获取索引数据的具体过程如下:
①从关系型数据库中获取检测报告;
②通过业务索引映射检测报告中的数据;
③根据检测报告中的数据组装索引数据,由于很多情况不能满足业务的需求,如用户权限、工程相关信息,五方责任单位等,这需要数据组装器根据已有的信息推断新的数据,数据组装的方式对原始数据进行扩充,从而实现不同的业务需求,其中数据组装器通过适配器开发模式,可以自动适配不同业务索引处理;
④把组装好的索引数据存储到Elasticsearch分布式集群中;
⑤Elasticsearch分布式集群提供RESTful接口服务,监管平台利用RESTful接口服务搜索检测报告信息。
如图4所示,建立倒排索引的具体过程如下:
①对索引数据设置分词属性;
②数据组装器推送检测报告中的数据进入Elasticsearch分词器,对具有分词属性的数据进行分词处理,分拆出词典,最后对词典排序和存进倒排链表;
③最终在Elasticsearch服务里形成索引域和文档域,以通过关键词迅速定位到一个词典,根据词典和检测报告之间的映射关系快速找到目标检测报告。
如图5所示,搜索检测报告的具体过程如下:
①用户输入待搜索数据请求搜索检测报告;
②根据预先配置的语法规则,通过中文分词器(IK)对待搜索数据进行分词;
③根据待搜索数据和用户的搜索权限进行全文搜索;
④响应结果集,若满足业务需求,直接返回目标检测报告信息;
⑤若不满足业务需求,通过响应检测报告主键集,再从关系型数据库取对应的目标检测报告。
基于与第一实施例相同的发明构思,第二实施例提供如图6所示的一种基于Elasticsearch的检测报告搜索装置,包括:业务索引创建模块21,用于从元数据库中获取多个元数据组合,分别根据每一元数据组合创建业务索引,得到多个业务索引,将所有业务索引存储在Elasticsearch分布式集群中;索引数据获取模块22,用于在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,将所有索引数据存储在Elasticsearch分布式集群中;倒排索引建立模块23,用于对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射;检测报告搜索模块24,用于将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告。
在优选的实施例当中,检测报告搜索模块24,还用于在无法确定搜索单词所在的词典时,根据Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索搜索单词对应的检测报告作为目标检测报告。
在优选的实施例当中,所述从元数据库中获取多个元数据组合,具体为:从接收的所有检测报告中提取元数据,将元数据存储于元数据库中,并从元数据库中抽取若干个元数据进行组合,得到元数据组合。
在优选的实施例当中,所述在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,具体为:从关系型数据库中获取新接收到的检测报告,根据业务索引对应的元数据组合,提取检测报告中的第一数据,并根据预先配置的组装规则,从关系型数据库中提取第二数据,组装第一数据和第二数据,得到索引数据。
在优选的实施例当中,所述对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射,具体为:根据索引数据的分词属性,对检测报告中具有分词属性的数据进行分词处理,基于拆分的多个检测单词生成词典;按照词频高低顺序对词典中的检测单词进行排序,将得到的单词序列存入倒排链表,使倒排链表与检测报告映射。
在优选的实施例当中,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,具体为:根据预先配置的语法规则,将待搜索数据拆分为若干个搜索单词。
综上所述,实施本发明的实施例,具有如下有益效果:
通过从元数据库中获取多个元数据组合,分别根据每一元数据组合创建业务索引,得到多个业务索引,将所有业务索引存储在Elasticsearch分布式集群中,在接收到检测报告时,分别根据每一业务索引确定检测报告的索引数据,得到多个索引数据,将所有索引数据存储在Elasticsearch分布式集群中,对于每一索引数据,根据索引数据的分词属性对检测报告进行分词处理,生成词典,并根据词典建立倒排索引,使词典与检测报告映射,将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个搜索单词所在的词典作为目标词典,进而将各个目标词典对应的检测报告作为目标检测报告,实现搜索检测报告。本发明的实施例通过根据业务场景从元数据库中获取元数据组合来创建业务索引,根据业务索引确定检测报告的索引数据,根据对索引数据设置的分词属性对检测报告进行分词处理来生成词典,根据词典建立倒排索引,使词典与检测报告映射,以在用户输入待搜索数据请求搜索检测报告时,根据拆分待搜索数据得到的各个搜索单词所在的词典与检测报告之间的映射关系,快速搜索到目标检测报告,从而能够支持全文索引,有效提高检测报告搜索效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种基于Elasticsearch的检测报告搜索方法,其特征在于,包括:
从元数据库中获取多个元数据组合,分别根据每一所述元数据组合创建业务索引,得到多个所述业务索引,将所有所述业务索引存储在Elasticsearch分布式集群中;
在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,将所有所述索引数据存储在所述Elasticsearch分布式集群中;
对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射;
将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告。
2.如权利要求1所述的基于Elasticsearch的检测报告搜索方法,其特征在于,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告,还包括:
在无法确定所述搜索单词所在的词典时,根据所述Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索所述搜索单词对应的检测报告作为所述目标检测报告。
3.如权利要求1或2所述的基于Elasticsearch的检测报告搜索方法,其特征在于,所述从元数据库中获取多个元数据组合,具体为:
从接收的所有所述检测报告中提取元数据,将所述元数据存储于所述元数据库中,并从所述元数据库中抽取若干个所述元数据进行组合,得到所述元数据组合。
4.如权利要求1或2所述的基于Elasticsearch的检测报告搜索方法,其特征在于,所述在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,具体为:
从关系型数据库中获取新接收到的所述检测报告,根据所述业务索引对应的元数据组合,提取所述检测报告中的第一数据,并根据预先配置的组装规则,从所述关系型数据库中提取第二数据,组装所述第一数据和所述第二数据,得到所述索引数据。
5.如权利要求1或2所述的基于Elasticsearch的检测报告搜索方法,其特征在于,所述对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射,具体为:
根据所述索引数据的分词属性,对所述检测报告中具有所述分词属性的数据进行分词处理,基于拆分的多个检测单词生成所述词典;
按照词频高低顺序对所述词典中的检测单词进行排序,将得到的单词序列存入倒排链表,使所述倒排链表与所述检测报告映射。
6.如权利要求1或2所述的基于Elasticsearch的检测报告搜索方法,其特征在于,所述将用户终端输入的待搜索数据拆分为若干个搜索单词,具体为:
根据预先配置的语法规则,将所述待搜索数据拆分为若干个所述搜索单词。
7.一种基于Elasticsearch的检测报告搜索装置,其特征在于,包括:
业务索引创建模块,用于从元数据库中获取多个元数据组合,分别根据每一所述元数据组合创建业务索引,得到多个所述业务索引,将所有所述业务索引存储在Elasticsearch分布式集群中;
索引数据获取模块,用于在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,将所有所述索引数据存储在所述Elasticsearch分布式集群中;
倒排索引建立模块,用于对于每一所述索引数据,根据所述索引数据的分词属性对所述检测报告进行分词处理,生成词典,并根据所述词典建立倒排索引,使所述词典与所述检测报告映射;
检测报告搜索模块,用于将用户终端输入的待搜索数据拆分为若干个搜索单词,将各个所述搜索单词所在的词典作为目标词典,进而将各个所述目标词典对应的检测报告作为目标检测报告。
8.如权利要求7所述的基于Elasticsearch的检测报告搜索装置,其特征在于,所述检测报告搜索模块,还用于在无法确定所述搜索单词所在的词典时,根据所述Elasticsearch分布式集群反馈的检测报告主键集,从关系型数据库中搜索所述搜索单词对应的检测报告作为所述目标检测报告。
9.如权利要求7或8所述的基于Elasticsearch的检测报告搜索装置,其特征在于,所述从元数据库中获取多个元数据组合,具体为:
从接收的所有所述检测报告中提取元数据,将所述元数据存储于所述元数据库中,并从所述元数据库中抽取若干个所述元数据进行组合,得到所述元数据组合。
10.如权利要求7或8所述的基于Elasticsearch的检测报告搜索装置,其特征在于,所述在接收到检测报告时,分别根据每一所述业务索引确定所述检测报告的索引数据,得到多个索引数据,具体为:
从关系型数据库中获取新接收到的所述检测报告,根据所述业务索引对应的元数据组合,提取所述检测报告中的第一数据,并根据预先配置的组装规则,从所述关系型数据库中提取第二数据,组装所述第一数据和所述第二数据,得到所述索引数据。
CN202210012565.6A 2022-01-04 2022-01-04 一种基于Elasticsearch的检测报告搜索方法及装置 Active CN114443728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210012565.6A CN114443728B (zh) 2022-01-04 2022-01-04 一种基于Elasticsearch的检测报告搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210012565.6A CN114443728B (zh) 2022-01-04 2022-01-04 一种基于Elasticsearch的检测报告搜索方法及装置

Publications (2)

Publication Number Publication Date
CN114443728A true CN114443728A (zh) 2022-05-06
CN114443728B CN114443728B (zh) 2022-11-15

Family

ID=81368000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210012565.6A Active CN114443728B (zh) 2022-01-04 2022-01-04 一种基于Elasticsearch的检测报告搜索方法及装置

Country Status (1)

Country Link
CN (1) CN114443728B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075252A (zh) * 2007-06-21 2007-11-21 腾讯科技(深圳)有限公司 一种网络搜索方法及系统
US20090132499A1 (en) * 2007-11-21 2009-05-21 Kabushiki Kaisha Toshiba Report searching apparatus and a method for searching a report
CN104915449A (zh) * 2015-06-30 2015-09-16 河海大学 一种基于水利对象分类标签的分面检索系统及方法
CN108984627A (zh) * 2018-06-20 2018-12-11 顺丰科技有限公司 基于Elasticsearch的加密文档的搜索方法、系统、设备和存储介质
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN110222203A (zh) * 2019-06-19 2019-09-10 深圳前海微众银行股份有限公司 元数据搜索方法、装置、设备及计算机可读存储介质
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN112131295A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 基于Elasticsearch的数据处理方法及设备
CN112988863A (zh) * 2021-02-09 2021-06-18 苏州中科蓝迪软件技术有限公司 一种基于Elasticsearch的异构多数据源的高效搜索引擎方法
CN113553491A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种基于倒排索引的工业大数据搜索优化方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075252A (zh) * 2007-06-21 2007-11-21 腾讯科技(深圳)有限公司 一种网络搜索方法及系统
US20090132499A1 (en) * 2007-11-21 2009-05-21 Kabushiki Kaisha Toshiba Report searching apparatus and a method for searching a report
CN104915449A (zh) * 2015-06-30 2015-09-16 河海大学 一种基于水利对象分类标签的分面检索系统及方法
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN108984627A (zh) * 2018-06-20 2018-12-11 顺丰科技有限公司 基于Elasticsearch的加密文档的搜索方法、系统、设备和存储介质
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN110222203A (zh) * 2019-06-19 2019-09-10 深圳前海微众银行股份有限公司 元数据搜索方法、装置、设备及计算机可读存储介质
CN112131295A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 基于Elasticsearch的数据处理方法及设备
CN112988863A (zh) * 2021-02-09 2021-06-18 苏州中科蓝迪软件技术有限公司 一种基于Elasticsearch的异构多数据源的高效搜索引擎方法
CN113553491A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种基于倒排索引的工业大数据搜索优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIZHONG WEI 等: "《An Optimization Method for Elasticsearch Index Shard Number》", 《IEEE》 *
姜康等: "基于ElasticSearch的元数据搜索与共享平台", 《计算机与现代化》 *
蒋维等: "分布式数据库搜索引擎的索引建立和优化", 《计算机工程》 *

Also Published As

Publication number Publication date
CN114443728B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
US11645317B2 (en) Recommending topic clusters for unstructured text documents
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
CN109213844B (zh) 一种文本处理方法、装置以及相关设备
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN111506621B (zh) 一种数据统计方法及装置
WO2002039320A1 (en) Method for structuring and searching information
CN106407360B (zh) 一种数据的处理方法及装置
CN107341080B (zh) 一种测试用例管理系统及方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN114547253A (zh) 一种基于知识库应用的语义搜索方法
CN112328910A (zh) 一种涵盖aoi和poi标准地址匹配引擎的方法及系统
CN111984673B (zh) 一种电网电能量计量系统树形结构模糊检索方法和装置
CN107291951B (zh) 数据处理方法、装置、存储介质和处理器
CN114443728B (zh) 一种基于Elasticsearch的检测报告搜索方法及装置
CN112307169A (zh) 地址数据的匹配方法、装置、计算机设备及存储介质
CN116820960A (zh) 软件测试的方法和电子设备
CN116361416A (zh) 基于语义分析及高维建模的语音检索方法、系统及介质
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和系统
CN115495545A (zh) 一种电网运行全景模型检索方法及电子设备、存储介质
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
CN113779215A (zh) 数据处理平台
CN115543993A (zh) 数据处理方法、装置、电子设备及存储介质
CN1841372A (zh) 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN117271577B (zh) 一种基于智能分析的关键字检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant