CN115757407A - 一种数据检索方法及设备 - Google Patents
一种数据检索方法及设备 Download PDFInfo
- Publication number
- CN115757407A CN115757407A CN202211450616.XA CN202211450616A CN115757407A CN 115757407 A CN115757407 A CN 115757407A CN 202211450616 A CN202211450616 A CN 202211450616A CN 115757407 A CN115757407 A CN 115757407A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- matching
- result
- data
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000001072 colon Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据检索方法、设备及介质,方法包括:根据检索请求,确定检索类型与检索词;若为结构化数据检索,根据预设结构化基本信息索引对检索词进行匹配,得到第一匹配结果;判断是否具有未匹配的第一未匹配检索词;若是,根据预设的维度字典索引,对第一未匹配检索词进行匹配;若匹配到对应的匹配维度,确定匹配维度所在结构化数据的目标基本信息;根据目标基本信息与第一匹配结果,得到第二匹配结果;判断是否具有未匹配的第二未匹配检索词;若是,根据预设结构化全文索引,对第二未匹配检索词进行匹配,得到全文匹配值;确定全文匹配值所在结构化数据的目标维度;根据目标维度与第二匹配结果,生成检索结果。提高数据检索效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据检索方法及设备。
背景技术
目前,主流数据中台软件,可创建数据湖仓进行各个内部业务系统以及外部数据进行各种结构化、非结构化数据的采集存储,并基于存储的数据提供数据分析等数据服务。
但是,各类数据和服务应用分散管理,部分有单独的检索功能,如对非结构化文档的检索,用户需要到各个功能中分散检索或者到数据库中检索;检索功能只针对被检索内容的标题、描述等基本信息,无法根据业务关键词快速找到相关的所有数据内容,导致数据检索效率低。
发明内容
本申请实施例提供一种数据检索方法及设备,用于解决数据检索效率低的问题。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种数据检索方法,该方法包括:接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;确定所述全文匹配值所在结构化数据的目标维度;根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
一个示例中,所述根据所述检索请求,确定当前的检索类型与待检索的检索词之后,所述方法还包括:若所述检索类型为非结构化数据检索,则根据预设非结构化基本信息索引对所述检索词进行匹配,得到第三匹配结果;根据所述第三匹配结果,判断是否具有未匹配的第三未匹配检索词;若是,则根据预设非结构化全文索引,对所述第三未匹配检索词进行匹配,得到全文匹配值;确定所述全文匹配值所在结构化数据的目标基本信息;根据所述全文匹配值所在结构化数据的目标基本信息与所述第三匹配结果,生成所述检索词的检索结果。
一个示例中,所述根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果,具体包括:若所述第一匹配结果为非空,则在所述第一匹配结果中,通过所述基本信息索引,对所述目标基本信息进行匹配,得到第二匹配结果;若所述第一匹配结果为空,则根据所述匹配维度所在结构化数据,生成第二匹配结果。
一个示例中,所述根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果,具体包括:若所述第二匹配结果为非空,则在所述第二匹配结果中,通过所述维度字典索引对所述目标维度进行匹配,生成所述检索词的检索结果;若所述第二匹配结果为空,则根据所述全文匹配值所在结构化数据,生成所述检索词的检索结果。
一个示例中,所述根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果,生成所述检索词的检索结果之后,所述方法还包括:若所述检索结果为多个,则确定每个检索结果的检索次数;按照检索次数由高到低的顺序,对所述每个检索结果进行排序;根据排序结果,向所述用户终端设备显示所述每个检索结果。
一个示例中,所述根据排序结果,向所述用户终端设备显示所述每个检索结果,具体包括:判断所述检索词是否包括预先设定形式的维度条件;所述维度条件与所述匹配维度有关;若是,则根据所述维度条件,对所述每个检索结果中的检索内容进行过滤;根据所述排序结果,向所述用户终端设备显示过滤后的每个检索结果。
一个示例中,所述接收用户终端设备的检索请求之前,所述方法还包括:构建具有结构化数据存储区和非结构化存储区的数据库;将样本结构化数据上传至所述结构化数据存储区,将样本非结构化数据上传至所述非结构化数据存储区;根据所述样本结构化数据,构建结构化基本信息索引、维度字典索引以及结构化全文索引;根据所述样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引。
一个示例中,所述将样本结构化数据上传至所述结构化数据存储区,具体包括:获取数据表样式的样本结构化数据;根据所述数据表的业务场景,将所述样本结构化数据转换为固定样式的看板样式,以及用户可拖动调整的自助分析样式;根据所述数据表样式、所述看板样式以及所述自助分析样式,将所述样本结构化数据上传至所述结构化存储区。
一个示例中,所述根据所述样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引,具体包括:提取所述样本非结构化数据的基本信息,根据所述基本信息,构建非结构化基本信息索引;在所述样本非结构化数据中,对预设文档类型的文件进行内容解析;根据解析的文件内容,构建非结构化全文索引。
另一方面,本申请实施例提供了一种数据检索设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;确定所述全文匹配值所在结构化数据的目标维度;根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
能够在一个输入框中输入搜索词时,根据基本信息索引、维度字典索引、全文索引3个索引进行检索,直接得到结构化数据与非结构化数据检索类型的检索结果,提高了检索效率,简便有效,为用户带来了良好的体验,尤其对于数据中台存储管理的结构化及非结构化大量数据,以及基于存储数据提供的分析看板等数据服务,能够采用统一的检索方式快速找到所需内容
附图说明
为了更清楚地说明本申请的技术方案,下面将结合附图来对本申请的部分实施例进行详细说明,附图中:
图1为本申请实施例提供的一种数据检索系统的框架示意图;
图2为本申请实施例提供的一种数据检索方法的流程示意图;
图3为本申请实施例提供的一种数据检索的首页示意图;
图4为本申请实施例提供的一种数据检索的结果示意图;
图5为本申请实施例提供的一种数据检索设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面参照附图来对本申请的一些实施例进行详细说明。
图1为本申请实施例提供的一种数据检索系统的框架示意图。
在图1中,包括业务系统、数据存储以及数据服务、ES索引库。
业务系统,包括业务系统1、业务系统2等,通过业务系统获取内部数据,以及外部系统获取外部数据,将内部数据以及外部数据上传至数据存储。即,内部数据与外部数据相当于数据存储的样本数据。
数据存储,包括结构化数据以及非结构化数据,即,数据存储是指数据库。该数据库具有结构化数据存储区和非结构化存储区。
数据服务,包括针对结构化数据的看板、分析、数据表,以及针对非结构化数据的文档。也就是说,数据服务是指结构化数据以及非结构化数据的数据存在格式。
其中,看板为固定样式,比如,一个固定的柱状图,分析则是指用户可以拖动调整的分析图,比如,可以对柱状图的展示格式进行调整,或者将柱状图调整为饼图。
也就是说,通过业务系统、数据存储以及数据服务,构建了检索内容,即,通过检索内容管理功能维护检索内容,以便形成索引。
ES索引库,包括基本信息索引、维度字典索引、全文索引。即,通过ES索引库,对检索内容进行大数据检索。检索内容在ES中创建基本信息索引、维度字典索引、全文索引。
在本申请一些实施例中,首先构建具有结构化数据存储区和非结构化存储区的数据库,即,数据存储。将样本结构化数据上传至结构化数据存储区,将样本非结构化数据上传至所述非结构化数据存储区。根据样本结构化数据,构建结构化基本信息索引、维度字典索引以及结构化全文索引。根据所述样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引。
其中,在将样本结构化数据上传至结构化数据存储区时,首先获取数据表样式的样本结构化数据;根据数据表的业务场景,将样本结构化数据转换为固定样式的看板样式,以及用户可拖动调整的自助分析样式;根据数据表样式、所述看板样式以及所述自助分析样式,将所述样本结构化数据上传至所述结构化存储区。
比如,在构建维度字典索引时,结构化数据的维度,指企业、人员、时间等通用业务信息,或者专有的枚举类业务信息,如产品类型。
对看板、分析,则是在定义时已经配置好维度作为查询条件,可以直接获取。
对数据表,需要标记维度列;其中,对各类维度,时间维度分年度、月度、季度、日期等类型进行标记;其他维度对应具体维度参数值,比如,产品ID、名称、简称创建维度字典索引,其中,检索内容管理中将枚举项逐个列出直接形成,对应数据表维度的从数据库读取形成。
另一方面,在根据样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引时,提取样本非结构化数据的基本信息,根据基本信息,构建非结构化基本信息索引。在样本非结构化数据中,对预设文档类型的文件进行内容解析;比如,txt、word、excel、wps文档类型。根据解析的文件内容,构建非结构化全文索引。
通过图1的系统,在一个输入框中输入搜索词时,根据基本信息索引、维度字典索引、全文索引3个索引进行检索,直接得到数据、分析、看板、文档等全域所有类型的检索结果。
接下来,通过图2继续详细描述具体如何进行数据检索,应用于图1的系统中。
图2为本申请实施例提供的一种数据检索方法的流程示意图。该方法可以应用于不同的业务领域,比如,互联网金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
本申请实施例涉及的分析方法的实现可以为终端设备,也可以为服务器,本申请对此不作特殊限制。为了方便理解和描述,以下实施例均以终端设备为例进行详细描述。
需要说明的是,该服务器可以是单独的一台设备,可以是有多台设备组成的系统,即,分布式服务器,本申请对此不做具体限定。
基于此,图2中的流程可以包括以下步骤:
S201:接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词。
其中,若检索类型为结构化数据检索,则执行S202-S210,若检索类型为非结构化数据检索,则执行S211-215。若检索类型为全部类型,则执行S202-210,以及执行S211-215。
需要说明的是,结构化数据检索类型包括数据表、看板、自助分析,非结构化数据检索类型包括文档。
此外,检索词可以为单个或者多个。用户根据预设的检索条件,在搜索框中输入待检索的检索词。比如,通过空格拆分检索词,多个检索词之间是“与”的关系。
S202:若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关。
其中,若检索词为多个,依次对每个检索词进行基本信息索引匹配。比如,标题名称为A班级的期中测试成绩表,对应的内容描述为用于表示A班级每个学生期中成绩的测试成绩表。
S203:根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词。
其中,若不具有未匹配的第一未匹配检索词,则说明已经匹配完成,不再执S204-S210,直接将第一匹配结果作为检索词的检索结果。
其中,若检索词为单个,则在具有未匹配的第一未匹配检索词时,说明在S202中,并未匹配到对应的结构化数据。
若检索词为多个,则在具有未匹配的第一未匹配检索词时,说明在S202中,一部分检索词没有匹配到另一部分相关的结构化数据。
比如,检索词为3个,两个检索词均匹配到A、B数据表,而剩下一个检索词未能匹配到A、B数据表。
又比如,检索词为4个,匹配结果为ab两个检索词均匹配到C数据表,剩余cd两个检索词均匹配到D数据表,那么可以先将ab两个检索词作为第一未匹配检索词,执行S204-S210。
在执行完成后,若ab两个匹配词均匹配到D数据表,则检索结果为D数据表。若a检索词匹配到D数据表,b检索词仍未匹配到D数据表,或者ab两个匹配词仍未匹配到D数据表,则继续将cd两个检索词作为第一未匹配检索词,执行S204-S210。
在执行完成后,若cd两个匹配词均匹配到C数据表,则检索结果为C数据表。若c检索词匹配到C数据表,d检索词仍未匹配到C数据表,则将C数据表作为检索结果。若cd两个匹配词均未匹配到C数据表,则将C数据表与D数据表作为检索结果。
S204:若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关。
比如,在检索类型为数据表时,维度则是指数据表中的字段。
S205:若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息。
比如,检索类型为数据表,则确定匹配维度所在数据表的标题名称。
S206:根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果。
其中,若第一匹配结果为非空,则在第一匹配结果中,通过基本信息索引,对目标基本信息进行匹配,得到第二匹配结果。比如,第一匹配结果为A、B数据表,目标基本信息匹配到A数据表,则第二匹配结果则为A数据表。
需要说明的是,第一匹配结果为非空,则是指预设结构化基本信息索引匹配到一个或多个检索词的结构化数据。
若第一匹配结果为空,则根据匹配维度所在结构化数据,生成第二匹配结果。比如,匹配维度所在结构化数据为C数据表,则直接将C数据表作为第二匹配结果。
需要说明的是,第一匹配结果为空是指预设结构化基本信息索引没有匹配到任意一个检索词的结构化数据。
S207:根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词。
若不具有未匹配的第二未匹配检索词,则说明已经匹配完成,不再执S208-S210,直接将第二匹配结果作为检索词的检索结果。可以理解的是,此时,第二匹配结果为非空。
S208:若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关。
比如,检索类型为数据表,则全文匹配值是指全文匹配值所在数据表的字段值。
S209:确定所述全文匹配值所在结构化数据的目标维度。
S210:根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
其中,若第二匹配结果为非空,则在第二匹配结果中,通过维度字典索引对目标维度进行匹配,生成检索词的检索结果。比如,第一匹配结果为A、B数据表,目标维度匹配到A数据表,则检索结果则为A数据表。
若第二匹配结果为空,则根据全文匹配值所在结构化数据,生成检索词的检索结果。此时,若第一匹配结果为空,则将全文匹配值所在结构化数据,作为检索词的检索结果,若第一匹配结果为非空,则在第一匹配结果中,对全文匹配值所在结构化数据的基本信息进行匹配,生成检索词的检索结果。
需要说明的是,在步骤S204,若没有匹配到对应的匹配维度,则直接根据预设结构化全文索引,对第一未匹配检索词进行匹配,若仍没有匹配到全文匹配值,则直接将第一匹配结果,作为检索词的检索结果。
S211:若所述检索类型为非结构化数据检索,则根据预设非结构化基本信息索引对所述检索词进行匹配,得到第三匹配结果。
S212:根据所述第三匹配结果,判断是否具有未匹配的第三未匹配检索词。
S213:若是,则根据预设非结构化全文索引,对所述第三未匹配检索词进行匹配,得到全文匹配值。
S214:确定所述全文匹配值所在结构化数据的目标基本信息。
S215:根据所述全文匹配值所在结构化数据的目标基本信息与所述第三匹配结果,生成所述检索词的检索结果。
其中,若第三匹配结果为非空,则在第三匹配结果中,通过所述基本信息索引,对全文匹配值所在结构化数据的目标基本信息进行匹配,得到检索词的检索结果。若第三匹配结果为空,则将所述全文匹配值所在结构化数据,作为检索词的检索结果。
在本申请的一些实施例中,若检索结果为多个,则确定每个检索结果的检索次数。然后,按照检索次数由高到低的顺序,对每个检索结果进行排序,根据排序结果,向用户终端设备显示所述每个检索结果。
进一步地,判断检索词是否包括预先设定形式的维度条件。维度条件与所述匹配维度有关;比如,“企业类型:国有独资,国有控股”、“月度>=202201等。
若是,则根据维度条件,对每个检索结果中的检索内容进行过滤;根据排序结果,向用户终端设备显示过滤后的每个检索结果。从而在查看检索结果时对结构化数据可传参过滤无需二次检索。
比如,维度条件规则如表1所示。
表1:
条件关键字 | 业务规则 |
: | 冒号前面是维度参数名,后面是维度参数值 |
, | 与冒号连用,标识多个参数值,互相之间是“或”的关系 |
% | 与冒号连用,表示模糊匹配 |
>>=<<= | 范围类条件,需要是时间类维度 |
检索框中输入时,按预设规则进行帮助,比如,如表2所示。
表2:
需要说明的是,虽然本申请实施例是参照图2来对步骤S201至步骤S215依次进行介绍说明的,但这并不代表步骤S201至步骤S215必须按照严格的先后顺序执行。本申请实施例之所以按照图2中所示的顺序对步骤S201至步骤S215依次进行介绍说明,是为了方便本领域技术人员理解本申请实施例的技术方案。换句话说,在本申请实施例中,步骤S201至步骤S215之间的先后顺序可以根据实际需要进行适当调整。
通过图2的方法,能够在一个输入框中输入搜索词时,根据基本信息索引、维度字典索引、全文索引3个索引进行检索,直接得到结构化数据与非结构化数据检索类型的检索结果,提高了检索效率,简便有效,为用户带来了良好的体验,尤其以一框式检索的简洁方式,为使用者提供覆盖数据中台中数据表、分析、看板、文档等结构化和非结构化全域数据的大数据智能检索服务。
更直观地,图3为本申请实施例提供的一种数据检索的首页示意图。图4为本申请实施例提供的一种数据检索的结果示意图。
在图4中,检索词为经营指标,搜索框下面,为对应的全部类型的检索结果。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。
图5为本申请实施例提供的一种数据检索设备的结构示意图,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;
若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;
根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;
若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;
若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;
根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;
根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;
若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;
确定所述全文匹配值所在结构化数据的目标维度;
根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
本申请的一些实施例提供的一种数据检索非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;
若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;
根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;
若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;
若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;
根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;
根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;
若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;
确定所述全文匹配值所在结构化数据的目标维度;
根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请技术原理之内所作的任何修改、等同替换、改进等,均应落入本申请的保护范围之内。
Claims (10)
1.一种数据检索方法,其特征在于,所述方法包括:
接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;
若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;
根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;
若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;
若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;
根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;
根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;
若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;
确定所述全文匹配值所在结构化数据的目标维度;
根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检索请求,确定当前的检索类型与待检索的检索词之后,所述方法还包括:
若所述检索类型为非结构化数据检索,则根据预设非结构化基本信息索引对所述检索词进行匹配,得到第三匹配结果;
根据所述第三匹配结果,判断是否具有未匹配的第三未匹配检索词;
若是,则根据预设非结构化全文索引,对所述第三未匹配检索词进行匹配,得到全文匹配值;
确定所述全文匹配值所在结构化数据的目标基本信息;
根据所述全文匹配值所在结构化数据的目标基本信息与所述第三匹配结果,生成所述检索词的检索结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果,具体包括:
若所述第一匹配结果为非空,则在所述第一匹配结果中,通过所述基本信息索引,对所述目标基本信息进行匹配,得到第二匹配结果;
若所述第一匹配结果为空,则根据所述匹配维度所在结构化数据,生成第二匹配结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果,具体包括:
若所述第二匹配结果为非空,则在所述第二匹配结果中,通过所述维度字典索引对所述目标维度进行匹配,生成所述检索词的检索结果;
若所述第二匹配结果为空,则根据所述全文匹配值所在结构化数据,生成所述检索词的检索结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果,生成所述检索词的检索结果之后,所述方法还包括:
若所述检索结果为多个,则确定每个检索结果的检索次数;
按照检索次数由高到低的顺序,对所述每个检索结果进行排序;
根据排序结果,向所述用户终端设备显示所述每个检索结果。
6.根据权利要求5所述的方法,其特征在于,所述根据排序结果,向所述用户终端设备显示所述每个检索结果,具体包括:
判断所述检索词是否包括预先设定形式的维度条件;所述维度条件与所述匹配维度有关;
若是,则根据所述维度条件,对所述每个检索结果中的检索内容进行过滤;
根据所述排序结果,向所述用户终端设备显示过滤后的每个检索结果。
7.根据权利要求1所述的方法,其特征在于,所述接收用户终端设备的检索请求之前,所述方法还包括:
构建具有结构化数据存储区和非结构化存储区的数据库;
将样本结构化数据上传至所述结构化数据存储区,将样本非结构化数据上传至所述非结构化数据存储区;
根据所述样本结构化数据,构建结构化基本信息索引、维度字典索引以及结构化全文索引;
根据所述样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引。
8.根据权利要求7所述的方法,其特征在于,所述将样本结构化数据上传至所述结构化数据存储区,具体包括:
获取数据表样式的样本结构化数据;
根据所述数据表的业务场景,将所述样本结构化数据转换为固定样式的看板样式,以及用户可拖动调整的自助分析样式;
根据所述数据表样式、所述看板样式以及所述自助分析样式,将所述样本结构化数据上传至所述结构化存储区。
9.根据权利要求7所述的方法,其特征在于,所述根据所述样本非结构化数据,构建非结构化基本信息索引、非结构化全文索引,具体包括:
提取所述样本非结构化数据的基本信息,根据所述基本信息,构建非结构化基本信息索引;
在所述样本非结构化数据中,对预设文档类型的文件进行内容解析;
根据解析的文件内容,构建非结构化全文索引。
10.一种数据检索设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
接收用户终端设备的检索请求,根据所述检索请求,确定当前的检索类型与待检索的检索词;
若所述检索类型为结构化数据检索,则根据预设结构化基本信息索引对所述检索词进行匹配,得到第一匹配结果;所述预设结构化基本信息索引与标题名称、内容描述相关;
根据所述第一匹配结果,判断是否具有未匹配的第一未匹配检索词;
若是,则根据预设的维度字典索引,对所述第一未匹配检索词进行匹配;所述维度字典索引与结构化数据的维度有关;
若匹配到对应的匹配维度,确定所述匹配维度所在结构化数据的目标基本信息;
根据所述目标基本信息与所述第一匹配结果,得到第二匹配结果;
根据所述第二匹配结果,判断是否具有未匹配的第二未匹配检索词;
若是,则根据预设结构化全文索引,对所述第二未匹配检索词进行匹配,得到全文匹配值;所述预设结构化全文索引与结构化数据的内容有关;
确定所述全文匹配值所在结构化数据的目标维度;
根据所述目标维度与所述第二匹配结果,生成所述检索词的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211450616.XA CN115757407A (zh) | 2022-11-18 | 2022-11-18 | 一种数据检索方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211450616.XA CN115757407A (zh) | 2022-11-18 | 2022-11-18 | 一种数据检索方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757407A true CN115757407A (zh) | 2023-03-07 |
Family
ID=85332940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211450616.XA Pending CN115757407A (zh) | 2022-11-18 | 2022-11-18 | 一种数据检索方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757407A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011057259A1 (en) * | 2009-11-09 | 2011-05-12 | Arcsight, Inc. | Enabling faster full-text searching using a structured data store |
US20130117302A1 (en) * | 2011-11-03 | 2013-05-09 | Electronics And Telecommunications Research Institute | Apparatus and method for searching for index-structured data including memory-based summary vector |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及系统 |
CN111899829A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种基于icd9/10分词词库的全文检索匹配引擎 |
-
2022
- 2022-11-18 CN CN202211450616.XA patent/CN115757407A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011057259A1 (en) * | 2009-11-09 | 2011-05-12 | Arcsight, Inc. | Enabling faster full-text searching using a structured data store |
US20130117302A1 (en) * | 2011-11-03 | 2013-05-09 | Electronics And Telecommunications Research Institute | Apparatus and method for searching for index-structured data including memory-based summary vector |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及系统 |
CN111899829A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种基于icd9/10分词词库的全文检索匹配引擎 |
Non-Patent Citations (1)
Title |
---|
朴岩: "基于统一搜索的信息服务平台", 计算机系统应用, 15 November 2020 (2020-11-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635120B (zh) | 知识图谱的构建方法、装置和存储介质 | |
CN109284363A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
US8380727B2 (en) | Information processing device and method, program, and recording medium | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
US20100079464A1 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
CN117150050B (zh) | 一种基于大语言模型的知识图谱构建方法及系统 | |
KR102281266B1 (ko) | 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법 | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
CN117743558B (zh) | 基于大模型的知识加工、知识问答方法、装置及介质 | |
CN116306974A (zh) | 问答系统的模型训练方法、装置、电子设备及存储介质 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
CN117077668A (zh) | 风险画像展示方法、装置、计算机设备和可读存储介质 | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115757407A (zh) | 一种数据检索方法及设备 | |
CN116049333A (zh) | 一种地址数据治理方法、设备及介质 | |
CN112214494B (zh) | 检索方法及装置 | |
CN115934927A (zh) | 一种安全知识的推送方法、系统、存储介质和电子设备 | |
CN115544369A (zh) | 数据搜索方法、装置、计算机设备以及存储介质 | |
CN114723516A (zh) | 基于成单数据的用户相似度计算方法及系统 | |
CN114416848A (zh) | 基于数据仓库的数据血缘关系处理方法及装置 | |
CN113723047A (zh) | 一种基于法律文件的图谱构建方法、设备及介质 | |
CN113204662A (zh) | 基于拍搜行为预测用户所属群组的方法、装置和计算机设备 | |
CN112597772A (zh) | 一种热点信息确定方法、计算机设备以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |