CN117971775A - 一种多类型文件的全文检索方法、装置、设备及介质 - Google Patents

一种多类型文件的全文检索方法、装置、设备及介质 Download PDF

Info

Publication number
CN117971775A
CN117971775A CN202410209030.7A CN202410209030A CN117971775A CN 117971775 A CN117971775 A CN 117971775A CN 202410209030 A CN202410209030 A CN 202410209030A CN 117971775 A CN117971775 A CN 117971775A
Authority
CN
China
Prior art keywords
file
type
information
files
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410209030.7A
Other languages
English (en)
Inventor
田金瓒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Urban Service Technology Co Ltd
Original Assignee
Inspur Urban Service Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Urban Service Technology Co Ltd filed Critical Inspur Urban Service Technology Co Ltd
Priority to CN202410209030.7A priority Critical patent/CN117971775A/zh
Publication of CN117971775A publication Critical patent/CN117971775A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种多类型文件的全文检索方法,涉及计算机技术领域,用于解决现有受文件类型的多样性问题难以通过统一方式快速实现对于多类型文件的检索,导致检索效率低的问题。方法包括:获取数据拥有端上传的多类型文件,以对各多类型文件进行文件处理,获得各多类型文件的文件信息;其中,文件信息包括:文件类型、文本内容;将文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得多类型文件的索引映射关系;接收数据获取端上传的内容检索信息,以使预置分布式搜索分析引擎基于索引映射关系对多类型文件进行全文检索,获得与内容检索信息相对应的文件,实现了对于多类型文件的高效检索。

Description

一种多类型文件的全文检索方法、装置、设备及介质
技术领域
本说明书涉及内容检索技术领域,尤其涉及一种多类型文件的全文检索方法、装置、设备及介质。
背景技术
随着互联网技术的不断发展与数字化时代的到来,基于文本数据的电子文档的数量在过去的十几年中激增,各行各业在日常业务工作中都积累了大量的文档素材及稿件。例如在企业管理软件中由于在工作中需要经常查询或调阅往期同类型同主题的文档作为参考,然而,面对数量庞大,主题多样,格式各异,且分散在不同的人员手中的材料文档,难以进行统一检索。因此,文件检索是提高企业管理效率的一项重要技术。
现有技术中的大多数管理软件对于文件的管理是以单据为单位的,只有少部分理软件可对文件统一管理,进行实现对于文件查询的功能,然而随着各类文档编辑工具的不断发展,文件类型多种多样例如当前存在:excel、word、ppt、txt、pdf、img等多种格式的文件,此时用户需要检索哪个文件中包含某些关键字时,受文件类型的多样性问题难以通过统一方式快速实现对于多类型文件的检索,获得相对应的文件,使得文件管理过程效率较低。
发明内容
为了解决上述技术问题,本说明书一个或多个实施例提供了一种多类型文件的全文检索方法。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种多类型文件的全文检索方法,方法包括:
可选地,在本说明书一个或多个实施例中,对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息,具体包括:
基于预置文件类型检测策略对所述多类型文件进行类型识别,获得所述多类型文件的文件类型;
根据所述文件类型调用对应的开源组件,以基于所述对应的开源组件对所述多类型文件进行内容提取,获得所述多类型文件的文本内容;
根据所述文件类型与所述文本内容确定所述多类型文件的文件信息。
可选地,在本说明书一个或多个实施例中,基于预置文件类型检测策略对所述多类型文件进行类型识别,具体包括:
提取所述多类型文件的文件后缀名,以基于所述文件后缀名确定所述多类型文件的初始文件类型;
提取所述多类型文件预设字节数量的字节,以基于所述字节所对应的字节模式确定所述多类型文件的第一检测文件类型,以对比所述初始文件类型与所述第一检测文件类型,确定所述多类型文件的文件类型;
若所述多类型文件不存在所述第一检测文件类型,则检测所述多文件类型的容器格式,以基于所述容器格式确定所述多类型文件的第二检测文件类型,以对比所述初始文件类型与所述第二检测文件类型,确定所述多类型文件的文件类型。
可选地,在本说明书一个或多个实施例中,将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系,具体包括:
根据所述预置文档模型确定所述文件信息中各字段名称与字段含义的匹配关系,以基于所述匹配关系确定所述多类型文件的索引参数;其中,所述索引参数包括:索引名、分片参数、备份参数;
基于所述索引参数构建所述多类型文件的索引关系,并基于所述索引关系对应的映射内容,构建所述多类型文件中各映射内容的索引映射关系。
可选地,在本说明书一个或多个实施例中,将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中之前,所述方法还包括:
确定各业务文件所对应的权限等级,以基于所述业务文件所对应的权限等级确定各所述业务文件所对应的初始文档数据模型;
获取所述初始文档数据模型的版型信息与更新时间,以基于所述版本信息与所述更新时间调用所述初始文档数据模型的自定义信息;
根据所述自定义信息更新所述初始文档数据模型,获得预置文档数据模型。
可选地,在本说明书一个或多个实施例中,接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件,具体包括:
接收所述数据获取端上传的内容检索信息,以提取所述内容检测信息所对应的关键词;
将所述关键词输入预置分布式搜索引擎,并根据所述索引映射关系获取所述关键词相对应的映射内容,以便将所述相对应的映射内容所对应的多类型文件返回所述数据获取端。
可选地,在本说明书一个或多个实施例中,预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件之后,所述方法还包括:
基于所述数据获取端上传的内容检索信息,确定所述数据获取端的身份信息,并基于所述身份信息确定所述数据获取端的权限等级;
若所述数据获取端的权限等级小于所述多类型文件的权限等级,则将预置信息模板返回所述数据获取端;
若所述数据获取端的权限等级大于等于所述多类型文件的权限等级,则将与所述内容检索信息相对应的文件返回所述数据获取端。
本说明书实施例提供一种多类型文件的全文检索装置,装置包括:
获取单元,用于获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
同步单元,用于将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
检索单元,用于接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
本说明书一个或多个实施例提供一种多类型文件的全文检索设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
获取到数据拥有端所上传的多个不同类型的文件,从而实现对于多类型文件的文件处理,获得多类型文件的文件信息,进而将文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得多类型文件的索引映射关系。避免了由于文件类型不统一导致文件内容提取过程复杂,进而降低管理效率的问题。而通过索引映射关系对多类型文件进行全文检索,提高了检索的效率实现了对于文件内容的查询。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种多类型文件的全文检索方法流程示意图;
图2为本说明书实施例提供的一种应用场景下的检索装置示意图;
图3为本说明书实施例提供的一种多类型文件的全文检索装置内部结构示意图;
图4为本说明书实施例提供的一种多类型文件的全文检索设备内部结构示意图;
图5为本说明书实施例提供的一种非易失性存储介质内部结构示意图。
具体实施方式
本说明书实施例提供一种多类型文件的全文检索方法、装置、设备及介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如图1所示,本说明书实施例提供了一种多类型文件的全文检索方法流程示意图。由图1可知,本说明书一个或多个实施例中一种多类型文件的全文检索方法,方法包括以下步骤:
S101:获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容。
为了避免需要对多类型文件进行检索获得需要的文件时,由于文件类型不统一导致文件内容提取过程复杂,进而降低管理效率的问题。本说明书实施例中首先获取到数据拥有端所上传的多个不同类型的文件,从而实现对于多类型文件的文件处理,获得多类型文件的文件信息。其中,需要说明的是:文件信息包括了文件类型和文本内容。即如图2所示的检索装置示意图,相当于文件类型识别器与文件内容提取器分别实现了对于文件类型和文本内容的提取。此处的文本内容是指在相应的阅览软件中打开文件时看到的内容。
具体地,在本说明书一个或多个实施例中,对各多类型文件进行文件处理,获得各多类型文件的文件信息,具体包括以下步骤:
首先,根据预置文件类型检测策略对多类型文件进行类型识别,获得多类型文件的文件类型。也就是如图2所示在将多类型文件上传到文件类型识别器后根据预先设置的文件类型检测策略对上传的多个不同类型的文件进行类型识别。然后文件内容提取器根据文件类型调用对应的开源组件,以基于对应的开源组件对多类型文件进行内容提取实现文件内容的解析,获得多类型文件的文本内容。然后,根据文件类型与文本内容确定出多类型文件的文件信息。
进一步地,在本说明书一个或多个实施例中,基于预置文件类型检测策略对多类型文件进行类型识别,具体包括以下过程:
首先,提取多类型文件的文件后缀名,从而根据文件后缀名确定出多类型文件的初始文件类型。此外,为了提高检测的准确性,解决部分不存在文件后缀名导致难以识别或识别错误的问题,本说明书实施例通过提取多类型文件预设字节数量的字节,从而根据字节所对应的字节模式确定出多类型文件的第一检测文件类型,然后通过对比初始文件类型与第一检测文件类型,确定出多类型文件的文件类型。也就是说,有些文件格式会将文件最开始的几个字节设置会特定的模式,因此通过这些特殊的字节模式,可以判断第一检测文件类型,并根据第一检测文件类型对于初始文件类型进行修正。如果多类型文件不存在第一检测文件类型,那么就检测该多文件类型的容器格式,然后根据容器格式确定出多类型文件的第二检测文件类型,从而对比初始文件类型与第二检测文件类型,确定多类型文件的文件类型。即有些文件格式是一种容器格式,这一类文件无法通过字节判断文件类型,因此需要对容器内的数据作更多的分析。
S102:将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系。
基于上述步骤S101获得文件信息后为了方便对于多类型文件进行快速检索,本说明书实施例中将文件信息根据预先设置的文档数据模型同步到了预先设置的分布式搜索分布引擎中,从而获得了多类型文件的索引映射关系。其中,需要说明的是预置分布式搜索引擎可以为:ElasticSearch。ElasticSearch是一个基于Apache Lucene构建的开源分布式搜索和分析引擎。它被设计用于实时搜索和分析大规模数据集。ElasticSearch以其可扩展性和灵活性而闻名,适用于各种用途,包括搜索引擎、日志和日志分析以及数据分析。它提供了强大的搜索功能,包括全文搜索、地理位置搜索和模糊搜索,同时支持各种数据类型和复杂查询。ElasticSearch还提供接近实时的索引、数据复制和跨多个节点进行分布式搜索的能力,以实现高可用性和故障容忍性。它可以与Kibana、Logstash和Beats等其他工具集成,形成Elastic Stack,为数据的管理和分析提供了完整的解决方案。
具体地,在本说明书一个或多个实施例中,将文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得多类型文件的索引映射关系,具体包括以下过程:
首先,根据预先设置的文档数据模型例如下表1所示的某应用场景下的文档数据模型确定出文件信息中各字段名称与字段含义的匹配关系,从而根据匹配关系确定出多类型文件的索引参数。其中,需要说明的是索引参数包括:索引名、分片参数、备份参数。然后基于索引参数构建出多类型文件的索引关系,并基于索引关系对应的映射内容,构建出多类型文件中各映射内容的索引映射关系。
表1.某应用场景下的文档数据模型
进一步地,在本说明书一个或多个实施例中,将文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中之前,方法还包括以下过程:
首先,为了实现对于文件的保密避免提高文件获取的安全性。本说明书实施例中确定出各业务文件所对应的权限等级,从而根据业务文件所对应的权限等级确定出各业务文件所对应的初始文档数据模型。然后为了实现对于初始文档模型数据的更新通过获取初始文档数据模型的版型信息与更新时间,从而根据版本信息和更新时间调用初始文档数据模型的自定义信息。然后根据自定义信息更新初始文档数据模型,获得预置文档数据模型。
S103:接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
在基于上述步骤S102获得多类型文件的索引映射关系之后,在接收到数据获取端上传的内容检索信息后,可以通过预置分布式搜索分析引擎基于索引映射关系对多类型文件进行全文检索,获得与内容检索信息相对应的文件。具体地,在本说明书一个或多个实施例中,接收数据获取端上传的内容检索信息,以使预置分布式搜索分析引擎基于索引映射关系对多类型文件进行全文检索,获得与内容检索信息相对应的文件,具体包括以下过程:首先,接收数据获取端所上传的内容检索信息,从而提取到内容检测信息所对应的关键词。然后再将关键词输入预置分布式搜索引擎中如图2所示,在将内容检索信息上传后预置分布式搜索引擎会根据索引映射关系获取到与关键词相对应的映射内容,以便于将相对应的映射内容所对应的多类型文件返回到数据获取端中。
进一步地,在本说明书一个或多个实施例中,预置分布式搜索分析引擎基于索引映射关系对多类型文件进行全文检索,获得与内容检索信息相对应的文件之后,方法还包括以下步骤:
首先,基于数据获取端上传的内容检索信息,确定出数据获取端的身份信息,然后再通过身份信息确定出数据获取端的权限等级。如果数据获取端的权限等级小于多类型文件的权限等级,那么说明该数据获取端没有权限获取对应的文件因此为了保证文件的安全性,此时就将预置信息模板例如“无权限访问”返回到数据获取端进行显示。而如果数据获取端的权限等级大于等于该多类型文件的权限等级,则将与内容检索信息相对应的文件返回到数据获取端。
进一步地,本说明书一个或多个实施例中,预置分布式搜索分析引擎还可以根据索引映射关系进行文档的创建、更改、删除、查询等操作,且能够提供批量处理的能力,实现同索引批量创建文档、同索引批量更改文档、同索引批量删除文档、按索引删除文档的功能。
如图3所示,本说明书实施例提供了一种多类型文件的全文检索装置内部结构示意图。由图3可知,在本说明书一个或多个实施例中,一种多类型文件的全文检索装置,装置包括:
获取单元301,用于获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
同步单元302,用于将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
检索单元303,用于接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
如图4所示,本说明书实施例提供了一种多类型文件的全文检索设备内部结构示意图。由图4可知,本说明书一个或多个实施例中提供了一种多类型文件的全文检索设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
如图5所示,本说明书实施例中提供了一种非易失性存储介质的内部结构示意图。由图5可知,在本说明书一个或多个实施例中,一种非易失性存储介质,存储有计算机可执行指令501,所述计算机可执行指令501能够:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种多类型文件的全文检索方法,其特征在于,所述方法包括:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
2.根据权利要求1所述的一种多类型文件的全文检索方法,其特征在于,对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息,具体包括:
基于预置文件类型检测策略对所述多类型文件进行类型识别,获得所述多类型文件的文件类型;
根据所述文件类型调用对应的开源组件,以基于所述对应的开源组件对所述多类型文件进行内容提取,获得所述多类型文件的文本内容;
根据所述文件类型与所述文本内容确定所述多类型文件的文件信息。
3.根据权利要求2所述的一种多类型文件的全文检索方法,其特征在于,所述基于预置文件类型检测策略对所述多类型文件进行类型识别,具体包括:
提取所述多类型文件的文件后缀名,以基于所述文件后缀名确定所述多类型文件的初始文件类型;
提取所述多类型文件预设字节数量的字节,以基于所述字节所对应的字节模式确定所述多类型文件的第一检测文件类型,以对比所述初始文件类型与所述第一检测文件类型,确定所述多类型文件的文件类型;
若所述多类型文件不存在所述第一检测文件类型,则检测所述多文件类型的容器格式,以基于所述容器格式确定所述多类型文件的第二检测文件类型,以对比所述初始文件类型与所述第二检测文件类型,确定所述多类型文件的文件类型。
4.根据权利要求1所述的一种多类型文件的全文检索方法,其特征在于,将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系,具体包括:
根据所述预置文档模型确定所述文件信息中各字段名称与字段含义的匹配关系,以基于所述匹配关系确定所述多类型文件的索引参数;其中,所述索引参数包括:索引名、分片参数、备份参数;
基于所述索引参数构建所述多类型文件的索引关系,并基于所述索引关系对应的映射内容,构建所述多类型文件中各映射内容的索引映射关系。
5.根据权利要求1所述的一种多类型文件的全文检索方法,其特征在于,将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中之前,所述方法还包括:
确定各业务文件所对应的权限等级,以基于所述业务文件所对应的权限等级确定各所述业务文件所对应的初始文档数据模型;
获取所述初始文档数据模型的版型信息与更新时间,以基于所述版本信息与所述更新时间调用所述初始文档数据模型的自定义信息;
根据所述自定义信息更新所述初始文档数据模型,获得预置文档数据模型。
6.根据权利要求1所述的一种多类型文件的全文检索方法,其特征在于,所述接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件,具体包括:
接收所述数据获取端上传的内容检索信息,以提取所述内容检测信息所对应的关键词;
将所述关键词输入预置分布式搜索引擎,并根据所述索引映射关系获取所述关键词相对应的映射内容,以便将所述相对应的映射内容所对应的多类型文件返回所述数据获取端。
7.根据权利要求5所述的一种多类型文件的全文检索方法,其特征在于,所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件之后,所述方法还包括:
基于所述数据获取端上传的内容检索信息,确定所述数据获取端的身份信息,并基于所述身份信息确定所述数据获取端的权限等级;
若所述数据获取端的权限等级小于所述多类型文件的权限等级,则将预置信息模板返回所述数据获取端;
若所述数据获取端的权限等级大于等于所述多类型文件的权限等级,则将与所述内容检索信息相对应的文件返回所述数据获取端。
8.一种多类型文件的全文检索装置,其特征在于,所述装置包括:
获取单元,用于获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
同步单元,用于将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
检索单元,用于接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
9.一种多类型文件的全文检索设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
10.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够:
获取数据拥有端上传的多类型文件,以对各所述多类型文件进行文件处理,获得各所述多类型文件的文件信息;其中,所述文件信息包括:文件类型、文本内容;
将所述文件信息基于预置文档数据模型同步到预置分布式搜索分析引擎中,获得所述多类型文件的索引映射关系;
接收数据获取端上传的内容检索信息,以使所述预置分布式搜索分析引擎基于所述索引映射关系对所述多类型文件进行全文检索,获得与所述内容检索信息相对应的文件。
CN202410209030.7A 2024-02-26 2024-02-26 一种多类型文件的全文检索方法、装置、设备及介质 Pending CN117971775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410209030.7A CN117971775A (zh) 2024-02-26 2024-02-26 一种多类型文件的全文检索方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410209030.7A CN117971775A (zh) 2024-02-26 2024-02-26 一种多类型文件的全文检索方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117971775A true CN117971775A (zh) 2024-05-03

Family

ID=90851180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410209030.7A Pending CN117971775A (zh) 2024-02-26 2024-02-26 一种多类型文件的全文检索方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117971775A (zh)

Similar Documents

Publication Publication Date Title
US20150199433A1 (en) Method and system for search engine indexing and searching using the index
CN109669925B (zh) 非结构化数据的管理方法及装置
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN107330024B (zh) 标签系统数据的存储方法和装置
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN115145871A (zh) 文件查询方法、装置和电子设备
CN112214505A (zh) 数据同步方法、装置、计算机可读存储介质及电子设备
CN113221036B (zh) 电子票据邮件的处理方法及装置
CN109947759A (zh) 一种数据索引建立方法、索引检索方法及装置
EP3343395B1 (en) Data storage method and apparatus for mobile terminal
CN112579633A (zh) 一种数据检索方法、装置、设备及存储介质
CN111382180A (zh) 一种本地缓存的数据清除方法和装置
CN116483605A (zh) 数据处理方法、装置、系统、存储介质及电子设备
CN107463618B (zh) 一种索引创建方法和装置
CN117971775A (zh) 一种多类型文件的全文检索方法、装置、设备及介质
CN115544050A (zh) 操作日志记录方法、装置、设备及存储介质
CN106528590B (zh) 一种查询方法及设备
CN114691610A (zh) 目录的处理方法和装置、存储介质及处理器
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
CN111143329B (zh) 一种数据处理方法及装置
US20130297576A1 (en) Efficient in-place preservation of content across content sources
CN112395292A (zh) 一种数据特征提取、匹配方法及装置
CN110704421A (zh) 数据处理方法、装置、设备和计算机可读存储介质
CN104252486B (zh) 一种数据处理的方法及装置
CN114238241B (zh) 财务数据的元数据处理方法和计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination