CN113934911B

CN113934911B - 一种文件爬取与搜索方法及系统

Info

Publication number: CN113934911B
Application number: CN202111219054.3A
Authority: CN
Inventors: 张大林; 任萱; 笪涛; 马骏毅; 徐艺敏; 蒋煜; 丁瑾; 徐波; 周杨
Original assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch
Current assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-03-03
Anticipated expiration: 2041-10-20
Also published as: CN113934911A

Abstract

本发明涉及一种文件爬取与搜索方法及系统，属于数据分析搜索技术领域。方法包括：通过至少一种协议建立与至少一种文件数据源的连接，所述协议包括文件传输协议FTP、安全外壳协议SSH和服务器消息区块协议SMB；根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本；基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索。本方法可以轻松地搜索到分布存储于网络空间中各类海量文件，极大地减少了人力搜索成本，有效避免了文件传递过程中的繁琐。

Description

一种文件爬取与搜索方法及系统

技术领域

本发明属于数据分析搜索技术领域，尤其涉及一种文件爬取与搜索方法及系统。

背景技术

随着互联网时代的到来，网络空间中的文件数据越来越多，数量众多的文件数据被分散储存在各类存储空间中，用户难以直接获取到想要的文件信息，面对不可预期的业务增长需求，文件管理系统便利性的可持续化发展面临诸多挑战。因此，文件爬取与搜索系统的精准爬取，快速搜索的优点得以体现。对于分散在各服务器各文件夹内的众多文件，文件爬取与搜索功能对于用户的重要性及对组织内业务沟通的有效推进能力愈发凸显。

随着业务的发展，电力内网组织中的业务文件剧增，且种类繁多，由于时间及空间的限制，以文件传递为目的的沟通成本也趋于增加，通过合理的配置爬取文件方式，实现分布数据源文件的快捷搜索功能是一个重要的研究方向。

现有的文件管理系统中，文件的搜索功能一般只能在本系统的服务器存储空间中搜索文件，在实际的生产环境中，组织内各种文件服务器上，例如FTP服务器、Windows共享文件夹等，分布存储着数量庞大的数据文件，一方面大量文件由于历史或安全原因分散存储在各处计算机服务器中，未存储在集中的文件管理系统中，另一方面各级用户面对海量文件，查找成本高，数据准确性难以得到保证。

现有的系统无法从用户的FTP服务器、Windows共享文件夹等处搜索文件，用户只能统一将文件上传到云盘中，但对于企业用户而言，上传数量众多的文件将面临数据安全等风险，且面向大众的商业化软件可能存在传输速度不稳定、广告打扰等问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种文件爬取与搜索方法及系统，通过至少一种协议建立与至少一种文件数据源的连接，根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本，然后基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索，可以轻松地搜索到分布存储于网络空间中各类海量文件，极大地减少了人力搜索成本，有效避免了文件传递过程中的繁琐。

根据本发明的一个方面，本发明提供了一种文件爬取与搜索方法，所述方法包括：

S1：通过至少一种协议建立与至少一种文件数据源的连接，所述协议包括文件传输协议FTP、安全外壳协议SSH和服务器消息区块协议SMB；

S2：根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本；

S3：基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索。

优选地，所述爬取配置信息包括爬取任务的启动模式和启动周期。

优选地，所述建立预分析库包括：

将爬取的文件数据索引存入Elasticsearch库中，对文档进行分析，文档句子切词后，将文档中的每个词语建立索引，记录该词在文档中出现的次数及位置，建立预分析库。

优选地，所述方法包括：

周期爬取文件时，根据原始文件生成MD5摘要，对比之前Elasticsearch库中该文件的MD5摘要，如果MD5摘要不一致，则更新Elasticsearch中的MD5摘要和文件内容，重建索引。

优选地，所述方法还包括：

对索引进行更新，通过比较文件所有标签的更新时间和上次索引时间，决定是否更新文件标签索引；或通过比较文件所有协作者的加入时间与上次索引时间，决定是否更新文件协作者索引；或通过比较文件所处文件夹向上递归查找所有协作者的加入时间与上次索引时间，决定是否更新文档协作者索引。

优选地，所述方法包括：

在文件爬取过程中，如果原始文件被删除，则删除爬取的文件本地副本和索引库对应的记录；如果原始文件被改名，则视作新文件进行爬取，并删除原有索引和文件本地副本；如果原始文件未改名同时内容被更新，则爬取并覆盖文件本地副本。

优选地，所述方法包括：

对用户输入的信息进行搜索，文件搜索结果按文件名称、文件大小和修改时间的任意组合排序。

根据本发明的另一个方面，本发明还提供了一种文件爬取与搜索系统，所述系统包括：

建立模块，用于通过至少一种协议建立与至少一种文件数据源的连接，所述协议包括文件传输协议FTP、安全外壳协议SSH和服务器消息区块协议SMB；

爬取模块，用于根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本；

搜索模块，用于基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索。

优选地，所述爬取模块还用于：

优选地，所述系统还包括更新模块，所述更新模块用于：

有益效果：本发明通过至少一种协议建立与至少一种文件数据源的连接，根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本，然后基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索，可以轻松地搜索到分布存储于网络空间中各类海量文件，极大地减少了人力搜索成本，有效避免了文件传递过程中的繁琐。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是本发明的文件爬取与搜索方法流程图；

图2是本发明的文件爬取与搜索系统示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明的文件爬取与搜索方法流程图。如图1所示，本发明提供了一种文件爬取与搜索方法，所述方法包括：

S1：通过至少一种协议建立与至少一种文件数据源的连接，所述协议包括文件传输协议FTP、安全外壳协议SSH和服务器消息区块协议SMB。

具体地，通过FTP、SMB或SSH等协议连接要爬取的文件夹，建立用户要爬取的文件数据源的配置入口，保障爬取通道的连通性。

进行多协议数据源配置，包括FTP、SMB和SSH协议，用户配置名称、IP、端口号、用户名、私钥或口令，设置文件索引、选择爬取通讯协议，包含FTP、SMB和SSH，最后配置爬取目标目录，完成配置。

对爬取的数据源进行必要的配置是文件搜索系统的基础。局域网文件爬取与搜索系统LANFCS为用户提供了安全快捷的配置方法，只需配置名称、主机名(IP)、端口号、用户名、协议类型(提供FTP、SMB和SSH三种连接协议)、验证方式、口令、文件索引和爬取目标目录即可链接到数据源，还可以使用SSH私钥来连接数据源(需用户开放SSH端口)。

S2：根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本。

具体地，所述爬取配置信息包括爬取任务的启动模式和启动周期。在所述爬取配置中，FSCrawler能够有效地对例如PDF、Open Office、MS Office等文件做索引，通过FSCrawler插件将doc、docx、xls、xlsx、ppt、pptx、pdf、txt等常见格式的文件内容导入Elasticsearch库中，通过配置FSCrawler可以达到周期性启动爬取任务或者由用户手动配置启动爬取任务。

使用FSCrawler配置任务的调度周期，并提供用户手动开启爬取文件的功能，XXL-JOB分布式任务调度平台将定期调度爬取任务。

所述预分析库为用户搜索时的容器，被爬取的文件数据索引存入Elasticsearch库中，并建立预分析库，可以使文件检索的速度达到1s内，让搜索速度体验得到保障。

优选地，所述建立预分析库包括：

具体地，将爬取的文件数据索引存入Elasticsearch库中，对文档进行分析，文档句子切词后，将文档中的每个词语建立索引，记录该词在文章中出现的次数及位置，建立预分析库。其中Elasticsearch创建索引时默认会将索引分为5个分片，建立1个备份，分片是为了减少每个索引的数据量，对分片进行备份可以保障数据的安全性，另一方面还可以分担数据检索的压力。这些都为文档地快速检索建立了基础。

优选地，所述方法包括：

优选地，所述方法还包括：

具体地，本机制建立在物理文件路径包含文件UUID且物理文件名不会变更的基础上。若内网网盘更换分布式存储框架，需重新设计实现该索引机制。执行器定时扫描维护索引。根据FILE_FCS_DOC表的DOC_ID来对齐索引库，更新方式为完整替换documentexternal中的相关字段。

当文件缺少DOC_ID时，直接尝试更新索引。

通过对比文件所有标签的更新时间和上次索引时间，决定是否更新文件标签索引。

通过对比文件所有协作者的加入时间与上次索引时间，决定是否更新文件协作者索引。

通过对比文件所处文件夹向上递归查找所有协作者的加入时间与上次索引时间，决定是否更新文档协作者索引。

优选地，所述方法包括：

优选地，所述方法包括：对用户输入的信息进行搜索，文件搜索结果按文件名称、文件大小和修改时间的任意组合排序。

为用户提供进行文件检索的操作入口，配置完数据源且爬虫已经爬取了数据建立索引后，用户只需在搜索框内输入要搜索的关键字即可搜索到想要查找的文件。系统还提供了根据文件格式来查找文件的功能，格式包括doc、docx、xls、xlsx、ppt、pptx、pdf、txt、epub、html、rtf和全部文件类型；搜索结果可按文件名称、文件大小和修改时间来自由组合排序。默认情况下，搜索结果排序中，文件标题优先级最高，其次是文件的标签，最后是文件的内容相关性；检索输入框提供了搜索关键词历史联想功能，会根据用户的输入去匹配历史搜索记录，提升了检索的便捷性。系统提供面向用户的文件搜索接口，只需在输入框中输入想要搜索的关键字，或者辅以通配符等高级搜索方法，系统会在1秒内返回结果，且搜索的关键字内容相关上下文可预览，关键字处高亮显示。与传统的文件搜索系统相比，LANFCS极大地方便了用户的搜索。对于搜索到的文件结果，系统还提供了文件快捷下载的功能。

系统为用户提供了内网范围内的指定格式文件的获取与文件内容解析功能，输入要搜索的关键字，指定文件的格式，即可搜索FTP服务器、共享文件夹、本地目录、局域网网盘内的文档，对于搜索出来的文件都可以进行下载，文档格式中只有doc、docx、xls、xlsx、ppt、pptx、pdf、txt可以在线阅读。

文件搜索的是缓存的索引库，但是下载总是最新的(原文件可能会被删除)，当原始文件与LANFCS之前爬取的本地副本不一致时，提供文件已更新提示，同时更新或删除该部分副本或索引记录。文件搜索结果默认按照标题、内容权重大小(标题权重大于内容权重，权重大的搜索结果放在前面)排序，还提供了根据文件名称、文件大小、修改时间组合排序的功能。

文件检索的结果会根据搜索关键字自动定位关键词所处段落，并且高亮展示(包括文件名)。同一个文件中有可能出现多个符合关键词的段落，不同的段落使用“…”进行连接，所以用户看的搜索结果并不是一段完整通顺的内容。

用户可以对文件进行阅读、编辑、下载操作，对于无法直接阅读和编辑的文档(比如zip压缩文件)，系统会提示用户主动下载该文档。

优选地，本实施例还可以实现文件检索配置、用户管理、角色管理、日志管理、个人信息管理，具体如下：

a)文件检索配置：为用户提供配置搜索文件的数据源功能，配置名称、IP、端口号、用户名、口令(或私钥)，设置文件索引、选择爬取通讯协议，包括FTP、SMB或SSH，支持包括对Windows共享文件夹、FTP服务器等的爬取。

b)用户管理：提供对系统内用户的管理功能，包含对用户账号的增删、用户信息的修改，用户身份类型修改、用户角色的修改等功能。

c)角色管理：提供对系统内角色的管理功能，包含对角色进行增删、角色信息的修改、绑定角色到用户等功能。

d)日志管理：提供对系统内用户的登录日志及管理日志的记录审计功能，可删除、查询日志。

e)个人信息管理：提供用户对个人信息进行查看和修改的功能，主要信息包括工号、姓名、账号、性别、状态、手机号码、邮箱、角色。

本实施例中，用户通过自由配置爬取的数据源，系统定期爬取文件数据建立预分析库，可以轻松地搜索到分布存储于网络空间中各类海量文件，极大地减少了人力搜索成本，有效避免了文件传递过程中的繁琐。本实施例通过FTP、SMB和SSH三种协议配置连接各种文件数据源，能够灵活、高效、安全地定期或手动爬取数据，并且提供了简洁且功能强大的文件搜索入口。

实施例2

图2是本发明的文件爬取与搜索系统示意图。如图2所示，本发明还提供了一种文件爬取与搜索系统，所述系统包括：

建立模块201，用于通过至少一种协议建立与至少一种文件数据源的连接，所述协议包括文件传输协议FTP、安全外壳协议SSH和服务器消息区块协议SMB；

爬取模块202，用于根据爬取配置信息，将爬取的文件数据索引存入Elasticsearch库中，建立预分析库，并生成文件本地副本；

搜索模块203，用于基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索。

优选地，所述爬取模块202还用于：

优选地，所述系统还包括更新模块204，所述更新模块204用于：

本实施例2中各个模块所实现的功能的具体实施过程与实施例1中的各个步骤的实施过程相同，在此不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种文件爬取与搜索方法，其特征在于，所述方法包括：

对爬取的数据源进行配置，局域网文件爬取与搜索系统配置名称、主机名、端口号、用户名、协议类型、验证方式、口令、文件索引和爬取目标目录即可链接到数据源；

S3：基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索；

将爬取的文件数据索引存入Elasticsearch库中，对文档进行分析，文档句子切词后，将文档中的每个词语建立索引，记录该词在文章中出现的次数及位置，建立预分析库；其中Elasticsearch创建索引时默认会将索引分为5个分片，建立1个备份；所述爬取配置信息包括爬取任务的启动模式和启动周期；所述建立预分析库包括：

将爬取的文件数据索引存入Elasticsearch库中，对文档进行分析，文档句子切词后，将文档中的每个词语建立索引，记录该词在文档中出现的次数及位置，建立预分析库；

周期爬取文件时，根据原始文件生成MD5摘要，对比之前Elasticsearch库中该文件的MD5摘要，如果MD5摘要不一致，则更新Elasticsearch中的MD5摘要和文件内容，重建索引；

对索引进行更新，通过比较文件所有标签的更新时间和上次索引时间，决定是否更新文件标签索引；或通过比较文件所有协作者的加入时间与上次索引时间，决定是否更新文件协作者索引；或通过比较文件所处文件夹向上递归查找所有协作者的加入时间与上次索引时间，决定是否更新文档协作者索引；

物理文件路径包含文件UUID且物理文件名不会变更，若内网网盘更换分布式存储框架，需重新设计实现该索引机制，执行器定时扫描维护索引，根据FILE_FCS_DOC表的DOC_ID来对齐索引库，更新方式为完整替换document external中的相关字段，

当文件缺少DOC_ID时，直接尝试更新索引，

通过对比文件所有标签的更新时间和上次索引时间，决定是否更新文件标签索引，

通过对比文件所有协作者的加入时间与上次索引时间，决定是否更新文件协作者索引，

通过对比文件所处文件夹向上递归查找所有协作者的加入时间与上次索引时间，决定是否更新文档协作者索引，

在文件爬取过程中，如果原始文件被删除，则删除爬取的文件本地副本和索引库对应的记录；如果原始文件被改名，则视作新文件进行爬取，并删除原有索引和文件本地副本；如果原始文件未改名同时内容被更新，则爬取并覆盖文件本地副本；

为用户提供进行文件检索的操作入口，配置完数据源且爬虫已经爬取了数据建立索引后，用户只需在搜索框内输入要搜索的关键字即可搜索到想要查找的文件；局域网文件爬取与搜索系统提供根据文件格式来查找文件的功能，格式包括doc、docx、xls、xlsx、ppt、pptx、pdf、txt、epub、html、rtf和全部文件类型；搜索结果可按文件名称、文件大小和修改时间来自由组合排序；搜索结果排序中，文件标题优先级最高，其次是文件的标签，最后是文件的内容相关性；检索输入框提供了搜索关键词历史联想功能，会根据用户的输入去匹配历史搜索记录，提升了检索的便捷性；系统提供面向用户的文件搜索接口，在输入框中输入想要搜索的关键字，辅以通配符高级搜索方法，系统会在1秒内返回结果，且搜索的关键字内容相关上下文可预览，关键字处高亮显示；

文件搜索的是缓存的索引库，而下载总是最新的，当原始文件与局域网文件爬取与搜索系统之前爬取的本地副本不一致时，提供文件已更新提示，同时更新或删除该部分副本或索引记录；文件搜索结果默认按照标题、内容权重大小排序，还提供根据文件名称、文件大小、修改时间组合排序的功能。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

3.一种文件爬取与搜索系统，其特征在于，所述系统包括：

对爬取的数据源进行配置；局域网文件爬取与搜索系统配置名称、主机名、端口号、用户名、协议类型、验证方式、口令、文件索引和爬取目标目录即可链接到数据源；

搜索模块，用于基于所述预分析库和所述文件本地副本，对用户输入的信息进行搜索；所述爬取模块还用于：

将爬取的文件数据索引存入Elasticsearch库中，对文档进行分析，文档句子切词后，将文档中的每个词语建立索引，记录该词在文档中出现的次数及位置，建立预分析库；所述系统还包括更新模块，所述更新模块用于：

周期爬取文件时，根据原始文件生成MD5摘要，对比之前Elasticsearch库中该文件的MD5摘要，如果MD5摘要不一致，则更新Elasticsearch中的MD5摘要和文件内容，重建索引；对索引进行更新，通过比较文件所有标签的更新时间和上次索引时间，决定是否更新文件标签索引；或通过比较文件所有协作者的加入时间与上次索引时间，决定是否更新文件协作者索引；或通过比较文件所处文件夹向上递归查找所有协作者的加入时间与上次索引时间，决定是否更新文档协作者索引；

当文件缺少DOC_ID时，直接尝试更新索引，