CN107247772A

CN107247772A - 一种基于互联网的图文搜索引擎

Info

Publication number: CN107247772A
Application number: CN201710420054.7A
Authority: CN
Inventors: 叶飞; 孙萍; 曹增安; 许兵
Original assignee: Hefei Flag Mdt Infotech Ltd
Current assignee: Hefei Flag Mdt Infotech Ltd
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-10-13

Abstract

本发明公开了一种基于互联网的图文搜索引擎，设置网页抓取模块页面抓取，存储至页面库，分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取，存储到数据库，设置索引服务模块，调用Solr构建索引文件，存储至索引文件库，设置搜索服务模块对用户客户端输入的检索内容进行解析，并从索引文件库获取检索结果信息，加以解析，展示给用户；本发明基于Solr技术，建立高效、独立的企业级搜索引擎，根据互联网网站的特点，对网站页面抓取；使用信息抓取模块和图像识别模块完成图文信息提取，调用Solr构建索引文件，采用Solr工具实现整个信息检索，整个搜索引擎操作简捷，搭建效率高、成本低。

Description

一种基于互联网的图文搜索引擎

技术领域

本发明属于搜索引擎技术领域，涉及一种图文搜索引擎，具体是一种基于互联网的图文搜索引擎。

背景技术

搜索引擎是互联网信息检索工具，其可以抓取相关信息并存放于索引文件中，并依据用户査询内容完成搜索，最终提供相应的检索内容。搜索引擎本身也是提供专业服务的网站系统，其依据相关算法收集特定范围或者互联网信息，然后将上述信息进行处理，提供检索服务。对于用户而言，借助搜索引擎其可以输入相关信息在互联网中寻找到自己想要的相关信息。

搜索技术的快速发展，政府企业单位对于搜索需求与要求也在逐渐提高。随着这些企事业单位的快速发展，其所产生的信息也在呈现快速增长状态。面对稳定的经济大环境以及改革开放的深入，其竞争也逐渐激烈，对于任何企事业单位而言，如何快速寻找企业内部现有信息，如何更高效率的搜寻信息越发重要。

目前市而上的搜索引擎十分多，如百度搜索、360搜索等，但对于单体企事业单位而言，现有的搜索引擎存在内部网页抓取不够深入，抓取信息存在冗余等问题；同时对于企事业单位而言，现有搜索引擎其本身存在泄密的风险，但是利用自身技术开发高效率的搜索引擎难度较大，其所占用的成本、人力较多，因此搭建效率较高、成本较低的企业级搜索引擎对于企事业单位而言十分重要。

发明内容

本发明的目的在于提供一种操作简捷，搭建效率高、成本低的图文搜索引擎。

本发明的目的可以通过以下技术方案实现：

一种基于互联网的图文搜索引擎，包括服务器端以及通过互联网连接服务器端的用户客户端；

所述服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块；

所述网页抓取模块，接入互联网，完成对预设的互联网网站所有页面的抓取，并将抓取的页面保存至页面库；

所述页面库，用于存储网页抓取模块抓取的网站页面；

所述信息抓取模块，用于对存储在页面库内的网站页面进行逐一读取，获取文字内容，分析其中的主体文字信息，存储至数据库中；

所述图像识别模块，用于对存储在页面库内的网站页面进行逐一读取，获取图像数据，并识别其中包含的图像信息，存储至数据库中；

所述数据库，用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息；

所述数据导入模块，用于将数据库中的文字信息和图像信息导入到索引服务模块，建立索引文件；

所述索引服务模块，根据数据库中的文字信息和图像信息，调用Solr构建索引文件，并且可定时完成索引构建，存储到索引文件库；

所述索引文件库，用于存储索引服务模块建立的索引文件；

所述搜索服务模块，对用户客户端输入的检索内容进行解析，并从索引文件库获取检索结果信息，加以解析，转发至用户客户端。

进一步地，所述用户客户端包括检索模块和展示模块；

所述检索模块，用于用户输入检索内容，上传到服务器端，获取对应的检索结果；

所述展示模块，用于从服务器端获取用户需要的检索结果信息，实时展示给用户，并完成分页处理操作。

本发明的有益效果：本发明提供的基于互联网的图文搜索引擎，设置网页抓取模块页面抓取，存储至页面库，分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取，存储到数据库，设置索引服务模块，调用Solr构建索引文件，存储至索引文件库，设置搜索服务模块对用户客户端输入的检索内容进行解析，并从索引文件库获取检索结果信息，加以解析，展示给用户；本发明基于Solr技术，建立高效、独立的企业级搜索引擎，根据互联网网站的特点，对网站页面抓取；使用信息抓取模块和图像识别模块完成图文信息提取，调用Solr构建索引文件，采用Solr工具实现整个信息检索，整个搜索引擎操作简捷，搭建效率高、成本低。

附图说明

下面结合附图和具体实施例对本发明作进一步详细描述。

图1是本发明系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于互联网的图文搜索引擎，包括服务器端以及通过互联网连接服务器端的用户客户端。

服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块。

网页抓取模块，接入互联网，完成对预设的互联网网站所有页面的抓取，并将抓取的页面保存至页面库。

页面库，用于存储网页抓取模块抓取的网站页面。

信息抓取模块，用于对存储在页面库内的网站页面进行逐一读取，获取文字内容，并对获取的文字内容进行分析，完成噪音的过滤，获取其中的主体文字信息并存储至数据库中。

图像识别模块，用于对存储在页面库内的网站页面进行逐一读取，获取图像数据，并对获取的图像数据进行识别，识别图像中包含的图像信息并存储至数据库中。

数据库，用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息。

数据导入模块，用于将数据库中的文字信息和图像信息导入到索引服务模块，建立索引文件。

索引服务模块，根据数据库中的文字信息和图像信息，调用Solr构建索引文件，并且可定时完成索引构建，存储到索引文件库。

索引文件库，用于存储索引服务模块建立的索引文件。

搜索服务模块，对用户客户端输入的检索内容进行解析，并从索引文件库获取检索结果信息，加以解析，转发至用户客户端。

用户客户端包括检索模块和展示模块。

检索模块，用于用户输入检索内容，上传到服务器端，获取对应的检索结果。

展示模块，用于从服务器端获取用户需要的检索结果信息，实时展示给用户，并完成分页处理操作。

本发明工作时：首先，网页抓取模块对预设的互联网网站所有页面进行抓取，并对所抓取的成果进行下载，存储至页面库；然后，信息抓取模块和图像识别模块分别对抓取页面的图文内容进行解析、提取(包括网页标题、时间、图像主题等)，同时将所提取的内容存储到数据库；随后，利用数据导入模块将上述存储的数据导入至索引服务模块，调用Solr构建索引文件，存储至索引文件库；最后，依据索引编程成果对用户输入的检索内容进行数据检索，并将检索结果信息呈现给用户。

本发明提供的基于互联网的图文搜索引擎，设置网页抓取模块页面抓取，存储至页面库，分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取，存储到数据库，设置索引服务模块，调用Solr构建索引文件，存储至索引文件库，设置搜索服务模块对用户客户端输入的检索内容进行解析，并从索引文件库获取检索结果信息，加以解析，展示给用户；本发明基于Solr技术，建立高效、独立的企业级搜索引擎，根据互联网网站的特点，对网站页面抓取；使用信息抓取模块和图像识别模块完成图文信息提取，调用Solr构建索引文件，采用Solr工具实现整个信息检索，整个搜索引擎操作简捷，搭建效率高、成本低。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于互联网的图文搜索引擎，其特征在于：包括服务器端以及通过互联网连接服务器端的用户客户端；

所述页面库，用于存储网页抓取模块抓取的网站页面；

所述索引文件库，用于存储索引服务模块建立的索引文件；

2.根据权利要求1所述的一种基于互联网的图文搜索引擎，其特征在于：所述用户客户端包括检索模块和展示模块；